Symud i'r prif gynnwys
Datblygu dulliau cyfrifol tuag at cynnwys a gynhyrchir gan AI yn y Gymraeg

Ysgrifennwyd gan Jason Evans

6 Chwefror 2026


Nid oes prinder crewyr cynnwys dynol mewn ieithoedd fel Saesneg, Sbaeneg neu Tsieinëeg, sydd â digon o adnoddau a llawer o siaradwyr. Boed yn wirfoddolwyr yn ysgrifennu ar Wicipedia, cyhoeddwyr masnachol neu gynnwys a gynhyrchir gan y wladwriaeth neu'r sector cyhoeddus, fel arfer gall pobl gael mynediad at y wybodaeth sydd ei hangen arnynt yn eu hiaith eu hunain.

Ar gyfer ieithoedd bach a lleiafrifol, mae hyn yn dod yn fwy o her. Mae gan y wladwriaeth lai o adnoddau, mae cyfleoedd masnachol yn gyfyngedig ac mae llai o siaradwyr yn golygu llai o wirfoddolwyr. Roedd gan Wicipedia Saesneg bron i 39,000 o olygyddion unigryw y mis diwethaf ac 826 o weinyddwyr. Er bod Wicipedia Cymraeg yn rhagori o ran nifer o erthyglau i gymharu â’r nifer o siaradwyr, mae'r ffigurau ychydig yn is, gyda 29 o olygyddion gweithredol a llond llaw o weinyddwyr.

Felly, er bod llawer o ymdrech i gynyddu nifer y cyfranwyr dynol, trwy ymgysylltu ag ysgolion, grwpiau cymunedol a phrifysgolion er enghraifft, mae 'na derfyn i’r hyn y gellir ei wneud ac mae hynny'n rhoi siaradwyr Cymraeg dan anfantais. Yn Llyfrgell Genedlaethol Cymru, credwn fod gan bawb hawl gyfartal i gael mynediad at wybodaeth yn y Gymraeg neu'r Saesneg, ac felly rydym wedi bod yn archwilio ffyrdd y gallwn gefnogi twf Wicipedia Cymraeg, trwy arloesedd technolegol yn ogystal ag actifiaeth gymunedol.

Mae yna arfer sefydledig o fewn cymuned Wikimedia o greu erthyglau a elwir yn erthyglau a gynhyrchir gan 'Bot'. Mae'r rhain yn cymryd data agored ac yn ei strwythuro'n frawddegau safonol i ffurfio erthyglau byr a chryno iawn ar raddfa fawr. Ac er bod hyn yn cynyddu nifer yr erthyglau, maent yn aml yn fyr ac yn brin o'r wybodaeth gyd-destunol a'r naws sydd eu hangen i gyfleu pwysigrwydd y pwnc yn llawn. Felly fe wnaethom ddatblygu dull hybrid, gan ychwanegu at yr erthyglau bot hyn gyda chrynodeb byr a ysgrifennwyd gan bobl. Roedd hyn yn golygu cyhoeddi setiau llai o erthyglau cyfoethocach, o erthyglau am bwnc penodol, fel lleoedd neu gasgliad o fywgraffiadau, gan leihau'r ymdrech ddynol oedd ei hangen i greu cynnwys newydd ar raddfa fawr.

Gyda chynnydd Deallusrwydd artiffisial (DA), gwelwn heriau amlwg, ond hefyd cyfleoedd. Wicipedia yw'r wefan iaith Gymraeg mwyaf o hyd, gyda miliynau o ymweliadau bob mis. Mae hefyd wedi'i ddogfennu'n eang bod cynnwys Wicipedia yn adnodd hyfforddi pwysig ar gyfer Modelau Iaith Fawr (LLMs) ac mae hyn yn bwysig yng nghyd-destun Cymru o ran ansawdd y wybodaeth a gynhyrchir gan DA a hefyd gallu’r modelau i gyfathrebu'n effeithiol yn y Gymraeg.

Felly, gyda chyllid gan raglen Cymraeg 2050 Llywodraeth Cymru, rydym wedi dechrau archwilio sut y gellir defnyddio DA yn gyfrifol i helpu i gynyddu faint o wybodaeth ddefnyddiol a chywir sydd ar gael yn y Gymraeg ar Wicipedia.

Gyda tharged o greu 1000 o fywgraffiadau Cymraeg newydd am unigolion nodedig yn y diwydiant ffilm, teledu a cherddoriaeth, dechreuais ddatblygu dull a ddefnyddiodd AI i leihau'r ymdrech ddynol oedd ei hangen, gan ddiogelu’r oruchwyliaeth ac atebolrwydd dynol am yr holl gynnwys.

Rhannwyd erthyglau yn bedair prif ran.

  1. Llwythwyd y gwybodlennu a'r delweddau'n uniongyrchol o Wikidata (cronfa ddata agored Wikimedia) gan ddefnyddio templedi presennol y Wicipedia Cymraeg. Mae Wikidata hefyd yn blatfform amlieithog felly mae modd ddefnyddio'r ffynhonnell hon i dynnu gwybodaeth i mewn yn y Gymraeg heb yr angen am gyfieithu.
  2. Mae gwybodaeth fywgraffyddol allweddol fel man geni, marwolaeth ac addysg a dyddiadau allweddol, ynghyd â chyfeiriadau perthnasol, yn cael eu tynnu o Wikidata a'u strwythuro fel brawddegau i'w defnyddio mewn erthyglau.
  3. Cynhyrchwyd rhestrau, fel ffilmyddiaeth, gan ddefnyddio Wikidata unwaith eto. Ar gyfer y rhain, defnyddiwyd offeryn o'r enw "Listeria". Fel efo’r gwybodlennu, os yw'r data perthnasol ar Wikidata yn cael i newid, bydd y newidiadau yn cael eu hadlewyrchu yn yr erthygl yn awtomatig. Felly os yw actor yn ymddangos mewn ffilm newydd, bydd ei ffilmyddiaeth yn cael ei ddiweddaru'n awtomatig efo’r wybodaeth newydd.
  4. Crynodeb DA a chyfieithiad o erthyglau Wicipedia Saesneg. Dewiswyd cynnwys lle'r oedd erthyglau ar goll yn y Gymraeg ond yn bresennol yn Saesneg, a datblygwyd cyfres fanwl o prompts i ChatGPT eu dilyn. Crynhodd y DA gynnwys penodol o erthyglau Saesneg a chynhyrchodd grynodeb yn y Gymraeg mewn tua 100-150 o eiriau.
     

PMae'n werth nodi bod AI hefyd wedi profi'n ddefnyddiol wrth gasglu'r holl ddata angenrheidiol at ei gilydd. Mae LLMs yn dda iawn am gyflawni ceisiadau technegol, fel cynhyrchu sgriptiau i echdynnu'r testun sydd ei angen o Wicipedia Saesneg, a thrawsnewid data i'r fformatau perthnasol. Roedd ChatGPT hyd yn oed yn gallu cynghori ar sut i strwythuro’r prompt ar gyfer crynhoi'r cynnwys Saesneg. Yn debyg iawn i'r broses o greu'r erthyglau eu hunain, mae DA yn cael ei bachu i gyflymu prosesau â llaw yn hytrach na disodli cyfranogiad dynol.

Ar ôl i mi echdynnu'r testun perthnasol o Wicipedia Saesneg trwy API MediaWiki, datblygais prompt ar gyfer creu'r crynodebau. Pwysleisiodd y pwysigrwydd o grynhoi gwybodaeth a oedd yn amlwg yn rhan o'r erthygl Saesneg yn unig, a’r pwysigrwydd o gadw tôn gwyddoniadurol Wicipedia. Roedd y prompt hefyd yn glir na dyle’r DA chynnwys y wybodaeth fywgraffyddol yr oeddem eisoes yn gallu ei chael o Wikidata. Trwy ddefnyddio data dibynadwy fel ffynhonnell ar gyfer y ffeithiau allweddol hyn, lleihaodd y risg o wallau yn yr allbwn DA, ac roedd yn golygu bod llai o destun a gynhyrchwyd gan AI i'w adolygu a'i wirio.

Dangosodd profion cychwynnol fod safon y Gymraeg yn wael ar adegau wrth geisio cyfieithu a chrynhoi mewn un cam. Gwellodd hyn yn fawr pan gyfarwyddwyd y model i grynhoi a chyfieithu mewn dau gam ar wahân.

Prosesodd Chat GPT y crynodebau mewn sypiau. Defnyddiais y rhyngwyneb gwe i brosesi’r testun ond gellid defnyddio API GPT hefyd i symleiddio'r broses ymhellach. Yna cafodd pob crynodeb ei brawf ddarllen gan roi sylw i gywirdeb ffeithiol a chywirdeb gramadegol. Roedd nifer fach iawn o anghywirdebau ffeithiol a oedd ar y cyfan yn ganlyniad gamddehongli'r testun gwreiddiol. Ni chanfyddais unrhyw rithwelediadau nac unrhyw wybodaeth nad oedd i'w chael yn y testun gwreiddiol.

Roedd y rhan fwyaf o'r cywiriadau yn ymwneud â phroblemau gyda'r cyfieithiad Cymraeg. Mewn rhai mannau roedd y cyfieithiad yn rhy lythrennol. Er enghraifft, roedd yn aml yn cyfieithu “Silent films” fel “Ffilmiau tawel”. Roedd enghreifftiau eraill lle'r oedd y Gymraeg yn dechnegol gywir ond roedd brawddegau'n llifo'n wael. Roedd rhai o'r problemau hyn yn batrymau ailadroddus ar draws yr holl erthyglau, a oedd yn golygu y gellid eu cywiro’r gyflym. Roedd angen ymyrraeth â llaw ar lefel erthygl ar gyfer problemau eraill.

Unwaith y gwiriwyd yr holl destunau, tynnwyd holl elfennau gwahanol yr erthyglau at ei gilydd gan ddefnyddio AutoWikiBrowser - offeryn pwerus ar gyfer golygu cynnwys Wiki mewn sypiau. Yna cyhoeddwyd erthyglau sampl i'w hadolygu gan y gymuned. Ac amlygodd hyn ychydig o wallau eraill, fel defnydd anghyson o derminoleg ac ychydig mwy o wallau gramadegol. Cafodd y rhain eu trafod ac i ddatrys, a rhoddwyd consensws gan gymuned olygyddol y Wicipedia Cymraeg cyn cyhoeddi'r holl erthyglau.

Roedd angen rhai cywiriadau bach ar bron pob un o'r 1000 o destunau, a gallai rhai dadlau bod hyn yn profi nad yw'r dull AI yn gweithio yn y cyd-destun hwn. Fodd bynnag, roedd yr amser a oedd ei angen i lunio a gwirio'r erthyglau hyn gan ddefnyddio'r broses a ddisgrifiwyd uchod yn ffracsiwn o'r amser y byddai wedi'i gymryd i ysgrifennu pob erthygl o'r dechrau. Mae'n dangos yn glir iawn hefyd na ellir awtomeiddio'n llawn ar hyn o bryd y broses o greu cynnwys gwyddoniadurol newydd, neu hyd yn oed trosglwyddo gwybodaeth o un iaith i'r llall. Mae AI yn cynnig offer pwerus i ni i gynorthwyo lledaenu gwybodaeth gan bobl fyw, go-iawn. Nid yw'n disodli'r gwaith pwysig y mae gwirfoddolwyr Wicipedia yn ei wneud, ond mae'n gwneud y gwaith yna ychydig yn haws.

Yn Llyfrgell Genedlaethol Cymru, mae ein dull o ddefnyddio AI yn canolbwyntio ar y pwysigrwydd o gael person yn y lŵp, ac yn atgyfnerthu atebolrwydd y gweithredwr am y safon unrhyw allbwn AI. Ond gyda gofal credwn y gall y technolegau newydd hyn helpu i ymgysylltu mwy o bobl â chynnwys Cymraeg ac ar yr un pryd helpu i ddatblygu'r corff o gynnwys Cymraeg sydd ei angen i hyfforddi modelau AI i ddeall a chyfathrebu'n well yn yr iaith Gymraeg.

Categori: Erthygl