Nid oes prinder crewyr cynnwys dynol mewn ieithoedd fel Saesneg, Sbaeneg neu Tsieinëeg, sydd â digon o adnoddau a llawer o siaradwyr. Boed yn wirfoddolwyr yn ysgrifennu ar Wicipedia, cyhoeddwyr masnachol neu gynnwys a gynhyrchir gan y wladwriaeth neu'r sector cyhoeddus, fel arfer gall pobl gael mynediad at y wybodaeth sydd ei hangen arnynt yn eu hiaith eu hunain.
Ar gyfer ieithoedd bach a lleiafrifol, mae hyn yn dod yn fwy o her. Mae gan y wladwriaeth lai o adnoddau, mae cyfleoedd masnachol yn gyfyngedig ac mae llai o siaradwyr yn golygu llai o wirfoddolwyr. Roedd gan Wicipedia Saesneg bron i 39,000 o olygyddion unigryw y mis diwethaf ac 826 o weinyddwyr. Er bod Wicipedia Cymraeg yn rhagori o ran nifer o erthyglau i gymharu â’r nifer o siaradwyr, mae'r ffigurau ychydig yn is, gyda 29 o olygyddion gweithredol a llond llaw o weinyddwyr.
Felly, er bod llawer o ymdrech i gynyddu nifer y cyfranwyr dynol, trwy ymgysylltu ag ysgolion, grwpiau cymunedol a phrifysgolion er enghraifft, mae 'na derfyn i’r hyn y gellir ei wneud ac mae hynny'n rhoi siaradwyr Cymraeg dan anfantais. Yn Llyfrgell Genedlaethol Cymru, credwn fod gan bawb hawl gyfartal i gael mynediad at wybodaeth yn y Gymraeg neu'r Saesneg, ac felly rydym wedi bod yn archwilio ffyrdd y gallwn gefnogi twf Wicipedia Cymraeg, trwy arloesedd technolegol yn ogystal ag actifiaeth gymunedol.
Mae yna arfer sefydledig o fewn cymuned Wikimedia o greu erthyglau a elwir yn erthyglau a gynhyrchir gan 'Bot'. Mae'r rhain yn cymryd data agored ac yn ei strwythuro'n frawddegau safonol i ffurfio erthyglau byr a chryno iawn ar raddfa fawr. Ac er bod hyn yn cynyddu nifer yr erthyglau, maent yn aml yn fyr ac yn brin o'r wybodaeth gyd-destunol a'r naws sydd eu hangen i gyfleu pwysigrwydd y pwnc yn llawn. Felly fe wnaethom ddatblygu dull hybrid, gan ychwanegu at yr erthyglau bot hyn gyda chrynodeb byr a ysgrifennwyd gan bobl. Roedd hyn yn golygu cyhoeddi setiau llai o erthyglau cyfoethocach, o erthyglau am bwnc penodol, fel lleoedd neu gasgliad o fywgraffiadau, gan leihau'r ymdrech ddynol oedd ei hangen i greu cynnwys newydd ar raddfa fawr.
Gyda chynnydd Deallusrwydd artiffisial (DA), gwelwn heriau amlwg, ond hefyd cyfleoedd. Wicipedia yw'r wefan iaith Gymraeg mwyaf o hyd, gyda miliynau o ymweliadau bob mis. Mae hefyd wedi'i ddogfennu'n eang bod cynnwys Wicipedia yn adnodd hyfforddi pwysig ar gyfer Modelau Iaith Fawr (LLMs) ac mae hyn yn bwysig yng nghyd-destun Cymru o ran ansawdd y wybodaeth a gynhyrchir gan DA a hefyd gallu’r modelau i gyfathrebu'n effeithiol yn y Gymraeg.
Felly, gyda chyllid gan raglen Cymraeg 2050 Llywodraeth Cymru, rydym wedi dechrau archwilio sut y gellir defnyddio DA yn gyfrifol i helpu i gynyddu faint o wybodaeth ddefnyddiol a chywir sydd ar gael yn y Gymraeg ar Wicipedia.
Gyda tharged o greu 1000 o fywgraffiadau Cymraeg newydd am unigolion nodedig yn y diwydiant ffilm, teledu a cherddoriaeth, dechreuais ddatblygu dull a ddefnyddiodd AI i leihau'r ymdrech ddynol oedd ei hangen, gan ddiogelu’r oruchwyliaeth ac atebolrwydd dynol am yr holl gynnwys.
Rhannwyd erthyglau yn bedair prif ran.
- Llwythwyd y gwybodlennu a'r delweddau'n uniongyrchol o Wikidata (cronfa ddata agored Wikimedia) gan ddefnyddio templedi presennol y Wicipedia Cymraeg. Mae Wikidata hefyd yn blatfform amlieithog felly mae modd ddefnyddio'r ffynhonnell hon i dynnu gwybodaeth i mewn yn y Gymraeg heb yr angen am gyfieithu.
- Mae gwybodaeth fywgraffyddol allweddol fel man geni, marwolaeth ac addysg a dyddiadau allweddol, ynghyd â chyfeiriadau perthnasol, yn cael eu tynnu o Wikidata a'u strwythuro fel brawddegau i'w defnyddio mewn erthyglau.
- Cynhyrchwyd rhestrau, fel ffilmyddiaeth, gan ddefnyddio Wikidata unwaith eto. Ar gyfer y rhain, defnyddiwyd offeryn o'r enw "Listeria". Fel efo’r gwybodlennu, os yw'r data perthnasol ar Wikidata yn cael i newid, bydd y newidiadau yn cael eu hadlewyrchu yn yr erthygl yn awtomatig. Felly os yw actor yn ymddangos mewn ffilm newydd, bydd ei ffilmyddiaeth yn cael ei ddiweddaru'n awtomatig efo’r wybodaeth newydd.
- Crynodeb DA a chyfieithiad o erthyglau Wicipedia Saesneg. Dewiswyd cynnwys lle'r oedd erthyglau ar goll yn y Gymraeg ond yn bresennol yn Saesneg, a datblygwyd cyfres fanwl o prompts i ChatGPT eu dilyn. Crynhodd y DA gynnwys penodol o erthyglau Saesneg a chynhyrchodd grynodeb yn y Gymraeg mewn tua 100-150 o eiriau.
PMae'n werth nodi bod AI hefyd wedi profi'n ddefnyddiol wrth gasglu'r holl ddata angenrheidiol at ei gilydd. Mae LLMs yn dda iawn am gyflawni ceisiadau technegol, fel cynhyrchu sgriptiau i echdynnu'r testun sydd ei angen o Wicipedia Saesneg, a thrawsnewid data i'r fformatau perthnasol. Roedd ChatGPT hyd yn oed yn gallu cynghori ar sut i strwythuro’r prompt ar gyfer crynhoi'r cynnwys Saesneg. Yn debyg iawn i'r broses o greu'r erthyglau eu hunain, mae DA yn cael ei bachu i gyflymu prosesau â llaw yn hytrach na disodli cyfranogiad dynol.
Ar ôl i mi echdynnu'r testun perthnasol o Wicipedia Saesneg trwy API MediaWiki, datblygais prompt ar gyfer creu'r crynodebau. Pwysleisiodd y pwysigrwydd o grynhoi gwybodaeth a oedd yn amlwg yn rhan o'r erthygl Saesneg yn unig, a’r pwysigrwydd o gadw tôn gwyddoniadurol Wicipedia. Roedd y prompt hefyd yn glir na dyle’r DA chynnwys y wybodaeth fywgraffyddol yr oeddem eisoes yn gallu ei chael o Wikidata. Trwy ddefnyddio data dibynadwy fel ffynhonnell ar gyfer y ffeithiau allweddol hyn, lleihaodd y risg o wallau yn yr allbwn DA, ac roedd yn golygu bod llai o destun a gynhyrchwyd gan AI i'w adolygu a'i wirio.
Dangosodd profion cychwynnol fod safon y Gymraeg yn wael ar adegau wrth geisio cyfieithu a chrynhoi mewn un cam. Gwellodd hyn yn fawr pan gyfarwyddwyd y model i grynhoi a chyfieithu mewn dau gam ar wahân.
Prosesodd Chat GPT y crynodebau mewn sypiau. Defnyddiais y rhyngwyneb gwe i brosesi’r testun ond gellid defnyddio API GPT hefyd i symleiddio'r broses ymhellach. Yna cafodd pob crynodeb ei brawf ddarllen gan roi sylw i gywirdeb ffeithiol a chywirdeb gramadegol. Roedd nifer fach iawn o anghywirdebau ffeithiol a oedd ar y cyfan yn ganlyniad gamddehongli'r testun gwreiddiol. Ni chanfyddais unrhyw rithwelediadau nac unrhyw wybodaeth nad oedd i'w chael yn y testun gwreiddiol.
Roedd y rhan fwyaf o'r cywiriadau yn ymwneud â phroblemau gyda'r cyfieithiad Cymraeg. Mewn rhai mannau roedd y cyfieithiad yn rhy lythrennol. Er enghraifft, roedd yn aml yn cyfieithu “Silent films” fel “Ffilmiau tawel”. Roedd enghreifftiau eraill lle'r oedd y Gymraeg yn dechnegol gywir ond roedd brawddegau'n llifo'n wael. Roedd rhai o'r problemau hyn yn batrymau ailadroddus ar draws yr holl erthyglau, a oedd yn golygu y gellid eu cywiro’r gyflym. Roedd angen ymyrraeth â llaw ar lefel erthygl ar gyfer problemau eraill.
Unwaith y gwiriwyd yr holl destunau, tynnwyd holl elfennau gwahanol yr erthyglau at ei gilydd gan ddefnyddio AutoWikiBrowser - offeryn pwerus ar gyfer golygu cynnwys Wiki mewn sypiau. Yna cyhoeddwyd erthyglau sampl i'w hadolygu gan y gymuned. Ac amlygodd hyn ychydig o wallau eraill, fel defnydd anghyson o derminoleg ac ychydig mwy o wallau gramadegol. Cafodd y rhain eu trafod ac i ddatrys, a rhoddwyd consensws gan gymuned olygyddol y Wicipedia Cymraeg cyn cyhoeddi'r holl erthyglau.
Roedd angen rhai cywiriadau bach ar bron pob un o'r 1000 o destunau, a gallai rhai dadlau bod hyn yn profi nad yw'r dull AI yn gweithio yn y cyd-destun hwn. Fodd bynnag, roedd yr amser a oedd ei angen i lunio a gwirio'r erthyglau hyn gan ddefnyddio'r broses a ddisgrifiwyd uchod yn ffracsiwn o'r amser y byddai wedi'i gymryd i ysgrifennu pob erthygl o'r dechrau. Mae'n dangos yn glir iawn hefyd na ellir awtomeiddio'n llawn ar hyn o bryd y broses o greu cynnwys gwyddoniadurol newydd, neu hyd yn oed trosglwyddo gwybodaeth o un iaith i'r llall. Mae AI yn cynnig offer pwerus i ni i gynorthwyo lledaenu gwybodaeth gan bobl fyw, go-iawn. Nid yw'n disodli'r gwaith pwysig y mae gwirfoddolwyr Wicipedia yn ei wneud, ond mae'n gwneud y gwaith yna ychydig yn haws.
Yn Llyfrgell Genedlaethol Cymru, mae ein dull o ddefnyddio AI yn canolbwyntio ar y pwysigrwydd o gael person yn y lŵp, ac yn atgyfnerthu atebolrwydd y gweithredwr am y safon unrhyw allbwn AI. Ond gyda gofal credwn y gall y technolegau newydd hyn helpu i ymgysylltu mwy o bobl â chynnwys Cymraeg ac ar yr un pryd helpu i ddatblygu'r corff o gynnwys Cymraeg sydd ei angen i hyfforddi modelau AI i ddeall a chyfathrebu'n well yn yr iaith Gymraeg.
Categori: Erthygl