Symud i'r prif gynnwys
Delweddu'r cysylltiadau rhwng pobl yng nghronfa ddata SNARC

26 Mawrth 2024

Dull data cysylltiol ar gyfer awdurdod enwau dwyieithog

Mae data ym mhobman dyddiau ‘ma. Rydym yn gadael llwybr cyfoethog ohono ble bynnag rydym yn mynd, trwy ein ffonau a thechnoleg glyfar arall, yn ein swyddi a bob tro rydym yn siopa. Mae’r data rydym yn ei greu yn hynod o werthfawr i fusnesau a darparwyr gwasanaethau gan ei fod yn rhoi cipolwg ar ein hymddygiad, ein harferion a’n symudiadau. Ond mae gan ddata hefyd botensial enfawr i’n helpu i ddysgu am y gorffennol, am ein cyndeidiau a’r lleoedd yr ydym yn byw.

Mae llyfrgelloedd ac archifau wedi bod yn casglu data ers blynyddoedd; trwy gatalogio papurau hanesyddol, cofnodi adeiladau hanesyddol, disgrifio mapiau a gweithiau celf er enghraifft. Mae hyn wedi arwain at lu o ffynonellau data a gedwir gan wahanol sefydliadau. Ers blynyddoedd mae ceidwaid y wybodaeth hon wedi cadw'n gaeth at eu safonau data eu hunain ac mewn llawer o achosion wedi cyfyngu mynediad er mwyn diogelu eu hawliau heiddo deallusol.

Nawr, yn araf bach, mae pethau'n newid. Yn ôl yn 2001, dychmygodd Syr Tim Berners-Lee y rhyngrwyd yn datblygu’n we semantig. Man ble byddai safonau data cyffredin a ffyrdd o fynegi cysylltiadau rhwng pethau yn creu gwe rhyng-gysylltiol o wybodaeth ar draws pob sector a genre. Yn raddol mae'r weledigaeth hon yn dechrau cael ei gwireddu, mewn rhai chwarteri o leiaf, diolch i safonau data cysylltiol a'r swm cynyddol o ddata sy'n cael ei gyhoeddi'n agored.

Un o'r llwyddiannau mawr yn y maes data semantig, neu ddata cysylltiol, yw Wikidata, chwaer brosiect i Wicipedia lle'r nod yw casglu a chysylltu holl wybodaeth y byd fel data strwythuredig agored. Gyda dros 100 miliwn o eitemau data, mae Wikidata eisoes yn cynnwys data cyfoethog am filiynau o bobl, ddoe a heddiw, lleoedd, digwyddiadau, gweithiau celf, bywyd gwyllt, adeiladau hanesyddol ac yn y blaen. Ac mae sefydliadau diwylliannol wedi dechrau alinio eu data â'r set ddata agored hon. Felly os oes gan lyfrgell ddynodwr unigryw, neu ffeil awdurdod, ar gyfer person neu le gallant ychwanegu hynny at yr eitem Wikidata berthnasol. Mae hyn yn golygu y gallwch fynd at eitem Wikidata am berson sydd ag archif yn Llyfrgell Genedlaethol Cymru a dysgu a oes ganddo hefyd bortreadau yn yr Oriel Bortreadau Cenedlaethol, neu blac glas coffaol. Efallai cafodd person ei eni mewn adeilad sydd bellach yn rhestredig, neu efallai ei bod yn wleidydd, neu’n gyn-fyfyriwr o Rydychen. Mae’r set ddata enfawr hon, yn eithaf organig, wedi datblygu’n ganolbwynt diwylliannol sy’n cysylltu gwybodaeth o bob rhan o’r byd ac yn caniatáu inni ddarganfod cysylltiadau a pherthnasoedd newydd sbon.

Yn Llyfrgell Genedlaethol Cymru, rydym wedi bod yn alinio metadata ar gyfer ein casgliadau ers nifer o flynyddoedd gyda dros 50,000 o eitemau Wikidata ar gyfer eitemau yn ein casgliadau neu am bobl a lleoedd yn ein casgliadau. Mae hyn yn cynnwys ymgais i alinio cymaint o'n ffeiliau awdurdod enwau â phosibl a, hyd yn hyn, mae dros 12,000 o bobl wedi'u halinio'n llwyddiannus â Wikidata trwy'r broses hon.

Fodd bynnag, rydym hefyd wedi bod yn awyddus i helpu eraill yng Nghymru i rannu data perthnasol. Mae gan, felly, bob un o adeiladau rhestredig CADW gofnodion Wikidata, mae dros 10,000 o eitemau yng nghronfa ddata safleoedd hanesyddol Coflein wedi'u halinio â Wikidata, gan gynnwys holl gapeli Cymru, ac mae set ddata cyfan o enwau lleoedd Cymraeg safonol Comisiynydd y Gymraeg wedi'u halinio. Mae hyn yn golygu y gallwn ddechrau creu cysylltiadau rhwng yr holl setiau data hyn sydd, fel y gallwch ddychmygu, yn cynnig cyfleoedd gwych ar gyfer ymchwil a darganfod. Ac mae Wikidata hefyd yn amlieithog. Yn y blynyddoedd diwethaf, mae cyfranwyr wedi labelu miliynau o eitemau yn Gymraeg sy'n golygu y gallwn gofnodi ac archwilio’r data yn ddwyieithog.

Daw hyn â ni at ein darn o waith diweddaraf. Mae Wikidata yn adnodd data agored gwych ond ei rinweddau mwyaf yw ei wendid hefyd. Mae llwyr faint y data, sy’n cynyddu’n barhaol, yn golygu bod y model data hefyd yn tyfu'n helaeth ac yn gymhleth; nid y peth hawsaf i rywun sy'n anghyfarwydd â'r prosiect i ymafael ag ef. Yn ail, gall unrhyw un olygu! Mae hyn yn ei wneud yn llwyfan gwych ar gyfer torfoli ond, fel Llyfrgell sy’n awyddus i gylchdroi’r data cyfoethog hwn, daw pwynt lle mae angen inni allu curadu, addasu a diogelu’r data rhag newid pellach fel y gallwn ddibynnu arno i bŵeri ymholiadau a gwasanaethau heb ofni y bydd yn newid. Dyma pam y gwnaethom greu’r Semantic Name Authority Repository Cymru, caiff ei hadnabod o hyn ymlaen fel SNARC.

Mae SNARC yn pontio data agored torfol a’r data awdurdodol sydd gan y Llyfrgell. Gallwn ei ddefnyddio i leihau ar gymhlethdod Wikidata, addasu'r strwythur data i siwtio ein hanghenion ni, ac i reoli ansawdd llif y data sy'n dod i mewn ac yn mynd allan.

Wedi'i adeiladu gan ddefnyddio Wikibase, yr un meddalwedd y mae Wikidata yn ei ddefnyddio, mae SNARC yn edrych ac yn teimlo'n debyg iawn i'w chwaer fawr ac mae'n elwa o lawer o'r un offer, megis y gwasanaeth holi, offer llwytho data ac API. Mae’n darparu rhyngwyneb chwilio i’n defnyddwyr ar gyfer dros 110,000 o eitemau data yn ymwneud â threftadaeth ddiwylliannol Cymru, gan ganolbwyntio ar bobl a lleoedd. Dyma ymholiad sy'n dangos holl gynnwys SNARC yn ôl math.

Mae llawer o'r data yn SNARC yn cael ei fewnforio o Wikidata, ar ôl cael ei wirio ac ychwanegu unrhyw labeli Cymraeg sydd ar goll. Ond mae'r set ddata hefyd yn cynnwys data o gatalog y Llyfrgell, megis bywgraffiadau byr o bobl a dolenni i'n delweddau digidol o bwnc penodol. Ar gyfer enwau lleoedd, rydym hefyd wedi mabwysiadu’r ffurf safonol ble maent ar gael. Mae ein set ddata hefyd yn unioni poen hirdymor ar Wikidata drwy ganiatáu inni ddefnyddio ‘Cymru’ fel gwlad. Mae ein data yn gallu datgan bod lle yn rhan o Gymru, neu fod person yn Gymro. Nid yw hyn yn bosibl yn Wikidata oherwydd penderfyniad hir sefydlog bod yn rhaid i'r 'wlad' fod yn wladwriaeth sofran.

Ond, er gwaethaf ein gwrthryfel bach, rydym wedi cynnwys dynodwyr yr endid cymaradwy yn Wikidata ar ein heitemau data ble fo’n bosibl. Mae'r aliniad hwn i Wikidata yn bwysig, nid yn unig fel cyfeiriad, ond oherwydd ei fod yn caniatáu holi ar draws y ddwy set ddata ar yr un pryd. Felly, os ydym am wirio am ddiweddariadau neu newidiadau i gynnwys ar Wikidata, yna mae modd gwneud. Gallwn hefyd wthio gwelliannau ar SNARC yn ôl i Wikidata. Yn ogystal â hyn, golygir y gallwn barhau i gael mynediad at ddata cyfoethocach o Wikidata yn ein hymholiadau er mwyn ateb cwestiynau ymchwil cymhleth.

Er enghraifft, mae data am filoedd o ddinasoedd yn SNARC er mwyn disgrifio ble mae pobl wedi’u geni, ble oedden nhw’n gweithio neu ble buon nhw farw, neu ble roedd adeilad yn arfer sefyll. Rydym yn fwriadol wedi cadw'r data hwn yn syml iawn. Disgrifir pob dinas yn SNARC fel enghraifft o ‘ddinas’, tra yn Wikidata mae llawer o wahanol is-ddosbarthiadau o ddinasoedd, er enghraifft mega-ddinas, dinas fawr, dinas â phorthladd, dinas global, dinas â miliynau o drigolion ac yn y blaen. Ond oherwydd bod ein dinasoedd dal i fod wedi'u halinio â'u heitemau Wikidata mae'r gwasanaeth holi yn eich galluogi i chwilio'n hudol am yr holl mega-ddinasoedd sydd ar SNARC trwy gyfeirio'n ôl at Wikidata i gael y data mwy manwl.

Gan fod ein cronfa ddata yn ddata strwythuredig, yn union fel Wikidata, rydym yn gallu dechrau gwireddu gweledigaeth Tim Berners-Lee. Mae defnyddio’r gwasanaeth holi i gwestiynu’r data yn ein galluogi i ganfod yn gyflym unrhyw orgyffwrdd rhwng seilos data a oedd, cyn hyn, yn eistedd ar wahân. Gallwn weld, er enghraifft, holl gapeli hanesyddol Cymru sydd ag archifau yn LlGC neu archwilio perchnogaeth ystadau a phlastai (data CADW) gan y boneddigion (data’r Bywgraffiadur Cymreig a LlGC). Gallwn hyd yn oed gysylltu data am blwyfi eglwysig, eu heglwysi plwyf, a’r seintiau y maent wedi’u cysegru iddynt.

Diolch i ddata a dynnwyd o'n cofnodion catalog, a data a ddarparwyd gan sefydliadau ac unigolion eraill trwy Wikidata, rydym hefyd yn dechrau adeiladu grwpiau teuluol mawr. Rydym yn gallu gweld cenedlaethau o’r un teulu sydd ag archifau yn LlGC ond, cyn nawr, nid oedd ffordd o ddarganfod y cysylltiadau yma, er enghraifft coeden deulu Waldo Williams.

Y tu hwnt i werth y wybodaeth sydd wedi’i gynnwys yn y set ddata hon, mae cydran y Gymraeg yn hynod werthfawr. Mae gan bob un o'r 110,000 o eitemau yn y set ddata label a disgrifiad Cymraeg, felly gellir delweddu'r holl ddata a'i ailddefnyddio yn y Gymraeg yn ogystal â’r Saesneg, ac yr ydym eisoes wedi gweld data o Wikidata yn cael ei ddefnyddio i helpu creu mapiau, apiau ac offer Cymraeg. Mae hyn hefyd yn golygu bod llawer o’n data catalog sydd ar gael yn draddodiadol mewn un iaith yn unig bellach ar gael yn ddwyieithog. Ar gyfer adeiladau rhestredig Cymru, mae gan dros hanner ohonynt labeli Cymraeg. Mae’r holl restrau o enwau lleoedd safonol o wasanaeth Term Cymru’r Llywodraeth a Chomisiynydd y Gymraeg bellach ar gael mewn un lle, a gall unrhyw un sydd am fabwysiadu’r ffurfiau enwau hyn, neu dynnu’r data i mewn i’w gwasanaethau, wneud hynny’n rhwydd.

Felly ar gyfer pwy mae SNARC? Pawb! P'un ai ydych yn chwilio am enw Cymraeg ar gyfer gwlad neu brifysgol neu am ymchwilio i draddodiad barddol y 19eg ganrif yng nghymoedd De Cymru neu efallai archwilio perchnogaeth plasty lleol, gall y set ddata hon helpu.

Fel Wikidata, rydym am i hwn fod yn brosiect sy'n esblygu'n barhaus. Rydym am wahodd prosiectau ymchwil a phartneriaid dibynadwy i weithio ar gyfoethogi’r data ymhellach, a defnyddio’r llwyfan i rannu allbwn ymchwil newydd trwy dyfu’r rhwydwaith o gysylltiadau a pherthnasoedd o fewn y data.

Rhowch gynnig arni! A chysylltwch os oes gennych ddata a allai ychwanegu gwerth pellach at yr adnodd hwn.


Jason Evans 
Rheolwr Data Agored

Categori: Erthygl