

Postiad blog gwestai – Ed Chalstrey, Sefydliad Alan Turing

Mae adroddiad newydd yn darparu canllawiau i ymchwilwyr sy’n gweithio ar blatfformau diogel gyda data sensitif
Hyd yn oed cyn pandemig COVID-19, cyflwynodd yr egwyddor o symud tuag at ymchwil ‘data mawr’ broblem i ymchwilwyr iechyd a gofal cymdeithasol: beth yw’r ffordd orau o gynnal prosiectau cydweithredol sy’n cynnwys data sensitif? Mae ymchwilwyr yn wynebu cwestiynau tebyg mewn meysydd mor amrywiol â chyllid a’r gyfraith. Cafwyd un ateb ar ffurf amgylcheddau ymchwil dibynadwy (TREau) – platfformau hynod ddiogel sy’n caniatáu i ymchwilwyr awdurdodedig gyrchu data sensitif ynghyd ag offer dadansoddi, meddalwedd a llyfrgelloedd cysylltiedig ac ieithoedd rhaglennu (enghraifft fyddai platfform data safe haven Sefydliad Alan Turing).
Yn Turing, un o’n cenadaethau yw dogfennu a hyrwyddo’r offer, y systemau a’r arferion gorau ar gyfer cynnal gwyddor data a chyhoeddi meddalwedd ymchwil. Nod adnoddau megis The Turing Way yw cipio’r wybodaeth hon a’i gwneud hi’n hygyrch i ymchwilwyr ledled y byd, gan eu galluogi i gydweithio’n effeithiol a sicrhau bod eu hymchwil yn dryloyw a bod modd ei hailddefnyddio a’i hatgynhyrchu. Ond un peth na chafodd sylw tan yn ddiweddar yw rhoi’r arferion hyn ar waith mewn perthynas â data sensitif sy’n cael ei gyrchu trwy TREau.
Un prosiect gofal iechyd sy’n defnyddio TRE yw prosiect Multimorbidity Machine Learning Cymru (WMML), lle mae ymchwilwyr ym Mhrifysgol Abertawe a Phrifysgol Manceinion yn gweithio ar ddulliau dysgu peirianyddol ar gyfer nodi aml-afiechydon (e.e. dau neu fwy o gyflyrau iechyd meddwl yn yr un unigolyn ar yr un pryd) mewn casgliad lefel unigolyn a dienw ar raddfa boblogaeth o ddata gofal iechyd. Yr unig ffordd y gellir cael mynediad at y data hwn yw trwy TRE ‘Banc Data SAIL’ ym Mhrifysgol Abertawe.Mae’r ymchwilwyr yn gobeithio datgelu cysylltiadau newydd rhwng cyflyrau sy’n gysylltiedig â’r aml-afiechydon sy’n achosi’r problemau mwyaf i’r GIG a/neu unigolion.
Yn fy nghydweithrediad diweddar gyda thîm WMML, fel aelod o dîm Ymchwil Peirianneg Turing, sylwais ar fwlch yn y llenyddiaeth ar arferion gorau a ffyrdd o weithio gydag amgylcheddau ymchwil dibynadwy, yn benodol o ran datblygu côd ymchwil a’r gallu i’w rannu mor gyflym a diogel â phosib ag ymchwilwyr eraill nad oes ganddynt fynediad at yr amgylchedd ymchwil dibynadwy. Yn hollbwysig, roedd tîm WMML am allu cyhoeddi ei gôd wrth ochr y canlyniadau er mwyn mwyafu’r gallu i ddod o hyd i’w ddulliau ymchwil, eu dyfynnu a’u hatgynhyrchu. Gall ymchwil sy’n cynnwys data sensitif fod yn hanfodol wrth bennu canlyniadau yn y byd go iawn, fel y gwelsom gyda’r polisïau gofal iechyd yn ystod y pandemig, ac felly mae gallu atgynhyrchu astudiaethau’n hollbwysig.
Gwnaeth y senario a wynebodd ymchwilwyr WMML ddarparu cyfle diddorol i mi fy hun a Turing er mwyn cymryd y cam cyntaf wrth gyfeirio’r gwaith o ddogfennu arferion gorau ar gyfer cynnal a chyhoeddi ymchwil a wnaed ar y cyd ag amgylchedd ymchwil dibynadwy. Y canlyniad yw [yr adroddiad hwn], a anelir at yr holl ddefnyddwyr TRE, p’un ai a ydynt ym maes gwyddor data iechyd (lle mae TREau yn dod yn fwyfwy cyffredin) neu faes arall.
Mae’r awgrymiadau yn yr adroddiad hwn yn cynnwys y canlynol, ond heb fod yn gyfyngedig iddynt:
- Datblygu côd ymchwil fel sgriptiau modiwlaidd a defnyddio meddalwedd rheoli fersiynau megis GitLab neu GitHub.
- Ystyried y manteision a’r anfanteision sy’n gysylltiedig â lle y caiff y côd ymchwil i’w gyhoeddi ei ddatblygu, naill ai yn y TRE neu’r tu allan iddo.
- Defnyddio profi unedau, gwiriadau ansawdd ac integreiddio parhaus er mwyn sicrhau y bydd y côd ymchwil yn gweithio yn ôl y disgwyl.
- Defnyddio llyfrau nodiadau Jupyter neu R Markdown at ddiben dadansoddi data a, lle y bo’n briodol, ddrafftio’r papurau ymchwil sy’n cynnwys fersiwn ar-lein y gellir ei defnyddio.
- Archwilio’r defnydd o ddata synthetig ar gyfer senarios lle nad yw mynediad at ddata sensitif yn bosibl.
- Defnyddio DOIau (dynodwyr gwrthrychau digidol), ffeiliau dyfyniadau a thrwyddedau meddalwedd wrth gyhoeddi meddalwedd ymchwil.

Am ragor o wybodaeth am yr awgrymiadau hyn, darllenwch yr [adroddiad llawn] neu cysylltwch ag Ed Chalstrey (Sefydliad Alan Turing). Am ragor o wybodaeth am brosiect WMML, cysylltwch â Niels Peek (Prifysgol Manceinion) neu Ronan Lyons (Gwyddor Data Poblogaethau ym Mhrifysgol Abertawe).
Ymchwilwyr prosiect WMML o Wyddor Data Poblogaethau ym Mhrifysgol Abertawe: Rowena Bailey, James Rafferty, Jane Lyons ac Ashley Akbari.
Prifysgol Manceinion: Farideh Jalali, Thamer Ba dhafari
Prif Ymchwilwyr Ronan Lyons (Gwyddor Data Poblogaethau ym Mhrifysgol Abertawe), Niels Peek (Prifysgol Manceinion).