Sut y gwnaethom ddefnyddio data ymchwil yn yr Arloesiadur

Juan Mateos-Garcia | June 19, 2017

Mae ymchwil sylfaenol mewn prifysgolion yn gallu cynhyrchu buddion economaidd mewn amryw o ffyrdd: mae gwybodaeth newydd a grëir mewn prifysgolion yn cael ei defnyddio gan fusnesau, y sector cyhoeddus a mudiadau nid-er-elw y tu allan, mae graddedigion medrus yn mynd i weithio yn y diwydiant, ac mae arbenigwyr yn rhoi cyngor i bobl y tu allan i'r byd academaidd. Ond i wireddu'r buddion hyn, mae angen rhwydweithiau cryf rhwng prifysgolion a diwydiant. Mae'r Arloesiadur yn dadansoddi'r tirwedd ymchwil - y mannau lle mae ymchwil yn digwydd, a'r rhwydweithiau cydweithio hyn gan ddefnyddio set ddata agored ynglŷn â phrosiectau a ariennir gan gyngor Ymchwil y Deyrnas Unedig, y Porth Ymchwil (Gateway to Research).

Mae'r stori hon yn rhoi golwg gyffredinol ar ein gwaith dadansoddi a'i gyfyngiadau. Gallwch weld y cod, ynghyd â'r data crai a'r data wedi'u prosesu, yma.

Pam y Porth Ymchwil?

Mae llawer o setiau data y gallai rhywun eu defnyddio i ddadansoddi gweithgarwch ymchwil: y mae data cyhoeddi, patentau a gwybodaeth am fynediad at gyllid ymchwil Ewropeaidd drwy setiau data Cordis, i enwi ychydig yn unig. Penderfynom ddewis y Porth Ymchwil oherwydd:

  • Y mae’n amserol iawn, gan gynnwys gwybodaeth am brosiectau ymchwil sydd newydd eu cyllido ond sydd heb gynhyrchu unrhyw allbynnau eto,
  • Y mae’n cynnwys gwybodaeth am brosiectau o bob disgyblaeth, gan gynnwys mathau o wybodaeth lle mai prin y maent i’w gweld mewn patentau na hyd yn oed papurau ond a all fod yn bwysig iawn i arloesi mewn rhai sectorau, fel yn achos y Celfyddydau a’r Dyniaethau,
  • Mae’n cynnwys gwybodaeth a achosion o gydweithio rhwng prifysgolion a diwydiant, gan ganiatáu inni fapio rhwydweithiau ymchwil y tu hwnt i academia.

Nid yw hyn yn golygu nad yw’r setiau data eraill yn ddefnyddiol. Rydym yn mynd ati’n fwriadol i ystyried ffyrdd i’w hymgorffori mewn gwaith dadansoddi yn y dyfodol.

Casglu a glanhau data

Mae data’r Porth Ymchwil ar gael drwy Ryngwyneb Rhaglennu Cymhwysiad (API) agored, gydag amrywiaeth o bwyntiau gorffen. Drwy’r rhain, lawrlwythom wybodaeth am brosiectau, sefydliadau a chyllidwyr. Roedd y setiau data hyn yn cynnwys llawer o newidynnau yr oedd gennym ddiddordeb ynddynt, megis y prosiectau a gyllidwyd â’u pynciau (yn set ddata’r prosiect), y sefydliadau a gymerodd ran mewn prosiectau a’u lleoliad (yn set ddata’r sefydliad) a’r cyllid a ddyfarnwyd i brosiectau (yn set ddata’r cyllidwr). Roedd setiau data eraill o ddiddordeb na fu inni ddadansoddi y tro hwn, megis gwybodaeth am ymchwilwyr unigol ac allbynnau ymchwil. Ceisiwn gyfleoedd i wneud hyn yn y dyfodol.

Gweithiom â set ddata o 72,592 o brosiectau. Un o’n diddordebau mawr oedd monitro lefelau gweithgarwch mewn gwahanol feysydd ymchwil yng Nghymru. Byddai hyn yn caniatáu inni fapio arbenigeddau ymchwil Cymru yn erbyn y sectorau hynny a nodwyd yn strategaeth Wyddoniaeth Llywodraeth Cymru, a nodi’r galluoedd ymchwil mewn gwahanol leoliadau a sefydliadau. Arweiniodd hyn inni eithrio o’r ymchwil y prosiectau hynny nad oedd iddynt unrhyw wybodaeth am bwnc yr ymchwil na chrynodeb. Mae hyn yn cynnwys pethau megis Ysgoloriaethau Ymchwil, Partneriaethau Trosglwyddo Gwybodaeth neu brosiectau a gynorthwyir gan Innovate UK, gan fynd â ni i lawr i 33,373 o brosiectau (a grantiau ymchwil yw 90% o’r rhain).

Rhaid oedd inni ddilyn strategaeth gymharol gymhleth i ddosbarthu prosiectau yn ôl meysydd ymchwil a phynciau ymchwil. I gychwyn, defnyddiom dagiau (e.e. ‘microeconomeg’, ‘roboteg’, ‘deunyddiau’) a roddwyd i brosiectau gan gyllidwyr i luniadu rhwydwaith o weithgarwch ymchwil (lle’r oedd y tagiau a dueddai i ymddangos yn yr un prosiectau yn gysylltiedig â’i gilydd), ac wedyn defnyddiom ddulliau canfod cymuned i chwilio am ‘gymunedau tagiau’ clos yn y rhwydwaith hwnnw.

Drwy’r gwaith dadansoddi hyn, lluniwyd rhestr o 7 o feysydd ymchwil go naturiol (y Celfyddydau a’r Dyniaethau, Peirianneg a Thechnoleg, y Gwyddorau Amgylcheddol, Gwyddorau Bywyd, Mathemateg a Chyfrifiadura, Ffiseg a’r Gwyddorau Cymdeithasol) a fapiai’n dda yn erbyn y cynghorau cyllido ymchwil (AHRC, EPSRC – a gyllidai brosiectau Peirianneg a Thechnoleg a Mathemateg a Chyfrifiadura yn bennaf - NERC, BBSRC, STFRC ac ESRC). Roeddem yn dosbarthu’r prosiectau yn ôl y maes ymchwil yr oedd ganddynt y fwyaf o dagiau ar eu cyfer. Petai’n gyfartal ar y brig byddem yn eu dosbarthu ar hap i un o’r meysydd ar y brig. Wrth inni ddadansoddi lefelau gweithgarwch gydag amser, gwelsom ddau beth diddorol:

  1. Gwelsom fod gan 99.8% o’r prosiectau yn y data ddyddiad cychwyn yn 2006 neu hwyrach, sy’n gyson â’r syniad bod y Porth Ymchwil yn bennaf yn cwmpasu ymchwil a gyllidwyd yn y 10 mlynedd diwethaf.
  2. Mae’r tagiau ymchwil y buom yn dibynnu arnynt i ddosbarthu prosiectau i gymunedau yn cael eu defnyddio’n anghyson dros amser o ran parthau ymchwil: yn 2011 yn unig y dechreuodd y Cyngor Ymchwil Biotechnoleg a Gwyddorau Biolegol (BBSRC) dagio ei brosiectau, ac ni ddefnyddiodd Cyngor Ymchwil y Gwyddorau Meddygol dagiau erioed (gan ddibynnu’n hytrach ar ‘gategoriau iechyd’. Roedd cyfanswm o 5,962 o brosiectau a gyllidwyd gan MSRC heb dagiau, ac roedd yr un peth yn wir am 4,040 o brosiectau a gyllidwyd gan BBSRC. Roedd cymaint â 1,046 o brosiectau EPSRC heb eu tagio hefyd. I fynd i’r afael â hyn, hyfforddom fodel dysgu peirianyddol dan oruchwyliaeth ar setiau data prosiectau (yn gyffredinol ac yn fwy diweddar) a reolwyd gennym i labelu drwy ddull canfod cymuned. Defnyddiom y testun yn eu crynodebau a’u cyllidwyr i ragfynegi (roedd y prosiectau a gyllidwyd gan MSRC wedi’u labelu â ‘Gwyddorau Meddygol’ yn unig). Roeddem wedyn yn rhagfynegi’r disgyblaethau yn y setiau data di-label gan ddefnyddio’r model hwn. Byddem yn dosbarthu prosiect i’r ddisgyblaeth lle byddai’r model yn amcangyfrif y tebygolrwydd uchaf, ar wahân i’r achosion hynny pan fyddai’r tebygolrwydd yn is na 0.3 (cadwom y rhai hynny heb eu labelu). Erbyn diwedd y broses hon, roeddem wedi gostwng o 6,721 o brosiectau di-label i 565.

Cynhyrchu pynciau ymchwil wedi’u cydrannu’n fanylach

Roedd arnom eisiau tyrchu’n is na’r 8 maes ymchwil a nodwyd gennym yn ein dadansoddiad, ond nid hawdd oedd gwneud hyn. Canlyniadau swnllyd iawn a gafwyd wrth lunio dadansoddiad cychwynnol o’r holl gorpws gan ddefnyddio algorithmau modelu pynciau (hynny yw, Dyraniad Dirichlet Cudd – LDA), sy’n nodi clystyrau o dermau sy’n ymddangos yn yr un dogfennau, ac yn mesur pwysigrwydd cymharol y pynciau hyn ym mhob dogfen mewn corpws. O archwilio’n weledol, yr awgrym oedd y câi’r algorithm ei ddrysu gan heterogenedd yr ieithoedd a ddefnyddir mewn gwahanol ddisgyblaethau ymchwil. I fynd i’r afael â hyn, hyfforddom fodel LDA oddi mewn i bob disgyblaeth, gan gasglu 200 o bynciau. Roedd y canlyniadau’n llawer mwy naturiol.

Aethom ati wedyn i ddefnyddio’r modelau hyn i ragfynegi’r dosbarthiad o ran pwnc ar gyfer pob prosiect. Gan gydnabod y posibilrwydd y gallai prosiect fod yn seiliedig ar bynciau o sawl disgyblaeth (e.e. yn ôl y diffiniad os yw’n rhyngddisgyblaethol), gosodom fodelau i bob disgyblaeth ym mhob prosiect, ond pwysolwyd y tebygolrwydd o bwnc disgyblaeth mewn prosiect yn ôl y tebygolrwydd bod y prosiect yn y ddisgyblaeth honno yn y lle cyntaf (yn seiliedig ar fodelau wedi’u goruchwylio a hyfforddom wrth lanhau’r data).

I bob prosiect, rhoddai hyn inni fector gydag oddeutu 1,600 o werthoedd yn cynrychioli ei bwysau mewn 200 o bynciau ar gyfer 8 disgyblaeth. Er bod y data yma wedi’u cydrannu’n fanwl – er enghraifft, roeddynt yn cynnwys pynciau megis “bee, colony, pollinator, landscape, crop, specie, honeybee, bumblebee”,  “theory, string, quantum particle, physic, black hole, gravity”,  “graphene, plastic, flexible sheet, tube, printed, substrate, layer” neu “manufacturing process, fabrication, printing, additive, technique, precision, material”, sy’n cipio pynciau ymchwil penodol iawn o ddiddordeb i lunwyr polisi, yr oedd hefyd yn anodd adrodd ar gymaint ohonynt, ac roeddem yn bryderus y byddai’r data yn swnllyd. 

I symleiddio pethau, lluniom rwydwaith pynciau oddi mewn i bob disgyblaeth yn seiliedig ar eu pellter Jaccard (presenoldeb pynciau neu beidio mewn gwahanol brosiectau), ac unwaith eto cynhaliwyd dadansoddiad canfod cymuned i nodi clystyrau o bynciau, gan arwain at set derfynol o 88 o bynciau ymchwil a gaiff eu hadrodd yn y delweddau.

Adrodd arbenigeddau lleol

Gan ein bod wedi geo-godio’r holl sefydliadau yn nata’r Porth Ymchwil, cymharol hawdd oedd dosbarthu’r prosiectau yn ôl rhanbarthau a gwledydd (Cymru, hynny yw) a phrif ardaloedd. Ond sut gallem ddosbarthu prosiectau yn ôl pynciau ymchwil? Dewisom adrodd pethau ychydig yn wahanol, yn dibynnu ar y ddelwedd.

  • O ran y siart bwmp, dosbarthom bob prosiect yn ôl ei brif bwnc ymchwil, gan nodi nifer y prosiectau a gyllidwyd a’r cyfanswm a godwyd gan brosiectau a arweiniwyd gan sefydliadau sy’n seiliedig yn yr ardal. Mae hyn yn gwaredu’r risg o gyfri ddwywaith.
  • Yn y map gwres, roedd gennym fwy o ddiddordeb mewn cynrychioli’r ‘galluoedd ymchwil’ a oedd yn bresennol ym mhob lleoliad, felly dosbarthom y prosiectau ar sail eu prif 3 phwnc ymchwil, gan gyfri unrhyw brosiectau a ariannwyd sydd gyda sefydliadau yn y lleoliad yn rhan ohonynt (p’un a oeddynt yn arwain y prosiectau ai peidio). Golygai hyn y bydd rhywfaint o gyfri ddwywaith os yw prosiect yn cynnwys rhagor nag un pwnc, neu’n cynnwys rhagor nag un sefydliad.

Y peiriant argymhellion

Yn olaf, roedd gennym ddiddordeb mewn nodi cyfleoedd i wahanol sefydliadau yng Nghymru gydweithio. Penderfynom gynrychioli’r wybodaeth hon gan ddefnyddio ‘peiriant argymhellion’. I adeiladu’r peiriant, creom ‘fap sylfaen’ a gipiai achosion go iawn o gydweithio ar ymchwil rhwng sefydliadau sy’n seiliedig yng Nghymru.

Wedyn roedd yn rhaid inni ddod o hyd i gyfleoedd cydweithio a oedd heb eu cyflawni hyd yma. Nid oedd ein rhesymeg yn wahanol iawn i’r hyn a wna Amazon neu Netflix: yn yr un ffordd y gallai defnyddwyr fod â diddordeb mewn cynnyrch a gaiff ei brynu gan eraill sy’n debyg iddynt, roeddem yn tybio y gallai fod gan sefydliadau ddiddordeb mewn cydweithio gyda’r sefydliadau hynny sy’n cydweithio gydag eraill sy’n debyg iddynt hwy.

Er bod y cysyniad sylfaenol yn syml, nid syml o gwbl oedd mynd â’r maen i’r wal. Dechreuom drwy gyfrifo proffil arbenigedd ymchwil ar gyfer pob sefydliad yn seiliedig ar bynciau ymchwil y prosiectau yr oeddynt yn ymwneud â nhw (rhoesom dagiau i’r prosiectau ar sail eu 5 pwnc ymchwil pwysicaf). Cyfrifom debygrwydd rhwng sefydliadau ar sail y pellter cosin rhwng eu proffiliau arbenigedd, ac i bob sefydliad nodwyd y 10 sefydliad tebycaf iddo.

Wedyn cymerom bob sefydliad (alter), ac edrych am y sefydliad (ego) tebycaf iddo a chasglu ei brif gydweithwyr ymchwil, gan hidlo y rhai hynny o gydweithwyr yr ego nad oeddynt erioed wedi cymryd rhan mewn Maes Ymchwil yr oedd yr alter yn weithgar ynddo, a’r sefydliadau hynny a oedd eisoes yn cydweithio â’r alter. Defnyddiom y wybodaeth hon i greu rhwydwaith o gyfleoedd amgen, lle mae gan bob nod (sefydliad) fwyafswm o 5 cysylltiad â phrif gydweithwyr y sefydliadau sy’n debyg iddo.

Yn ôl i'r brig