Dadansoddi data diwydiannol

Juan Mateos-Garcia | June 19, 2017

Yn yr Arloesiadur, rydym yn defnyddio llawer ar setiau data swyddogol sy'n rhoi gwybodaeth am weithgarwch economaidd yn ôl sector a lleoliad, cynhyrchedd, canolrif incwm a chymhlethdod (ac unigrywiaeth) economaidd. Y rheswm dros ddefnyddio'r data hyn, er eu cyfyngiadau pwysig – megis oediadau cyn i ddata fod ar gael a dosbarthiadau diwydiannol nad ydynt yn union adlewyrchu'r arferion arloesi diweddaraf (dim cwmnïau cadwyn gyswllt mewn ystadegau economaidd) – yw am fod y setiau data hyn yn cynnwys gwybodaeth â sicrwydd ansawdd sy'n berthnasol i bolisïau ynglŷn â thwf a gostyngiad gweithgarwch economaidd. Mae'r rhain yn ffyrdd pwysig i ddangos arloesi a'i effeithiau; mae angen i ni fesur y rhain. Mae data swyddogol hefyd yn gallu helpu i driongli canlyniadau setiau data arbrofol eraill, megis y data rhwydweithio technoleg a gwefannau busnesau a ddadansoddwn mewn rhan arall o'r Arloesiadur.

Yn y Stori hon, rydym yn disgrifio'r ffynonellau data yr ydym wedi'u defnyddio, sut y gwnaethom eu prosesu, a rhai o gyfyngiadau ein dadansoddiad. Gallwch fynd yma i edrych ar y cod a ddefnyddiwyd gennym i gynnal y dadansoddiad, ac yma i lwytho'r data i lawr.

Diffinio segmentau diwydiannol

Ein bwriad oedd dadansoddi lefelau gweithgarwch economaidd yn ôl sector a lleoliad yng Nghymru a'i heconomïau lleol (wedi'u diffinio ar lefel prif ardaloedd, daearyddiaeth swyddogol sy'n ymwneud ag unedau llywodraeth leol). Roedd y dadansoddiad hwn yn seiliedig ar gysyniad clystyrau diwydiannol - y syniad bod clystyru diwydiannau mewn ardal ddaearyddol yn eu gwneud yn fwy cystadleuol a chynhyrchiol am eu bod yn gallu rhannu cronfa dalent 'fwy trwchus', cydweithio'n fwy effeithiol, a rhannu syniadau. I ddiffinio'r clystyrau hyn, roedd rhaid i ni grwpio gwahanol ddiwydiannau gyda'i gilydd mewn ffordd economaidd ystyrlon.

Gwnaethom hyn drwy ddilyn methodoleg a ddatblygwyd gan yr economegwyr o Unol Daleithiau America, Mercedes Delgado, Michael Porter a Scott Stern, mewn papur yn 2016 (PDF). Yn y bôn, mae hyn yn golygu defnyddio algorithm clystyru sy'n grwpio diwydiannau tebyg gyda'i gilydd. I ddechrau, diffinnir y diwydiannau hyn mewn modd gronynnog iawn - codau Dosbarthu Diwydiannol Safonol pedwar digid; mae 616 o'r rhain yn y setiau data a ddefnyddiwyd gennym.

Sut roeddem yn diffinio tebygrwydd? Roeddem yn defnyddio llawer o fesurau: Diwydiannau tebyg yw rhai sydd:

  • yn tueddu i fod wedi'u lleoli'n agos at ei gilydd,
  • yn cyflogi pobl mewn galwedigaethau tebyg, ac
  • yn masnachu â'i gilydd.

Gwnaethom y nodweddion tebyg hyn yn weithredol gan ddefnyddio data o amryw setiau data swyddogol megis y Gofrestr Ryngadrannol o Fusnesau (IDBR) a'r Arolwg Cofrestr Busnesau a Chyflogaeth (BRES) (i fesur cydleoliad), yr Arolwg Blynyddol o'r Boblogaeth (i edrych ar gyfansoddiad galwedigaethol y gweithlu), a thablau mewnbwn-allbwn (i ddadansoddi patrymau masnachu).

Roeddem yn meincnodi gwahanol algorithmau a pharamedrau clystyru yn seiliedig ar eu gallu i gynhyrchu segmentau diwydiant a ffurfir gan ddiwydiannau sy'n debyg iawn i'w gilydd, ac yn wahanol i rai mewn segmentau eraill. Ar ôl rhywfaint o waith adolygu a glanhau â llaw, roedd gennym restr o 71 o glystyrau, a enwyd gennym, cyn eu dosbarthu'n 4 casgliad o ddiwydiannau (cynradd, ffermio, gweithgynhyrchu a gwasanaethau).

Mesur perfformiad sectorau

Roedd gennym ddiddordeb mewn deall arloesi mewn gwahanol ddiwydiannau. Yn anffodus, nid yw'r brif set ddata y gallem fod wedi'i defnyddio i wneud hyn, Arolwg Arloesi'r Deyrnas Unedig a gesglir gan yr Adran Busnes, Ynni a Strategaeth Ddiwydiannol (BEIS), ar gael i'r manylder yr oedd ei angen arnom i gynhyrchu amcangyfrifon o arloesi yn unol â'r diwydiannau yr ydym wedi'u diffinio.

Yn hytrach, defnyddiasom yr Arolwg Blynyddol o Oriau ac Enillion, sy'n casglu data am gyflogau canolrifol mewn gwahanol ddiwydiannau'n genedlaethol. Mae cyflog canolrifol sector yn rhoi syniad bras o gynhyrchiant llafur y sector hwnnw; rydym yn gwybod bod cydberthyniad rhwng hynny a'i lefelau arloesi. Er ein bod hefyd wedi cynhyrchu mesurau sectoraidd o werth ychwanegol gros pob gweithiwr gan ddefnyddio data'r Arolwg Busnes Blynyddol (arolwg busnes arall a ddefnyddir i gynhyrchu amcangyfrifon gwerth ychwanegol gros), ni wnaethom eu cynnwys yn y dadansoddiad oherwydd ein pryderon am eu dibynadwyedd ar y manylder yr oeddem am ei ddefnyddio: Nid oedd data'r Arolwg Busnes Blynyddol ar gael bob amser ar lefel 4 digid, neu i'n holl segmentau diwydiant, ac roedd rhai o'r canlyniadau wrth i ni ei amcangyfrif yn mynd yn groes i'n greddf (er enghraifft, roedd segment y diwydiant ymchwil a datblygu'n cael sgôr isel iawn ar gyfer gwerth ychwanegol gros pob gweithiwr, efallai oherwydd bod rhai o'i weithgareddau'n cael cymhorthdal neu oherwydd bod rhai o'r cwmnïau hyn yn labordai sy'n rhan o sefydliadau mwy, sy'n golygu o bosibl nad yw gwerthiannau tynnu costau'n ffordd dda o fesur gwerth ychwanegol).

Roeddem hefyd yn disgrifio sectorau economaidd gan ddefnyddio mynegai unigrywiaeth economaidd yn seiliedig ar y ‘dull adlewyrchiadau’ a ddatblygwyd gan Ricardo Hausman a Cesar Hidalgo. Mae'r dull hwn yn defnyddio data clystyru diwydiannol i fesur cymhlethdod economaidd lleoliad (mae lleoliadau mwy cymhleth yn tueddu i gynnal mwy o amrywiaeth o alluoedd cynhyrchiol, drwy'r diwydiannau y maent yn arbenigo ynddynt) ac unigrywiaeth economaidd sector (mae sectorau mwy unigryw'n tueddu i fodoli mewn nifer llai o economïau cymhleth iawn). Rydym yn meddwl am y mynegai hwn fel ffordd o fesur i ba raddau mae sector yn 'arbenigol' ai peidio (a yw'n economaidd unigryw). Mae sectorau economaidd unigryw'n fwy tebygol o fod yn seiliedig ar gyfuniadau prin o alluoedd, sy'n golygu bod y lleoliadau hynny sy'n arbenigo ynddynt yn gallu cynyddu eu cyfran o'r farchnad a chael elw cryf o ganlyniad i hynny.

Mesur perfformiad daearyddol

Rydym wedi cynhyrchu mynegai cystadleurwydd syml i fesur perfformiad economaidd diwydiant mewn lleoliad (e.e. Cymru, neu un o'i phrif ardaloedd). Mae'r mynegai cystadleurwydd hwn, sydd hefyd yn cael enwau eraill megis ‘Mantais Gymharol a Ddatgelir’ neu ‘Gyniferydd Lleoliad’ yn canfod a yw diwydiant wedi'i orgynrychioli mewn lleoliad o'i gymharu â chyfartaledd y Deyrnas Unedig. Defnyddir gorgynrychiolaeth fel procsi ar gyfer arbenigo a manteision cymharol lleol a all ddigwydd oherwydd bod gwaddol unigryw ar gael (mae ardaloedd arfordirol yn tueddu i ragori ym meysydd Pysgota a Thrafnidiaeth Forol) yn ogystal â'r gallu i rannu gwybodaeth ac arloesi.

Dadansoddiad rhagfynegol

Rydym hefyd wedi cynnal dadansoddiad rhagfynegol arbrofol i adnabod y diwydiannau lle mae economi leol (h.y. prif ardal) yn debygol o fynd yn fwy arbenigol yn seiliedig ar ei chyfansoddiad diwydiannol presennol, arbenigedd ardaloedd cyfagos, a ffactorau lleol eraill megis y sgiliau sydd ar gael a chymhlethdod economaidd lleol.

Ein dull oedd defnyddio llawer o fodelau dysgu peiriant ar set ddata o wybodaeth hanesyddol am newidiadau i arbenigedd a'r rhagfynegyddion a nodwyd gennym, ac yna ddefnyddio'r model hwnnw i ragfynegi datblygiadau'r dyfodol. Roeddem yn mesur newidiadau i arbenigedd yn nhermau cyfrif busnesau yn hytrach na chyflogaeth oherwydd gwelsom fod mynegeion cystadleurwydd yn seiliedig ar yr ail o'r rhain yn cynnwys mwy o sŵn, yn enwedig ar gyfer ardaloedd llai. 

Roeddem yn hyfforddi tri math o fodel - atchwel logistaidd, naïf Bayes ac algorithmau coed ar hap - gyda'r data hyn gan ddefnyddio croesddilysu triphlyg (ffordd o rannu'r data i sicrhau bod y modelau a ddefnyddir yn cyffredinoli'n dda â data newydd). Gwelsom fod atchwel logistaidd a naïf Bayes yn perfformio'n well na choed ar hap felly defnyddiwyd cyfartaledd y rhain ar gyfer yr amcan o debygolrwydd ennill arbenigedd ym mhob lleoliad a phob sector. Yna, cafodd y tebygolrwyddau hyn eu gosod mewn tri chategori: roedd sectorau â thebygolrwydd dros 0.75 yn ‘debygolrwydd uchel’, roedd sectorau rhwng 0.5 a 0.75 yn y categori ‘tebygolrwydd cymedrol’, ac roedd sectorau o dan 0.5 yn cael eu rhoi mewn categori ‘tebygolrwydd isel’.

Rhai cafeatau

Mae ein dadansoddiad yn arbrofol, a dylid bod yn ofalus wrth ddehongli'r canfyddiadau. I ddechrau, cawsom ein synnu o weld nad oes gan lawer o sectorau yn set ddata IDBR ddim gweithgarwch mewn rhai lleoliadau, a bod hyn mewn rhai achosion yn gwrthdaro â'r data BRES yr ydym yn eu defnyddio i fesur cyflogaeth. Er enghraifft, yng Nghaerdydd, nid oes dim busnesau ‘gwasanaethau diwylliannol’ (yn ôl IDBR) yn 2015, ond mae 700 o bobl yn gweithio yn y sector hwnnw (yn ôl BRES). Un eglurhad o hyn yw bod data IDBR sydd ar gael i ni, drwy wefan ystadegau marchnad lafur y Swyddfa Ystadegau Gwladol, Nomis, yn talgrynnu sectorau heb lawer o arsylwadau i lawr i sero.

Un broblem bosibl arall yw bod cyniferyddion lleoliad (rydym yn defnyddio'r rhain i fesur cystadleurwydd) yn gallu mynd yn swnllyd wrth edrych ar ardaloedd bach oherwydd, os yw sylfaen economaidd ardal yn is, mae gwahaniaethau bach ar hap i weithgarwch mewn un sector yn gallu cael effaith fawr ar y cyniferydd lleoliad. Lle bynnag y bo'n bosibl, rydym wedi darparu gwybodaeth am gyfanswm lefelau gweithgarwch yn y delweddau, felly gallwch gael teimlad o ba mor gadarn yw mynegai cystadleurwydd lleoliad/sector.

Rydym yn cyfrifo'r newidynnau incwm canolrifol ac unigrywiaeth economaidd ar lefel y Deyrnas Unedig. Nid yw hyn yn ystyried gwahaniaethau posibl rhwng perfformiad economaidd sectorau sy'n dibynnu ar eu lleoliad, sef yr hyn y byddem yn disgwyl ei weld ag effeithiau clystyru (mae daearyddwyr economaidd yn galw hyn yn 'economïau cydgrynhoi'). Yn anffodus, nid yw'r data am gyflogau ar gael ar lefel ddigon manwl i'n galluogi i wneud hyn.

Yn olaf, mae ein dadansoddiad rhagfynegol yn arbrofol iawn, a thebygolrwyddau yw ei allbynnau. Rydym wedi grwpio'r tebygolrwyddau mewn 3 grŵp bras i osgoi rhoi argraff ffug o gywirdeb neu sicrwydd (yn yr achosion hynny lle'r oedd y model yn amcangyfrif bod gan sector debygolrwydd o 0% neu 100% o ennill arbenigedd mewn lleoliad). Mae’n bwysig cofio hefyd bod y modelau wedi edrych ar ddata hanesyddol ond bod arloesi, yn ôl ei ddiffiniad, yn anodd ei ragweld. Nid yw'r model yn cynnwys newidiadau i sbardunau arbenigo economaidd sy'n siŵr o ddigwydd yn y dyfodol, felly dylid ystyried ei allbynnau fel signalau neu gliwiau ynglŷn â'r hyn a allai ddigwydd, yn hytrach na chasgliadau cadarn. Gan ystyried y cyfyngiadau hyn, ein gobaith yw y bydd canlyniadau'r model yn ehangu'r posibiliadau y bydd llunwyr polisïau'n eu hystyried wrth feddwl am senarios y dyfodol ar gyfer eu heconomïau lleol, ac ymyriadau posibl i gynyddu arloesi a thwf.

Yn ôl i'r brig