Data käyttöön – näkökulmia ammattikorkeakoulujen datanhallintaan

Kirjoittajat: Seliina Päällysaho & Jaana Latvanen.

Tämän artikkelin tavoitteena on kuvata ammattikorkeakoulujen TKI-toiminnassa syntyvän datan käsittelyä ja tuoda esiin etenkin yritysyhteistyössä toteutettavien hankkeiden datanhallinnan erityispiirteitä ja niissä esiin nousevia mahdollisia haasteita.

Datanhallinnan kysymykset ovat nousseet merkittävään asemaan niin julkisessa hallinnossa, tutkimuksessa kuin liiketoiminnassakin. Dataa on käytettävissä enemmän kuin koskaan. Sitä kertyy runsain määrin erilaisten digitaalisten palvelujen ja esimerkiksi sosiaalisen median käytöstä. Datan avulla voidaan luoda uutta ja sitä jalostamalla voidaan tuottaa lisäarvoa. Puhutaankin datataloudesta, millä tarkoitetaan sellaista taloudellista toimintaa, jossa digitaalisesta raakadatasta jalostettuja hyödykkeitä vaihdetaan markkinoilla. Raijaksen ym. (2019, 11) mukaan vuonna 2016 EU:n datatalouden arvo oli 300 miljardia euroa eli noin kaksi prosenttia EU:n bruttokansantuotteesta.

Datan käsittelyyn liittyvät asiat ovat nousseet keskeisiksi myös tiedeyhteisössä. Julkisin varoin tuotetun tiedon avaamisella pyritään edistämään tutkimuksen laatua, todennettavuutta sekä nopeuttamaan tutkimusta. Dataa avataan perustutkimuksen edistämiseksi, mutta sen avaamisella pyritään myös laajempaan yhteiskunnalliseen vaikuttavuuteen ja uusien elinkeinoelämää edistävien ja kilpailukykyä kasvattavien innovaatioiden mahdollistamiseen. Ammattikorkeakoulujen rooli vahvana tutkimus-, kehittämis- ja innovaatiotoimijana (TKI) ja erityisesti pienten ja keskisuurten yritysten kumppanina on tässä keskeinen (Arene 2017a).

Ammattikorkeakoulujen data-aineistot

TKI-hankkeiden yleisimpiä aineistoja ovat erilaiset kysely- ja haastatteluaineistot. Niitä kerätään esimerkiksi nettipohjaisten työkalujen tai audiovisuaalisten menetelmien avulla, joten ne ovat yleensä digitaalisessa muodossa. Aineistojen tallentaminen ja säilyttäminen tietoturvallisesti esimerkiksi organisaation omalla verkkolevyllä tai kansallisissa säilytyspalveluissa on teknisesti vaivatonta, mutta voi vaatia tietosuojaan liittyviä, joskus haastaviakin toimenpiteitä. TKI-hankkeissa syntyy paljon myös mittaus- ja mallinnusaineistoja sekä kuva- ja äänitallenteita. Myös tämän tyyppiset aineistot on helppo tallentaa datatiedostoiksi, joskin niiden tallentaminen voi vaatia paljon levytilaa.

Edellä mainittujen aineistotyyppien ohella TKI-hankkeissa yleisiä ovat myös erilaisissa työpajoissa syntyvät aineistot, koska työpajat ja niissä tapahtuva yhteiskehittäminen ovat ammattikorkeakouluille tyypillinen TKI-toiminnan muoto. Työpaja-aineistot kerätään usein post-it -lappujen tai fläppipapereiden avulla. Tämän tyyppisten konkreettisten aineistojen säilyttäminen ja tallentaminen ei aina ole kovin järjestelmällistä puhumattakaan siitä, että ne systemaattisesti tallennettaisiin digitaaliseen muotoon.

Osa aineistoista syntyy yritysyhteistyöhankkeissa

Myös yritysyhteistyöhankkeiden tyypillisimpiä aineistoja ovat jo edellä mainitut kysely- ja haastatteluaineistot. Lisäksi yrityksiltä kerätään paljon erilaisia palautteita. Melko usein kyselyt ja haastattelut voivat sivuta yritykselle strategisesti tärkeitä aiheita tai liittyä esimerkiksi uusien tuotteiden tai palvelujen kehitystyöhön. Täten yrityslähtöisten aineistojen hallinnassa törmätään helposti myös kysymykseen luottamuksellisuudesta ja niiden suojaamisessa on noudatettava erityistä huolellisuutta myös silloin, kun ne on kerätty ilman varsinaisia tunnistetietoja.

Yritysaineistoihin liittyy usein henkilötietojen suojaamista, mutta tyypillisesti myös sellaisia tietoja, jotka voivat vaatia suojaamista liikesalaisuuden näkökulmasta. Yritysaineistojen anonymisointi on haastavaa, sillä yritykset voivat olla helpommin ja laajemman joukon tunnistettavissa kuin yksittäiset henkilöt. Siksi tulee erityisen tarkasti huolehtia siitä, että aineistosta ei tietoja yhdistämälläkään pysty päättelemään, mistä yrityksestä on kyse.

Myös aineistoja kuvailevien tietojen eli metatietojen tallentamiseen voi liittyä tietosuojaongelmia, sillä liian yksityiskohtainen tieto voi yllättäen paljastaa yritysten liikesalaisuuksiin tai strategisesti tärkeisiin tietoihin liittyviä asioita. Yritysyhteistyöhankkeissa syntyy myös sellaisia aineistoja, joista ei välttämättä ole hankkeen ulkopuolisille toimijoille kovin paljon hyötyä.

Organisaatioiden tulee tarjota palveluja ja kehittää prosesseja

Datan ja muun tietoaineiston hallinta on moniulotteinen kokonaisuus, jossa jo ennen datan keräämistä tehdyt ratkaisut vaikuttavat siihen, miten dataa voidaan säilyttää ja jakaa. Lainsäädäntö, tutkimusetiikka, sopimukset ja organisaatioiden politiikat muodostavat reunaehtoja, joiden puitteissa aineistojen tekninen tallentaminen, säilyttäminen ja jakelu tapahtuvat. Onnistunut datanhallinta ja datan tehokas jatkohyödyntäminen vaativat selkeitä prosesseja, osaamista, hyvää infrastruktuuria ja tukipalveluita. Ammattikorkeakouluissa tulisi huolehtia siitä, että datanhallinnan kehittämiseen ja tukipalvelujen tarjoamiseen on riittävät resurssit.

Organisaatioissa ollaan edelleen melko heikosti selvillä siitä, kuinka paljon ja mitä aineistoja TKI-hankkeissa on syntynyt. Tämän vuoksi organisaatiot eivät ole osanneet tarjota riittävän kattavia infra- ja tukipalveluja. Toisaalta datanhallintapalvelujen kehittäminen ei vielä ole päässyt kunnolla vauhtiin, koska TKI-toimijatkaan eivät tunnista tarpeitaan tai osaa vaatia tarvittavia palveluja. Epävarmuutta on myös sen suhteen, mitä palveluja on tuotettava itse ja missä tilanteissa voidaan tukeutua organisaation ulkopuolisiin palveluihin. Monessa ammattikorkeakoulussa tuntuu pohdittavan, tarvitaanko datan tallentamiseen organisaation omia palveluita vai ohjeistetaanko kansallisten tai kansainvälisten palvelujen käyttöön. Ammattikorkeakoulujen datanhallinnan kehittämiseksi on tärkeää, että tietohallinnosta vastaavat tekevät omat ratkaisunsa ja suosituksensa siitä, miten datanhallinta organisoidaan.

Datanhallinta vaatii paljon erilaista työtä datan elinkaaren eri vaiheissa. Koska aineistoja kertyy runsaasti, on osattava arvioida niiden arvoa ja hyödyllisyyttä. Voi olla haastavaa valita tärkeimmät aineistot ja pohtia, riittääkö niiden säilyttäminen organisaation sisällä vai tulisiko niitä tarjota kansallisiin tai kansainvälisiin säilytyspalveluihin. Pohdittavaksi tulee myös aineistojen säilytysajat eli päätökset siitä, missä vaiheessa jokin aineisto tulisi siirtää pitkäaikaissäilytykseen ja kuinka kauan sen tulisi olla saatavana. Kun aineistoista on olemassa useampia versioita, täytyy kiinnittää huomiota myös kattaviin ja selkeisiin metatietoihin sekä pysyviin tunnisteisiin. Keskeistä on, että mahdollisen jatkokäyttöön tarjottavan datan tulee myös täyttää korkeat laatuvaatimukset niin varsinaisen datan kuin sen kuvailutiedonkin osalta.

Aineistojen metatietojen julkistaminen on perusedellytys aineistojen löydettävyydelle, mutta se on myös eräänlaista aineistojen avaamista. Käytettävissä on monia kansallisia ja kansainvälisiä kuvailutyökaluja, joihin tallentaminen mahdollistaa aineistojen näkyvyyden.  Ammattikorkeakoulujen tulisi varmistaa, että aineistojen kuvailutiedot tulevat tallennetuiksi ja haettaviksi vähintään organisaatiotasolla sekä valita ja kehittää omat ratkaisunsa niiden keräämistä ja julkaisemista varten.

Onko data uusi öljy?

Ammattikorkeakoulujen tuottama data voi tarjota yrityksille hyvän mahdollisuuden kehittää liiketoimintaa ja uusia tuotteita, mutta toistaiseksi niitä ei ole tarjolla kovin paljon. Arenen 2016 (Arene 2017b) ja 2017 (Arene 2018) keräämistä tilastoista voi päätellä, että tilanne on kohentumassa. Tätä havaintoa tukevat myös valtakunnalliset Opetus- ja kulttuuriministeriön toteuttamat korkeakoulujen avoimen toimintakulttuurin kypsyystasoa koskevat selvitykset (Avoin tiede ja tutkimus 2015; Open Science and Research Initiative 2016).

Datan hyödyntämisen ja jatkokäytön mahdollistaminen vaatii paljon työtä ja osaamista sen tuottajalta. Datan jatkokäytön näkökulmasta kiinnostavaa on, riittääkö potentiaalisten loppukäyttäjien osaaminen sen hyödyntämiseen. Esimerkiksi pienillä yrityksillä ei ole välttämättä tarvittavaa osaamista tai työkaluja raakadatan käyttöön ja jalostamiseen. Joissain tapauksissa saattaakin olla parempi tarjota yritysten käyttöön jalostetumpaa dataa sopivilla alustoilla.

Data-asioita ajatellaan pääsääntöisesti ammattikorkeakoulujen oman datantuotannon näkökulmasta, koska omissa hankkeissa tuotetun datan hallinnan kehittäminen on yksi avoimen TKI-toiminnan keskeisistä tavoitteista. Välillä saattaa unohtua, että TKI-toiminnan datanhallintaa voi ajatella myös jo olemassa olevan datan uudelleenkäytön näkökulmasta. Täten voi myös kysyä, hyödynnetäänkö TKI-hankkeissa tarpeeksi tehokkaasti sitä dataa, jota erilaisista data-arkistoista ja rekistereistä on jo saatavana. Tarjolla olevan datan jalostaminen esimerkiksi yritysyhteistyöhankkeissa voi avata uusia mahdollisuuksia. Olemassa olevan datan käyttökokemusten myötä lisääntyy myös ymmärrys siitä, miten dataa pitäisi tallentaa ja jakaa, jotta sen jatkokäyttö on sujuvaa.

Viime aikoina on herännyt keskustelu myös siitä, että yksityisen sektorin keräämää dataa tulisi tarjota myös korkeakoulujen ja tutkimuslaitosten käyttöön. Yhtenä keskustelun herättäjänä on toiminut Euroopan komission tiedonanto, Kohti eurooppalaista data-aluetta. Tiedonannossa nostetaan esille datan saatavuus laajasti yritysten kesken ja toisaalta yritysten ja julkisten toimijoiden kesken, mutta siinä ei selkeästi oteta kantaa korkeakoulujen ja tutkimuslaitosten mahdollisuuteen hyödyntää yksityisen sektorin hallussa olevaa dataa. (ks. SiVL 13/2018 vp – E 27/2018 vp). Esimerkiksi digitaalisten palveluiden käytöstä kerätty data on noussut merkittäväksi tuotannontekijäksi ja sillä olisi myös valtava potentiaali korkeakoulujen tutkimus- ja kehittämistyölle.

Haluamme kiittää Opetus- ja kulttuuriministeriötä Ammattikorkeakoulujen avoin TKI, oppiminen & innovaatioekosysteemi -hankkeen ja tämän artikkelin kirjoittamisen rahoittamisesta.

Kirjoittajat

Seliina Päällysaho, FT, KTM, Tutkimuspäällikkö, Seinäjoen ammattikorkeakoulu, seliina.paallysaho(at)seamk.fi

Jaana Latvanen, YTM, Informaatikko, Seinäjoen ammattikorkeakoulu, jaana.latvanen(at)seamk.fi


Arene. 2017a. Innovaatioita, kehittämistoimintaa ja tutkimusta: Kaikki kirjaimet käytössä ammattikorkeakoulujen TKI-toiminnassa. Helsinki: Arene. Saatavana: http://arene.fi/sites/default/files/PDF/2017/TKI-RAKE/Innovaatioita%2C%20kehitt%C3%A4mistoimintaa%20ja%20tutkimusta_raportti_22032017.pdf

Arene. 2017b. TKI-toiminnan vaikuttavuus 2016. Julkaisematon.

Arene. 2018. TKI-toiminnan vaikuttavuus 2017. Julkaisematon.

Avoin tiede ja tutkimus -hanke. 2015. Avoin tiede ja tutkimus Suomessa: Toimintakulttuurin avoimuus korkeakouluissa vuonna 2015. Opetus- ja kulttuuriministeriö. Saatavana: http://urn.fi/URN:NBN:fi-fe2016122731708

Open Science and Research Initiative (2014–2017). 2016. Evaluation of Openness in the Activities of Research Organisations and Research Funding Organisations in 2016. Ministry of Education and Culture. Saatavana: http://urn.fi/URN:NBN:fi-fe2016111829246

Raijas, A., Rosendahl, R., Saastamoinen, M. & Vuorinen, J. 2019. Kilpailun ja kuluttajansuojan kysymyksiä datataloudessa. Helsinki: Kilpailu- ja kuluttajavirasto. Kilpailu- ja kuluttajaviraston selvityksiä 1/2019.Satavana: https://www.kkv.fi/globalassets/kkv-suomi/julkaisut/selvitykset/2019/kkv-selvityksia-1-2019-kilpailun-ja-kuluttajansuojan-kysymyksia-datataloudessa.pdf

SiVL 13/2018 vp – E 27/2018 vp. Valiokunnan lausunto. Valtioneuvoston selvitys: Komission tiedonanto: Kohti yhteistä eurooppalaista data-aluetta. Saatavana:https://www.eduskunta.fi/FI/vaski/Lausunto/Sivut/SiVL_13+2018.aspx