Euroopan unioni Vipuvoimaa EU:lta

Euroopan aluekehitysrahaston (EAKR) rahoittaman hankkeen kuvaus

1 Hanke

Hankekoodi: A78202

Hankkeen nimi: Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti

Toimintalinja: 2. Uusimman tiedon ja osaamisen tuottaminen ja hyödyntäminen

Erityistavoite: 4.1. Tutkimus-, osaamis- ja innovaatiokeskittymien kehittäminen alueellisten vahvuuksien pohjalta

Suunnitelman mukainen toteutusaika: Alkaa 1.9.2021 ja päättyy 31.8.2023

Toiminnan tila: Toiminta päättynyt

Vastuuviranomainen: Etelä-Savon maakuntaliitto

2 Hakijan perustiedot

Hakijan virallinen nimi: Kansallisarkisto

Organisaatiotyyppi: Valtion viranomainen

Y-tunnus: 0245885-9

Jakeluosoite: PL 258

Puhelinnumero: 029 533 7000

Postinumero: 00171

Postitoimipaikka: Helsinki

WWW-osoite: http://www.arkisto.fi

Hankkeen yhteyshenkilön nimi: Maija Mäkikalli

Yhteyshenkilön asema hakijaorganisaatiossa: Projektipäällikkö

Yhteyshenkilön sähköpostisoite: maija.makikalli(at)kansallisarkisto.fi

Yhteyshenkilön puhelinnumero: 0295337356

Hakijoiden lukumäärä tai tuen siirto -menettely:

Osatoteuttajat

3 Suunnitelman mukainen tiivistelmä toteutuksesta

Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti

Hankkeen tavoitteena on saada aikaan tekoälyä hyödyntäen ratkaisuja muistiorganisaatioiden digitaalisten aineistojen laadun ja käytettävyyden kehittämiseksi. Tekoälyn ja erityisesti koneoppimisen menetelmien nopea kehittyminen viimeisen vuosikymmenen aikana on avannut täysin uusia mahdollisuuksia myös kulttuuriperintöaineistojen käytettävyyden kehittämiseen.

Tavoitteena hankkeella on nopeuttaa arkistoissa, kirjastoissa ja museoissa käynnissä olevaa digitalisaatiota ja teknologista murrosta. Tekoäly tarjoaa valtavasti mahdollisuuksia laajojen aineistomassojen automaattiseen käsittelyyn, mutta toistaiseksi muistiorganisaatioissa on vielä vähän vaadittavaa osaamista.

Hankkeen keskeiset tavoitteet ovat:
1. Edistää digitoinnin automatisointia kehittämällä tekoälyyn perustuvia menetelmiä, joilla voidaan vähentää digitoinnissa tehtävää manuaalista työtä sekä tehostaa toimintaa.
2. Kehittää aineiston automaattista kuvailua eli metatietojen generointia tekoälyä hyödyntäen ja parantaa siten aineiston käytettävyyttä ja edistää tiedon löydettävyyttä ja hyödyntämistä
3. Edistää tekoälyyn ja koneoppimiseen perustuvien menetelmien käyttöönottoa muistiorganisaatioissa sekä edistää kehitettävien komponenttien helpompaa ja laajempaa hyödyntämistä.

Hankkeen merkittävimpänä uutuusarvona on, että hankkeessa pyritään ensimmäistä kertaa systemaattisesti viemään kehitettäviä tekoälyn komponentteja osaksi tuotantoprosesseja, siten että tekoälyyn perustuvat komponentit toteuttavat aineiston käsittelyä. Hankkeessa kehitettävistä komponenteista tuotetaan avoimesti hyödynnettäviä sovelluksia, joihin kehitetään helppokäyttöiset käyttöliittymät ja rajapinnat.

Hanke liittyy vahvasti Mikkelin Memory Campus kehittämisalustaan, joka on arkisto- ja kirjastotoimialan digitoinnin osaamis- ja palvelukeskus. Memory Campus pohjautuu Mikkeliin pitkäjänteisesti rakennettuun, valtakunnallisesti ainutlaatuiseen arkistoinnin, digitoinnin, aineistojen käytettävyyden ja tiedonhallinnan osaamiseen. Muita Memory Campuksen toimijoita hankkeeseen osallistuvien organisaatioiden lisäksi ovat muistiorganisaatiot Musiikkiarkisto, Design Arkisto, Muisti ja Kansalliskirjasto; tutkimus ja koulutus sektorilta Digitalia, MUC (Mikkelin yliopistokeskus) sekä Esedu (Etelä-Savon ammattiopisto); yrityksistä mm. Fujitsu, Rocksolid IT, Marskidata, MPY ja Naistinki. Hankkeessa hyödynnetään monipuolisesti XAMKin digitaalisen tiedonhallinnan tutkimus- ja kehittämiskeskus Digitaliassa pitkäjänteisesti tehtyä tutkimus- ja kehitystyötä. Hankkeessa jatkokehitetään ja viedään tuotantoon erilaisia aiemmin kehitettyjä ja kokeiltuja komponentteja.

Suunniteltu hanke tukee erityisesti Memory Campuksen toimijoiden piirissä uusien teknologioiden käyttöönottoa digitoinnissa sekä osaamisen kasvattamista laajemmin. Hankkeen tulokset tulevat olemaan laajasti hyödynnettävissä myös Memory Campuksen toimijoiden ulkopuolella ja hankkeen aikana niitä otetaan käyttöön mm. Kansallisarkiston massadigitoinnissa ja Elinkeinoelämän keskusarkiston Elkan digitoinnissa. Hanke vahvistaa Memory Campuksen toimijoiden asemaa digitaalisen tiedonhallinnan asiantuntijoina niin Suomessa kuin kansainvälisesti.

4 Hankkeen kohderyhmät

4.1 Varsinaiset kohderyhmät

Hankkeen ensisijaista kohderyhmää ovat organisaatiot, jotka digitoivat ja saattavat käytettäväksi digitaalisia aineistoja sekä kehittävät digitaalisen aineiston käsittelyyn liittyviä menetelmiä. Keskeisin kohderyhmät ovat muistiorganisaatiot, kuten arkistot, kirjastot ja museot sekä erilaiset ykistyiset yritykset ja muut organisaatiot, jotka kehittävät digitointiin ja digitaaliseen aineiston käsittelyyn liittyviä palveluita. Hankkeen keskeistä kohderyhmää ovat siten Memory Campuksen toimijat.

Hankkeen tulokset hyödyttävät kaikkia organisaatioita, jotka hyötyvät aineistojensa digitoinnista. Näitä organisaatioita ovat mm. valtion virastot, kunnat, muut julkisen hallinnon organisaatiot, yksityiset yritykset ja järjestöt ja yhdistykset.

Laajemmin hanke kytkeytyy osaksi eurooppalaista Time Machine yhteistyöverkostoa, jonka tavoitteena on kehittää innovatiivisia ratkaisuja, joilla Euroopan arkistoissa, kirjastoissa ja museoissa säilytettävät kulttuuriperintöaineistot voidaan saattaa laajassa mitassa digitaaliseen muotoon.

4.2 Välilliset kohderyhmät

Laajemmin hyötyjinä ovat julkisen tiedon hyödyntäjät eli kansalaiset ja tutkijat, jotka voivat käyttää ja etsiä aiempaa monipuolisemmin hallinnon julkista tietoa. Tutkijoiden kannalta tiedon löydettävyyden ja hyödynnettävyyden parantuminen tarjoaa mahdollisuuksia täysin uudenlaisille tutkimusasetelmille ja -kysymyksille. Välillisiä kohderyhmiä datan jatkohyödyntämiseen ovat alan palveluita tarjoavat yritykset.

5 Projektin julkinen rahoitus, euroa

Myönnetty EU- ja valtion rahoitus: 902 683

Toteutunut EU- ja valtion rahoitus: 797 296

Suunniteltu julkinen rahoitus yhteensä: 1 068 984

Toteutunut julkinen rahoitus yhteensä: 950 924

6 Maantieteellinen kohdealue

Maakunnat: Etelä-Savo

Seutukunnat: Mikkelin

Kunnat: Mikkeli

Toteutuspaikan osoite, jos hanke toteutetaan yhdessä paikassa

Jakeluosoite:

Postinumero:

Postitoimipaikka:

7 Hakemusvaiheessa ilmoitettavat arviot hankekohtaisista seurantiedoista

7.1 Uusien työpaikkojen määrä (kysytään vain erityistavoitteisiin 1.1, 2.1 ja 3.1 kuuluvissa hankkeissa)

Suunniteltu: 4, joihin työllistyvät naiset 2

Toteutunut seurantatietojen mukaan: 0.00, joihin työllistyvät naiset 0.00

7.2 Uusien yritysten määrä (kysytään vain erityistavoitteeseen 1.1 kuuluvissa hankkeissa)

Suunniteltu: 0, joista naisten perustamia 0

Toteutunut seurantatietojen mukaan: 0.00, joista naisten perustamia 0.00

8 Horisontaaliset periaatteet

8.1 Sukupuolten tasa-arvo

Hankkeessa on tehty toimintaympäristön analyysi sukupuolinäkökulmasta: Kyllä
Hanke on sukupuolineutraali. Sukupuolella ei ole vaikutusta hankkeen toteutuksessa, eikä hankkeen tulokset ota kantaa sukupuoleen. Hankkeessa noudatetaan valtion virastojen ja Kaakkois-Suomen ammattikorkeakoulun sukupuolten tasa-arvosta ja valtavirtaistamisesta annettuja periaatteita
Sukupuolinäkökulma on huomioitu hankkeen toiminnassa (valtavirtaistaminen): Kyllä
Hankkeessa huomioidaan sukupuolineutraalius ja valtavirtaistamisen periaatteet.
Hankkeen päätavoite on sukupuolten tasa-arvon edistäminen: Ei
Hankkeen päätavoitteena ei ole sukupuolten tasa-arvon edistäminen

8.2 Kestävä kehitys

VälitönVälillinen
Ekologinen kestävyys
Luonnonvarojen käytön kestävyys 0 5
Digitointi ja digitaalisten aineistojen käyttö vähentää paperiaineistojen säilytykseen ja kuljetukseen liittyvien luonnovarojen käytön tarvetta.
Ilmastonmuutoksen aiheuttamien riskien vähentäminen 0 5
Digitointi ja digitaalisten aineistojen käyttö vähentää paperiaineistojen säilytykseen ja kuljetukseen liittyvän energiankäytön tarvetta (säilytysolosuhteiden ylläpitoon vaadittava energia, kuljetuksen vaatimat polttoaineet).
Kasvillisuus, eliöt ja luonnon monimuotoisuus 0 0
Pinta- ja pohjavedet, maaperä sekä ilma (ja kasvihuonekaasujen väheneminen) 0 0
Natura 2000 -ohjelman kohteet 0 0
Taloudellinen kestävyys
Materiaalit ja jätteet 0 5
Aineistojen digitaalinen käsittely ja arkistointi vähentää arkistointiin liittyvien materiaalien tarvetta.
Uusiutuvien energialähteiden käyttö 0 0
Paikallisen elinkeinorakenteen kestävä kehittäminen 8 7
Tukee Mikkelin kaupungin strategista tavoitetta kehittää Memory Campus kehittämisalustaa, luoda digitaaliseen tiedonhallintaan liittyvää osaamista ja lisätä alan työpaikkoja (erit. korkean teknologian työpaikat).
Aineettomien tuotteiden ja palvelujen kehittäminen 9 6
Kehittää digitaalisia palveluita ja mahdollisuuksia laajentaa digitaalisten palveluiden tarjontaa. Luo osaamista kehittää jatkossa digitaalisia palveluita, jotka hyödyntävät uusinta teknologiaa.
Liikkuminen ja logistiikka 4 5
Edistää digitoinnin keskittämistä kansallisesti Mikkeliin. Digitaalinen säilytys ja käyttö edistävät paperiaineistoon liittyvän logistiikan vähenemistä
Sosiaalinen ja kulttuurinen kestävyys sekä yhdenvertaisuus
Hyvinvoinnin edistäminen 3 5
Hanke tukee hyvinvointia synnyttämällä uutta osaamista ja tukemalla työllisyyttä. Hanke tukee välillisesti hyvinvointia parantamalla digitaalisten aineistojen määrää ja niiden käytettävyyttä eri käyttäjäryhmille ja eri tarkoituksiin.
Tasa-arvon edistäminen 0 5
Hankkeessa huomioidaan sukupuolineutraalius ja valtavirtaistamisen periaatteet.
Yhteiskunnallinen ja kulttuurinen yhdenvertaisuus 5 5
Hanke tukee yhdenvertaisuutta edistämällä digitaalisten aineistojen saatavuutta, löydettävyyttä ja helppokäyttöisyyttä. Hankkeella edistetään, että kulttuuriperintöaineisto on helpommin saavutettavissa eri käyttäjäryhmille
Kulttuuriympäristö 8 8
Hankkeella edistetään digitaalisen kulttuuriperintöaineiston säilymistä ja sen saattamista laajemmin käyttöön eri käyttäjäryhmillle.
Ympäristöosaaminen 0 0

9 Loppuraportin tiivistelmä

Digitaalisten aineistojen laadun ja käytettävyyden parantaminen tekoälyavusteisesti -hankkeen (DALAI) lähtökohtana on arkistoissa meneillään olevan digitaalisen murroksen tukeminen koneoppimisteknologian avulla. Hankkeen keskeisenä kohderyhmänä ovat muistiorganisaatiot ja niille palveluja tuottavat yritykset. Tekoälyä hyödyntämällä hankkeessa tuotettiin ratkaisuja arkistoitujen asiakirja-aineistojen digitoinnin tehostamiseen ja digitoidun aineiston käytettävyyden parantamiseen. Lisäksi hankkeessa edistettiin uusien menetelmien hyödyntämistä muistiorganisaatioissa. Hankkeen tavoitteisiin edettiin viiteen työpakettiin jaetuilla toimenpiteillä. Työpaketeissa 1-3 kehitettiin tuotantovalmiita tekoälykomponentteja digitoitujen aineistojen kuvanlaadun validointiin, sisällöntunnistukseen, aineiston rakenteiden tunnistukseen sekä automaattiseen metatiedottamiseen. Työpaketissa 4 ja 5 keskityttiin yritysyhteistyöhön ja verkostomaiseen kehittämiseen sekä tulosten jakamiseen laajempaan käyttöön helppokäyttöisen käyttöliittymän avulla.

Hankkeen tuloksena syntyi vapaasti saatavilla olevat tekoälykomponentit tyhjien sivujen, skannausvirheiden (post-it-lappujen ja taittuneiden kulmien), kirjoitustyypin ja asiakirjakokonaisuuden tunnistukseen, asiakirjan segmentointiin ja automaattiseen metatiedottamiseen. Komponenttien koodit dokumentaatioineen julkaistiin osoitteessa https://github.com/DALAI-project. Lisäksi hankkeessa tutkittiin koneluettavaan muotoon muutetun konekirjoitetun tekstin (OCR) laatua asiakirja-aineistoissa (ks. Jääskeläinen, Lipsanen, Föhr, Räisänen 2023). Komponenttien kehitystyötä varten tuotettiin opetusaineistoja erilaisista arkistoaineistoista. Rakennettuja ja koulutettuja malleja testattiin, lisäkoulutettiin ja jälleen testattiin. Komponentit kiinnitettiin hankkeessa rakennettuun käyttöliittymään, joka nimettiin Arkkiiviksi (https://arkkiivi.fi/). Osa kiinnitettiin myös Kansallisarkiston massadigitoinnin tuotantoympäristöön testattaviksi ja tuotantoon. Arkkiivissa komponentteihin voi tutustua ja niitä voi testata pienillä aineistomäärillä. Komponentteja ja Arkkiivia testattiin hankepartnerien omissa testiympäristöissä sekä hankkeen ulkopuoliselle kohderyhmälle suunnatuissa avoimissa työpajoissa, joita järjestettiin etä- ja lähitapaamisina Mikkelissä ja Helsingissä. Työpajoissa komponentteja testattiin erilaisilla arkistoaineistoilla ja palautetta saatiin sekä käyttöliittymän että komponenttien kehitystyöhön. Julkaistut komponentit ovat avoimesti saatavilla, vapaasti hyödynnettävissä ja jatkokehitettävissä (MIT-lisenssi). Rajapintojen avulla komponentit voidaan asentaa organisaatioiden omiin tuotantoympäristöihin. Malleja voi muokata tai jatkokehittää kouluttamalla niitä omilla opetusaineistoilla.

Hankkeesta ja sen tuloksista tiedotettiin mm. erilaisissa arkistoalan tilaisuuksissa Suomessa ja ulkomailla sekä partnereiden omilla viestintäkanavilla. Hankkeen myötävaikutuksella syntyi mm. kaksi uutta työpaikkaa ja uusia vapaasti hyödynnettäviä tuotteita, joilla voi helpottaa arkistoaineistojen digitoinnissa kuvanlaadun tarkistusta sekä digitoitujen asiakirjojen käytettävyyttä.