Tekoäly digitoinnissa
Digitoinnissa nopein tapa on huudattaa skanneria yötä päivää – hitainta on kirjoittaa metatietoja jokaiselle asiakirjalle. Entä jos antaisikin tekoälyn seuloa digitoituja asiakirjakasoja?
Tekoäly osaa luultavasti hyvin arvioida, mitä tarkoittaa säilytyssuosituksissa ”toiminnan kannalta olennainen asiakirja”, mitä edes arkistonhoitaja ei aina arvaa. Tekoäly osaa hävittää tilityslaskelmat sieltä välistä, mutta kaikkea harkintaa se ei osaa. Entä jos jossain tapauksissa liitteet tuleekin ottaa poikkeuksellisesti mukaan? Toimivan säännön keksiminen vie paljon aikaa. Syntyykö tässä samanlainen tapaus kuin massadigitoinnissa, jossa skanneri vetää huomaamatta kaksi sivua kerralla, virhe vain saattaa jäädä huomaamatta?
Metatietojen syöttäminen tuntuu tarpeettomalta, kun tekoäly pystyy yhdistämään excelin ja asiakirjan melko helposti. Erään firman digitointi on osannut muutaman vuoden lukea jo muotoon laadituista asiakirjoista metatietoja. Monessa järjestelmässä on jo automaattinen kuvienlukeminen ja erottaminen tekstiksi ja kuvaksi. Kansallisarkisto on käsinkirjoitetun tekstin lukemisessa hyvä esimerkki: 1800-luvun tuomiokirjoissa tekstintunnistamisen tarkkuuden on kuulemani mukaan jopa 95-prosenttista. Tähän ollaan päästy tekoälyn pitkäjänteisellä opettamisella (Transkribus). Seuraavaksi tartutaan 1700-luvun teksteihin ja niin edespäin. Hanke ei taida hyödyttää paljon Pohjoismaita pidemmälle, mistä huomataan, että täällä tarvitaan vielä paljon ihmisiä ja käsiä suunnittelemaan ja opastamaan.
Riittääkö pelkkä digitointi?
Vastaus kysymykseen on ei, pelkkä digitointi ei vielä riitä. Aineisto pitää saada julkaistuksi tutkijoille ja yleisölle sellaisessa muodossa, jotta siitä on jotain hyötyä. Tekoäly voi tässäkin auttaa. Se laatii erilaisia yhteenvetoja asiakirjoista eri tarkoituksiin, työstää erilaisia monitieteellisiä indeksejä, ottaa vastaan palautetta ja vastaa niihin ja hoitaa tietopalvelua. Sysäys näihin tulee asiakkaalta. Tekoäly osaa myös mustata asiakirjan arkaluonteisen kohdan, jotta asiakirja on muutoin vapaasti käytettävissä.
Mutta ennen kuin päästään näin pitkälle, jonkun tulee kertoa, miten toimia. Tekoäly ei itsestään lähde tekemään mitään. Vaikka koko ajan mennään eteenpäin, käyttöliittymän koodaaminen, mikä hyödyttää oikeasti muitakin kuin tutkijoita, vie vielä vuosia. Arkistoaineisto on kuitenkin niin kuumaa tavaraa markkinoilla, että se kannattaa julkaista mahdollisimman nopeasti. Siihen kannattaa uhrata ihmisälyä ja -voimaa, MetaManager Oy:lla on kattava palvelu paperiarkistojen haltuunottoon. Ota halutessasi yhteyttä ja kysy lisää!
Arto Hautala
Arto Hautala on tiedonhallinnan asiantuntija, joka on innostunut viimeksi tekoälyn soveltamisesta asianhallinnassa. Hän kertoo mahdollisessa seuraavassa blogitekstissään, miksi arkistoaineisto on kuumaa tavaraa markkinoilla.