Tekoäly saapuu arkistointiin -Asiakirjatyypit-blogi 2/2024

Tekoäly ja arkistointi, eli ei kannata enää mitään tehdä, kun tekniikka kehittyy koko ajan. Tekoäly saapuu arkistointiin ja tekee itsestään kaiken kerralla, käden käänteessä ja ilmaiseksi. Vai miten se onkaan?

Tai jotain meidänkin tulee tehdä. Meidän tulee kertoa tekoälylle, mitä sen tulee tehdä. Tekoäly on mukava kaveri, kun sitä voi oikaista, eikä se ole siitä moksiskaan. Työkavereiden kanssa tämä ei aina onnistu. Mutta ohjeetkaan eivät aina riitä.

Tuttu äidinkielenopettaja testasi, miten tekoäly pystyisi antamaan kirjoitelmien arvosanoja. Se toimi parin ensimmäisen kohdalla ihan ok. Sitten se rupesi tekemään jo omia päätelmiään, antoi liian hyviä numeroita ja ”unohti” lähtökohdat. Kun asiasta huomautti, tekoäly pyysi anteeksi ja toimi sitten taas muutaman kerran samalla tavalla kuin aluksi, kunnes numerot taas nousivat. Sekään ei auttanut, että tekoälyä oli ohjeistanut samalla tavalla kuin aikaisemmin.

Tämä johtuu mm. siitä, että suomenkielinen tekoäly ei ole vielä niin älykäs kuin amerikkalainen. Meiltä puuttuu vielä paikallisaineistoa. Täällä Suomessa tehdään kaikki vähän eri tavalla ja pienissä erissä, jolloin asioista ei synny verrokkiaineistoa. Näin myös arkistoinnissa.

Arkistointitavat ja -tyylit ovat meillä kansallisia, ehkä lähellä muita Pohjoismaita mutta eroavat monin paikoin amerikkalaisesta tavasta arkistoida. Arkistokaavat vaihtelevat meilläkin organisaation mukaan. Tekoäly on kuitenkin kallellaan Amerikan suuntaan. Se toimii alussa ihan ok, mutta sitten se soveltaa suuremman verrokkiaineiston imussa vastauksia amerikkalaisittain. Jos se olisi teksti, tekoäly kertoisi lopussa, että pohjoismaisessa tavassa on jotain erikoista, joka tulisi korjata ”amerikkalaiseen tyyliin”.

Tekoäly digitoinnissa

Digitoinnissa nopein tapa on huudattaa skanneria yötä päivää – hitainta on kirjoittaa metatietoja jokaiselle asiakirjalle. Entä jos antaisikin tekoälyn seuloa digitoituja asiakirjakasoja?

Tekoäly osaa luultavasti hyvin arvioida, mitä tarkoittaa säilytyssuosituksissa ”toiminnan kannalta olennainen asiakirja”, mitä edes arkistonhoitaja ei aina arvaa. Tekoäly osaa hävittää tilityslaskelmat sieltä välistä, mutta kaikkea harkintaa se ei osaa. Entä jos jossain tapauksissa liitteet tuleekin ottaa poikkeuksellisesti mukaan? Toimivan säännön keksiminen vie paljon aikaa. Syntyykö tässä samanlainen tapaus kuin massadigitoinnissa, jossa skanneri vetää huomaamatta kaksi sivua kerralla, virhe vain saattaa jäädä huomaamatta?

Metatietojen syöttäminen tuntuu tarpeettomalta, kun tekoäly pystyy yhdistämään excelin ja asiakirjan melko helposti. Erään firman digitointi on osannut muutaman vuoden lukea jo muotoon laadituista asiakirjoista metatietoja. Monessa järjestelmässä on jo automaattinen kuvienlukeminen ja erottaminen tekstiksi ja kuvaksi. Kansallisarkisto on käsinkirjoitetun tekstin lukemisessa hyvä esimerkki: 1800-luvun tuomiokirjoissa tekstintunnistamisen tarkkuuden on kuulemani mukaan jopa 95-prosenttista. Tähän ollaan päästy tekoälyn pitkäjänteisellä opettamisella (Transkribus). Seuraavaksi tartutaan 1700-luvun teksteihin ja niin edespäin. Hanke ei taida hyödyttää paljon Pohjoismaita pidemmälle, mistä huomataan, että täällä tarvitaan vielä paljon ihmisiä ja käsiä suunnittelemaan ja opastamaan.

Riittääkö pelkkä digitointi?

Vastaus kysymykseen on ei, pelkkä digitointi ei vielä riitä. Aineisto pitää saada julkaistuksi tutkijoille ja yleisölle sellaisessa muodossa, jotta siitä on jotain hyötyä. Tekoäly voi tässäkin auttaa. Se laatii erilaisia yhteenvetoja asiakirjoista eri tarkoituksiin, työstää erilaisia monitieteellisiä indeksejä, ottaa vastaan palautetta ja vastaa niihin ja hoitaa tietopalvelua. Sysäys näihin tulee asiakkaalta. Tekoäly osaa myös mustata asiakirjan arkaluonteisen kohdan, jotta asiakirja on muutoin vapaasti käytettävissä.

Mutta ennen kuin päästään näin pitkälle, jonkun tulee kertoa, miten toimia. Tekoäly ei itsestään lähde tekemään mitään. Vaikka koko ajan mennään eteenpäin, käyttöliittymän koodaaminen, mikä hyödyttää oikeasti muitakin kuin tutkijoita, vie vielä vuosia. Arkistoaineisto on kuitenkin niin kuumaa tavaraa markkinoilla, että se kannattaa julkaista mahdollisimman nopeasti. Siihen kannattaa uhrata ihmisälyä ja -voimaa, MetaManager Oy:lla on kattava palvelu paperiarkistojen haltuunottoon. Ota halutessasi yhteyttä ja kysy lisää!

Arto Hautala

Arto Hautala on tiedonhallinnan asiantuntija, joka on innostunut viimeksi tekoälyn soveltamisesta asianhallinnassa. Hän kertoo mahdollisessa seuraavassa blogitekstissään, miksi arkistoaineisto on kuumaa tavaraa markkinoilla.

 

Tulevat Asiakirjatyypit-blogin kirjoitukset saat näppärästi sähköpostiisi tilaamalla MetaManagerin uutiskirjeen.