Eliel Aspelin-Haapkylä

Päiväkirjat

Selaa aineistoa Esittely Eliel Aspelin-Haapkylä: kulttuurifennomaanin arkkityyppi Aspelin-Haapkylän päiväkirjat ja tekoäly Ohjeet Palaute

Aspelin-Haapkylän päiväkirjat ja tekoäly

Suomalaisen Kirjallisuuden Seura kehittää yhteistyössä Kansallisarkiston kanssa autonomian ajan käsinkirjoitetun suomen automaattista transkriboimista eli kirjoittamista auki tekoälyä hyödyntävän Transkribuksen avulla. Transkribus on historiallisten asiakirjojen tekstintunnistukseen, kuva-analyysiin ja rakenteiden tunnistamiseen kehitetty alusta. Tekstintunnistus perustuu malleihin: tekoälyä opetetaan tunnistamaan asiakirjojen tekstiä käsin transkriboidulla opetusaineistolla. Päämääränä on kehittää korkeatasoisia Transkribus-malleja, joita on mahdollista käyttää monenlaisten käsinkirjoitettujen suomenkielisten aineistojen tulkitsemisessa. Arkistoissa on valtavat määrät vanhaa suomenkielistä aineistoa. Tekoälyn avulla laajoja aineistoja voi tuoda tehokkaasti haettavaksi verkkoon, sekä tutkijoiden että laajemman yleisön käyttöön.

SKS:n osalta aineistona ovat 1800-luvun ja 1900-luvun päiväkirjat. Ensimmäiseksi koeaineistoksi valikoitui estetiikan ja nykyiskansain kirjallisuuden professorin ja seuran pitkäaikaisen esimiehen Eliel Aspelin-Haapkylän (1847−1917) päiväkirjat. Tekoälyn opetusaineistoa varten transkriboitiin ensin reilun sadan sivun otos päiväkirjoista. Se liitettiin Kansallisarkiston luomaan Suomi 1870−1917 -malliin. Mallin ensimmäinen versio koostuu suomenkielisistä oikeuspöytäkirjoista, kansalaisten kirjeistä kenraalikuvernöörille sekä päiväkirjaotteesta. Merkkikohtainen virheprosentti on jo ensimmäisessä versiossa yllättävänkin hyvä: 2,20%. Mallia on tarkoitus kehittää jatkossa entistä paremmaksi lisäämällä siihen uusia aineistoja.

Aspelin-Haapkylän päiväkirjoista on aikaisemmin julkaistu otteita teoksessa Kirovuosien kronikka (SKS, 1980). Noin tuhannen sivun aineisto julkaistaan nyt ensimmäistä kertaa kokonaisuudessaan faksimilekuvina ja transkriptioina: vuosien 1868−1905 päiväkirjamerkinnät ja matkapäiväkirjat sekä viisi laajaa päiväkirjaa vuosilta 1905−1917. Transkriptiot on tuotettu koneellisesti käyttäen Suomi 1870−1917 -mallia, lukuunottamatta opetusaineistoa varten käsin tehtyä otosta ja vuoden 1901 matkapäiväkirjaa. Jälkimmäisen käsiala oli muuta aineistoa huonompi eikä sen transkriboiminen koneellisesti tuottanut riittävän hyvää tulosta.

Aspelin-Haapkylän päiväkirjat ovat ihmislukijalle varsin selkeää käsialaa, mutta tekoälyn näkökulmasta ne osoittautuivat monin tavoin haasteellisiksi. Päiväkirjat on usein kirjoitettu monen vuosikymmenen kuluessa, ja kirjoittajan käsiala vaihtelee ajan kuluessa ja kirjoittamisen konventioiden muuttuessa. Tämän lisäksi päiväkirjat ovat yleensä yksityistä tekstiä ja saattavat siten olla "huolimattomasti" kirjoitettuja. Tässä mielessä ne eroavat esimerkiksi Suomi 1870−1917 -mallin oikeuspöytäkirjojen kirjuritekstistä. Aspelin-Haapkylällä tämä "huolimattomuus" näkyy esimerkiksi kirjainten samankaltaisuutena: a-kirjain on usein jätetty auki, jolloin se näyttää samankaltaiselta kuin u- ja n-kirjaimet; s- ja r-kirjaimet ovat samankaltaisia; t-kirjaimen viiva on usein huolimaton, jolloin se saattaa sekaantua l-kirjaimeen; jne. Ihmislukija pystyy tulkitsemaan kirjaimet kontekstissa, mutta koneelle tällainen säännöttömyys tuottaa hankaluuksia.

Käsinkirjoitetun tekstin koneellinen transkriptio ei parhaimmassakaan tapauksessa voi olla aivan täydellinen: käsialan muuttuminen ajan kuluessa ja yksityisen tekstin säännöttömyys vaikuttavat molemmat lopputulokseen. Konetranskription taso myös vaihtelee tekstistä riippuen. Näistä syistä virheetön lopputulos ei ollut alun perinkään tavoitteena. Sen sijaan pyrkimyksenä oli tuottaa transkriptioita, jotka ovat virheistä huolimatta riittävän hyviä, jotta niihin tehtävien hakujen avulla voi löytää aiheita ja teemoja alkuperäisistä teksteistä (= faksimilekuvat).

Aineistohauissa kannattaa käyttää perushaun (esim. teatteri) lisäksi katkaisuhakuja (hakutermi ja asteriski, esim. teatteri*) ja sumeita hakuja (hakutermi ja tilde-merkki, ~, esim. teatteri~). Näistä sumea haku palauttaa tuloksia, jotka eroavat haetusta korkeintaan kahdella merkillä. Haku ymmärtää ja osaa palauttaa suomen taivutusmuotoja, joten niitä ei tarvitse hakea erikseen.

Hakujen tekemisen lisäksi päiväkirjojen faksimilekuvia ja konetranskriptioita voi tarkastella rinnakkain omassa näkymässään. Transkriptiot julkaistaan XML-muodossa. XML-tiedostot ovat ladattavissa ja muokattavissa avoimella lisenssillä Nimeä 4.0 Kansainvälinen (CC BY 4.0). Kuvien lisenssi on Nimeä + EiKaupallinen + EiMuutoksia 4.0 Kansainvälinen (CC BY-NC-ND 4.0).

Lue seuraavaksi: Eliel Aspelin-Haapkylä: kulttuurifennomaanin arkkityyppi

Transkribus eXist-db TEI Publisher Saavutettavuus