Virtuaalinen Valamo ei ole varsinaisesti tekstikäsikirjoitusten valokuvaushanke. Aineistoa on saatettu digitaaliseen muotoon jo vuodesta 2019 lähtien Valamon kirjastonhoitajan Virva Suvitien johdolla. Käsikirjoitukset ovat jo pääpiirteissään digitaalisessa muodossa ja nähtävissä osoitteessa https://valamo.fi/kulttuuritarjonta/kirjasto/digitoidut-aineistot.
Digitaaliset kuvat ovat kuitenkin vasta alku ja pohja käsillä olevalle hankkeelle. Virtuaalinen Valamo on ennen kaikkea transkribointihanke. Kaikkien käsikirjoitusten tekstit kirjoitetaan auki digitaaliseen muotoon (eli transkriboidaan) käyttäen apuna digitaalisia valokuvia. Tämä mahdollistaa aineiston sisältöä koskevat hakutoiminnot. Manuaalinen transkribointi vie aikaa. Prosessin automatisointi säästää paljon aikaa, sillä tietokoneen saavuttamat transkribointinopeudet ovat huomattavat korkeita. Projektissa käytettävät modernit HTR-metodit perustuvat neuroverkkotekniikoihin sekä koneoppimiseen. Nämä metodit valjastetaan projektin käyttöön Transkribus sovelluspaketin avulla.
Suurin osa Valamon käsikirjoituksista on kirkkoslaavinkielisiä. Kirkkoslaavi ei valitettavasti vielä kuulu Transkribuksen varsinaiseen kielivalikoimaan. Tästä syystä teemme tiiviisti yhteistyötä Suomen Kansallisarkiston kanssa, joka on ollut mukana kehittämässä Transkribusta alusta lähtien. Tässä hankkeessa tuotettu opetusdata liitettään ohjelmistoon, jolloin opetusdata tulee laajemman käyttäjäjoukon käyttöön. Tällä tavalla tästä projektista on hyötyä laajemminkin esimerkiksi slavistiikan alalla.
Transkribus pitää siis ikään kuin opettaa ymmärtämään Valamon käsikirjoitusten käsialoja ja kieltä. Sovellukseen ladataan käsikirjoitusten kuvia ja kerrotaan, missä kohdassa kuvaa kirjoitus sijaitsee, mistä rivi alkaa ja mihin se loppuu, mitä kirjaimia ja sanoja kullakin rivillä on jne. Tätä opetusdataa käyttäen sovellus tuottaa kielimallin, jonka avulla varsinainen transkriboiminen tapahtuu. Tukenamme tässä prosessissa on myös Freiburgin yliopisto, jossa on kehitelty nimenomaan kirkkoslaavin kielen kielimalleja.
Opetusdatan valmistelu käynnissä Transkribuksessa.