Sažetak

Kristina Štrkalj-Despot
Institut za hrvatski jezik i jezikoslovlje

Nove mogućnosti i stari tekstovi: stanje i perspektive retrodigitalizacije i digitalizacije hrvatske jezične baštine

U izlaganju će se prikazati stanje i perspektive retrodigitalizacije i digitalizacije hrvatske jezične baštine kao iznimno važnoga i opsežnoga integralnoga dijela hrvatske digitalne humanistike. Digitalna humanistika kao područje ispreplitanja humanističkih znanosti i informacijskih tehnologija uključuje retrodigitalizirane ili izvorno digitalne izvore na koje se primjenjuju metode tradicionalnih humanističkih disciplina te računalni alati poput vizualizacije podataka, dohvaćanja podataka, analize podataka, statistike, analize teksta itd.

Kad je riječ o hrvatskoj jezičnoj baštini, tek smo u začecima: tek stvaramo, i to vrlo sporo, retrodigitalizirane ili izvorno digitalne resurse. To znači da nemamo još ni temeljnoga preduvjeta za primjenu alata iz područja obrade prirodnoga jezika na najstarije hrvatske tekstove, primjenu koja bi nadilazila pojedinačna eksperimentalna nastojanja.

Ponudit ćemo pregled najvažnijih dosadašnjih retrodigitalizacijskih i digitalizacijskih projekata: npr. projekt Hrvatska rječnička baština i prikaz rječničkoga znanja Filozofskoga fakulteta Sveučilišta u Zagrebu i voditelja prof. dr. Damira Borasa; pojedinačne projekte Instituta za hrvatski jezik i jezikoslovlje u smjeru retrodigitalizacije rječničke baštine u okviru radne skupine Retro-digitized dictionaries COST akcije European Network of e-Lexyicography;  projekt digitalizacije hrvatske gramatičke baštine, Dopreporodne hrvatske gramatike,Instituta za hrvatski jezik i jezikoslovlje voditeljice dr. sc. Marijane Horvat; projekt Starohrvatski rječnik Instituta za hrvatski jezik i jezikoslovlje voditelja prof. dr. Amira Kapetanovića; projekt Korpus hrvatskoga jezika 17., 18. i 19. stoljeća  Instituta za hrvatski jezik i jezikoslovlje voditelja dr. Jurice Budje itd.

Kako bi se prikazale nove mogućnosti istraživanja starih tekstova detaljnije će se predstaviti prvi i zasad jedini označeni korpus starijih hrvatskih tekstova – Korpus tekstova iz Osorsko-hvarske pjesmarice (autorice dr. sc. Kristine Štrkalj Despot).Korpus je zasad ručno označen i pretraživ morfosintaktički (tzv. lema tagiranje i POS tagiranje), a planira se cijeli korpus ručno označiti i sintaktički (SPO tagiranje, tagiranje rečenične strukture) te semantički: označit će se semantičke uloge (tzv. SRL: semantic role labeling), pripadnost semantičkim okvirima, taksonomija, mereologija, topologija, tvorbene značajke, konceptualne metafore itd.). Označeni korpus relevantnoga broja starohrvatskih tekstova velika je novina u hrvatskoj filologiji i vrlo važan korak u novu eru najširega spektra jezičnopovijesnih istraživanja hrvatskoga jezika utemeljenih na automatskoj ili poluatomatskoj obradi višerazinski označenih korpusa. Na ručno označeni korpus primijenit će se metode nadziranoga strojnoga učenja kako bi se izgradili modeli predviđanja za automatsko označivanje korpusa, što će se temeljiti na rezultatima primjene tehnika strojnoga učenja za izgradnju modela za predviđanje na označenim tekstovima kojime se označava novi tekst.

Ključne riječi: retrodigitalizacija, digitalizacija, digitalna humanistika, hrvatska jezična baština