Vzniká digitální korpus romštiny, který má přispět k oživení tohoto starobylého jazyka

10. listopad 2022

Teď máme dobrou zprávu pro uživatele romštiny – blíží se totiž doba, kdy jim s překladem neznámých slov, frází nebo i textů pomůže počítačový překladač, který bude dostupný online. Vzniká ve spolupráci Univerzity Karlovy a Univerzity Pardubice a jeho prvním cílem je vybudování digitálního korpusu romštiny, který bude vhodný pro postupnou tvorbu počítačových programů.

Na budování digitálního korpusu romštiny začal tento rok pracovat tříčlenný tým, jehož členem je i romista Zbyněk Andrš z Katedry sociální a kulturní antropologie Univerzity Pardubice.

„Minulý rok jsme se sešli s kolegou z Ústavu translatologie PhDr. Tomášem Svobodou, Ph.D. a usmysleli jsme si, že bychom se mohli pokusit o vytvoření strojového překladače romštiny, jaký existuje pro celou řadu jiných jazyků. Podali jsme žádost o podporu projektu, který se nazývá Sběr a zpracování jazykových dat s cílem vytvořit jazykové technologie pro revitalizaci romštiny. Je to snaha podpořit romštinu v jejích funkcích jako hovorového i psaného jazyka, a snaha jí oživit, protože podobně jako řada jiných jazyků je ohrožena zánikem.“

Projekt má několik fází.

„V první fázi jsme si dali za cíl vytvoření digitálního korpusu romštiny, kdy třídíme, katalogizujeme texty, překládáme texty, přepisujeme nahrávky. A dalším krokem v budoucnosti bude zmapování technologického zázemí pro vytvoření případného strojového překladače.“

Výzkumný tým se chce zaměřit na vícero dialektů romštiny.

„Ponejvíce jsou to texty z tzv. slovenské romštiny, jsou to nahrávky někdy řadu let staré nebo nově pořizované, v korpusu je ale i olašská romština a postupně tam budeme nahrávat i texty nebo nahrávky jiných dialektů romštiny, například džambalštiny z území bývalé Jugoslávie, gurbetštiny atd.“

Součástí korpusu bude velké množství různorodých textů.

Romista Zbyněk Andrš na RomAcademy

„Budou tam i některé texty, které byly třeba publikovány časopisecky nebo i knižně, budou tam nahrávky rozhovorů s pamětníky, možná tam budou i písně, kde zas ten jazyk se objevuje v jiných podobách, takových poetických. Bude to tedy mít nejrůznější charakter.“

Práce je to vysloveně mravenčí.

„Máme užší tým, který se podílí na přepisu těch nahrávek ze zvukové podoby do textové a na překladu z romštiny z různých dialektů do češtiny a v budoucnosti i do angličtiny.“

Prvního výstupu projektu se dočkáme už brzy.

„Část by měla být zveřejněná letos a postupně, jak se budou ty texty nebo nahrávky zpracovávat, tak ty, které nebudou podléhat autorským právům nebo kde budeme mít svolení to zveřejnit, tak budou zveřejňovány. Bude to na webových stránkách Ústavu translatologie a současně Univerzity Pardubice, která je mým pracovištěm.“

Projekt je určen především pro Romy, aby si oživovali svůj jazyk, ale i pro zájemce z řad širší veřejnosti, zejména pro lingvisty.

„Může to využít třeba překladatel, nebo i tlumočník do romštiny nebo z romštiny, kdy bude hledat určité fráze, které by odpovídaly tomu výchozímu jazyku překladu. Můžou to využít Romové, kteří se zajímají o svůj jazyk, ale nejsou zvyklí například chodit do knihoven nebo vyhledávat nějaké knížky, i když literatura jazykovědná romistická existuje, tak jim je třeba bližší mobilní telefon. Takže budeme pracovat i na nějaké mobilní aplikaci, kde formou třeba jazykových her by se Romové seznamovali hlouběji se svým jazykem.“

Příští rok se projekt rozšíří také o přednášky a workshopy určené především na Romy, kteří mají zájem dozvědět se něco nového o svém jazyce.

Spustit audio