Kaip ES daugiakalbystės politika keičia automatinio vertimo technologijų raidą Europoje

Kaip ES daugiakalbystės politika keičia automatinio vertimo technologijų raidą Europoje

Kodėl Europa negali tiesiog pasirinkti vienos kalbos

Europos Sąjunga šiuo metu oficialiai pripažįsta 24 kalbas. Tai nėra simbolinis gestas ar biurokratinis perteklius – tai praktinė realybė, su kuria susiduria kiekviena ES institucija, kiekvienas teisės aktas ir kiekvienas pilietis, bandantis suprasti, kas iš tikrųjų vyksta Briuselyje. Kai Europos Parlamentas priima direktyvą, ji turi būti prieinama lenkiškai, maltietiškai, latviškai ir dar dvidešimt viena kalba. Visi šie tekstai turi turėti vienodą teisinę galią.

Tai sukuria milžinišką spaudimą vertimo infrastruktūrai. Ir būtent šis spaudimas – ne technologinis entuziazmas, ne investuotojų pinigai, ne Silicio slėnio ambicijos – yra vienas pagrindinių variklių, stumiančių automatinio vertimo technologijas į priekį Europoje.

Verta suprasti, kad ES daugiakalbystės politika nėra tik administracinis reikalavimas. Ji atspindi gilesnę politinę filosofiją: kad kalbinė įvairovė yra vertybė, o ne problema, kurią reikia išspręsti. Tačiau šios filosofijos praktinis įgyvendinimas kainuoja – ir labai konkrečiai.

Skaičiai, kurie verčia susimąstyti

Europos Komisija kasmet išleidžia apie 300–350 milijonų eurų vertimui raštu ir žodžiu. Tai sudaro maždaug vieną procentą viso ES biudžeto – skaičius, kuris atrodo nedidelis, kol nepradedi galvoti apie tai, ką jis reiškia praktiškai. Kalbame apie tūkstančius vertėjų, šimtus tūkstančių puslapių dokumentų per metus ir logistinį košmarą, kurį sukuria 24 kalbų kombinacijos.

Matematika čia negailestinga. Jei turite 24 kalbas ir norite versti tarp visų jų poromis, teoriškai reikia 552 kalbų porų. Praktiškai dauguma vertimų eina per tarpines kalbas – dažniausiai anglų, prancūzų ar vokiečių – bet net ir tai neišsprendžia fundamentalios problemos: žmonių, mokančių, tarkime, maltietiškai ir suomiškai, tiesiog nėra daug.

Būtent čia automatinis vertimas tampa ne prabanga, o būtinybe. ES institucijos tai suprato gerokai anksčiau nei daugelis privačių įmonių. Europos Komisijos Vertimo generalinis direktoratas jau daugiau nei dešimtmetį aktyviai investuoja į mašininio vertimo sistemas ir jas tobulina. Rezultatai matomi – ir ne tik biudžeto eilutėse.

eTranslation ir tai, kas slypi už šio pavadinimo

2017 metais ES pristatė eTranslation – mašininio vertimo platformą, sukurtą specialiai ES institucijoms ir valstybių narių viešojo administravimo poreikiams. Tai nėra tiesiog dar vienas Google Translate konkurentas. Sistema buvo kuriama su konkrečiu tikslu: versti teisinius, administracinius ir politinius tekstus taip, kad jie išlaikytų teisinę prasmę ir terminologinį tikslumą.

Skirtumas tarp bendro pobūdžio vertimo ir teisinio vertimo yra esminis. Kai Google Translate išverčia žodį „shall” į lietuvių kalbą kaip „turės”, tai gali būti priimtina kasdieniniame kontekste. Bet ES teisiniame dokumente „shall” reiškia privalomą reikalavimą, ir jo vertimas turi atspindėti šią teisinę reikšmę. eTranslation buvo mokoma remiantis milijonais ES dokumentų – vadinamuoju Europos Parlamento lygiagrečiuoju korpusu, kuris yra vienas didžiausių tokio pobūdžio duomenų rinkinių pasaulyje.

Praktinis patarimas tiems, kas dirba su ES dokumentais: eTranslation yra prieinama ne tik ES institucijoms. Valstybių narių viešojo administravimo institucijos gali ja naudotis nemokamai. Jei dirbate savivaldybėje ar ministerijoje ir jums reikia išversti oficialius dokumentus, verta ištirti šią galimybę prieš mokant už komercinius sprendimus.

Kaip politinis sprendimas tampa technologiniu standartu

Vienas įdomiausių aspektų šioje istorijoje yra tai, kaip ES daugiakalbystės reikalavimai faktiškai formuoja technologinius standartus – ne tik Europoje, bet ir globaliai. Kai ES reikalauja aukštos kokybės vertimo į mažiau paplitusias kalbas, kaip estų ar slovakų, tai sukuria paklausą, kurios rinka pati savaime nesukurtų.

Komerciniai vertimo technologijų kūrėjai paprastai investuoja ten, kur yra didžiausia rinka. Mandarin-English, Spanish-English, Arabic-English – šios kalbų poros gauna nepalyginamai daugiau dėmesio nei, tarkime, latvių-maltiečių. Bet ES reikalavimai verčia investuoti ir į šias „nišines” kalbų poras. Ilgainiui tai reiškia, kad technologijos, sukurtos ES kontekste, tampa prieinamos ir plačiau.

Tai matoma ir akademiniame kontekste. Europos mokslinių tyrimų taryba finansuoja projektus, susijusius su mažiau ištirtomis kalbomis. Universitetai Vilniuje, Rygoje, Taline kuria kalbų technologijų centrus, kurie nebūtų finansiškai gyvybingi be ES paramos. Šis ekosistemos efektas yra svarbus: politinis sprendimas gerbti kalbinę įvairovę virsta moksliniais tyrimais, kurie vėliau virsta technologijomis, kurios vėliau grįžta kaip geresnės paslaugos visiems.

Žmogaus vertėjas ir mašina: ne konkurencija, o kažkas sudėtingesnio

Natūralus klausimas: ar automatinis vertimas gresia žmonių vertėjų darbo vietoms ES institucijose? Atsakymas yra sudėtingesnis nei paprastas „taip” arba „ne”.

ES institucijose dirbantys vertėjai šiandien vis dažniau dirba kaip redaktoriai – jie peržiūri ir koreguoja mašininio vertimo rezultatus, o ne verčia nuo nulio. Tai vadinama „post-editing” procesu. Tyrimai rodo, kad patyręs vertėjas, dirbantis su kokybiško mašininio vertimo rezultatais, gali apdoroti žymiai daugiau teksto per dieną nei dirbdamas tradiciškai. Tai reiškia, kad ta pati žmonių komanda gali aptarnauti didesnį dokumentų srautą.

Tačiau čia slypi subtilybė, kurią verta suprasti. Ne visi tekstai vienodai tinka mašininiam vertimui. Teisiniai tekstai su aiškia struktūra ir standartizuota terminologija – puikiai. Politinės kalbos su retoriniais posūkiais ir kultūrinėmis nuorodomis – žymiai sunkiau. Diplomatiniai tekstai, kur vienas žodžio pasirinkimas gali turėti reikšmingų pasekmių – čia žmogaus vertėjas išlieka nepakeičiamas.

Praktinė rekomendacija vertėjams ir kalbininkams: jei dirbate su ES dokumentais, verta investuoti laiko į mašininio vertimo redagavimo įgūdžius. Tai nėra kapituliacijos prieš technologiją ženklas – tai prisitaikymas prie besikeičiančios darbo aplinkos. Organizacijos kaip EUATC (Europos vertimo įmonių asociacija) siūlo mokymus šioje srityje.

Mažosios kalbos ir technologinis teisingumas

Yra vienas aspektas, apie kurį retai kalbama, bet kuris yra galbūt svarbiausias ilgalaikėje perspektyvoje. ES daugiakalbystės politika iš esmės yra bandymas įgyvendinti savotišką technologinį teisingumą – užtikrinti, kad kalbos, kurias kalba mažiau žmonių, nebūtų paliktos technologinėje praeityje.

Šiandieninis dirbtinio intelekto ir kalbų technologijų pasaulis yra stipriai asimetriška vieta. Didelės kalbos – anglų, kinų, ispanų – turi tūkstančius kartų daugiau duomenų, daugiau tyrėjų, daugiau investicijų. Mažesnės kalbos rizikuoja tapti „skaitmeninėmis salomis” – kalbomis, kuriose žmonės gali kalbėti tarpusavyje, bet kurios yra izoliuotos nuo skaitmeninių paslaugų, dirbtinio intelekto asistentų ir automatizuotų sistemų.

ES finansuojami projektai kaip ELRC (Europos kalbų išteklių koordinavimo centras) aktyviai renka ir kuria kalbų duomenis mažiau ištirtoms ES kalboms. Tai nėra tik akademinis projektas – tai infrastruktūra, nuo kurios priklausys, ar lietuvis ar latvis galės naudotis tomis pačiomis skaitmeninėmis paslaugomis kaip vokietis ar prancūzas po dešimties metų.

Konkrečiai: jei esate kalbininkas, tyrėjas ar tiesiog žmogus, kuriam rūpi lietuvių kalbos ateitis skaitmeninėje erdvėje, verta žinoti apie CLARIN-LT – Lietuvos kalbų išteklių infrastruktūrą, kuri yra šio platesnio europinio tinklo dalis. Dalyvavimas tokiuose projektuose – duomenų teikimas, anotavimas, vertinimas – yra praktinis indėlis į kalbos technologinę ateitį.

Reguliavimas kaip inovacijų katalizatorius

ES Dirbtinio intelekto aktas, kuris pradeda įsigalioti etapais nuo 2024 metų, tiesiogiai paliečia automatinio vertimo sistemas. Aukštos rizikos kontekstuose – o teisinis ir administracinis vertimas tikrai patenka į šią kategoriją – reikalaujama skaidrumo, auditavimo galimybių ir žmogaus priežiūros. Tai skamba kaip suvaržymai, bet iš tikrųjų tai gali tapti kokybės standartu, kuris pakels visą sektorių.

Kai sistema turi būti auditavimo galimybių, ji turi būti sukurta taip, kad jos sprendimai būtų bent iš dalies suprantami. Kai reikalaujama žmogaus priežiūros, tai reiškia, kad sistema turi sugebėti komunikuoti savo neapibrėžtumą – nurodyti, kur ji nėra tikra, kur reikia papildomo patikrinimo. Tai techniškai sudėtingi reikalavimai, bet jie stumia technologiją į brandesnę, patikimesnę kryptį.

Yra ir kitas reguliavimo aspektas, mažiau akivaizdus: ES duomenų apsaugos reglamentai (GDPR) keičia tai, kaip mašininio vertimo sistemos gali būti mokamos. Tradiciškai didžiosios technologijų įmonės naudojo vartotojų pateiktus tekstus sistemų tobulinimui. ES aplinkoje tai yra žymiai sudėtingiau – ypač kai kalbama apie konfidencialius dokumentus. Tai verčia kurti alternatyvius mokymosi metodus, kurie galbūt ilgainiui pasirodys esą geresnė praktika ir kitur.

Kai politika ir technologija susitinka realybėje

Visa ši sistema – daugiakalbystės politika, eTranslation platforma, kalbų išteklių infrastruktūra, reguliavimo reikalavimai – atrodo gana koherentiška, kai aprašai ją iš aukšto. Realybė, žinoma, yra chaotiškesnė.

ES institucijų vertėjai kartais skundžiasi, kad mašininio vertimo sistemos sukuria naujų problemų: kai tekstas jau iš dalies išverstas, redaktoriui sunkiau pastebėti subtilias klaidas nei dirbant nuo tuščio lapo. Yra ir terminologinės inercijos problema – kai sistema išmoksta vieno termino vertimo, ji jį naudoja visur, net kai kontekstas reikalauja kitokio sprendimo.

Mažesnių valstybių narių administracijos ne visada turi resursų pilnai integruoti ES siūlomas technologines priemones. Savivaldybė Lietuvos provincijoje ir Europos Komisijos vertimo departamentas techniškai turi prieigą prie tų pačių įrankių, bet jų gebėjimas juos efektyviai naudoti yra labai skirtingas.

Ir vis dėlto – žiūrint į tai, kur buvo automatinio vertimo technologijos prieš dvidešimt metų ir kur jos yra dabar, ES daugiakalbystės politikos indėlis yra neabejotinas. Ne todėl, kad ji buvo tobulai suformuluota ar įgyvendinta. O todėl, kad ji sukūrė nuolatinį, institucionalizuotą spaudimą tobulinti technologijas, kurios kitaip galbūt nebūtų sulaukusios tokio dėmesio. Kartais geriausi inovacijų katalizatoriai nėra rinkos jėgos ar vizionieriai technologai – o tiesiog žmonės, kurie nusprendė, kad tam tikros vertybės yra svarbesnės už patogumą, ir tada turėjo išsiaiškinti, kaip tai padaryti.