Zrozumieć neuronowe tłumaczenie maszynowe
Jak „działa” sztuczna inteligencja w tłumaczeniu tekstów literackich

Jak „działa” sztuczna inteligencja w tłumaczeniu tekstów literackich? | Philippos Vassiliades | CC-BY-SA

Kiedy w 2006 r. po raz pierwszy wprowadzono do użytku Tłumacza Google (Google Translate), potrafił on tłumaczyć jedynie w obszarze dwóch języków. W roku 2016 języków było już ponad 103, a serwis tłumaczył ponad sto miliardów słów dziennie. Google Translate nie tylko tłumaczy, ale potrafi także dokonać transkrypcji w czasie rzeczywistym w ośmiu najczęściej używanych językach. Maszyny mają zdolność uczenia się i to w bardzo szybkim tempie.

Alana Cullen

Ciągle jeszcze istnieją jednak kody lingwistyczne, których nie udało się maszynom jak dotąd złamać. Sztuczna inteligencja w dalszym ciągu zmaga się z ogromną złożonością języka ludzkiego, który nigdzie nie wydaje się bardziej skomplikowany i naładowany znaczeniem niż w literaturze. Piękno słów w powieściach, poezji i sztukach teatralnych tkwi często w niuansach i subtelnościach. Maszyny tłumaczą słowo w słowo, kierując się przy tym regułami wypracowanymi przez językoznawców. Dlatego właśnie tradycyjne systemy tłumaczenia maszynowego często nie rozumieją znaczenia tekstów literackich. Mają problemy ze zrozumieniem danego słowa w kontekście zdania, akapitu czy strony, na której występuje.

Jest jednak nowa technologia, która ma za zadanie poradzić sobie z tym kontekstualnym chaosem – Neural Machine Translation (neuronowe tłumaczenie maszynowe), w skrócie NMT. Mimo iż jest jeszcze w powijakach, NMT już udowodniło, że jego systemy z czasem nauczą się, jak radzić sobie ze złożonością tłumaczenia literackiego. NMT to początek nowej ery w dziedzinie sztucznej inteligencji. Maszyny nie działają tu już bowiem zgodnie z zasadami stworzonymi przez lingwistów, lecz tworzą własne reguły, a nawet własny język.

Neuronowe tłumaczenie maszynowe (NMT)

Uruchomione w 2016 roku NMT to na razie najlepiej działający program tłumaczeniowy. Może się pochwalić nie tylko zmniejszeniem liczby błędów o 60% wobec swojego poprzednika – statystycznego tłumaczenia maszynowego (Statistical Machine Translation (SMT), ale jest także dużo od niego szybszy.

Te ulepszenia nowa technologia zawdzięcza sztucznej sieci neuronowej systemu. Rzekomo opiera się ona na modelu neuronów w mózgu człowieka. Ta sieć pozwala programowi na kontekstualne połączenia między słowami a zdaniami, co jest możliwe poprzez nauczenie maszyny zasad funkcjonowania danego języka. Przeczesuje ona miliony zdań w swoich bazach danych i rozpoznaje podobieństwa. Następnie wykorzystuje wyuczone reguły do tworzenia modeli statystycznych, które pomagają jej zrozumieć, jak skonstruowane musi być zdanie.

Sztuczna sieć neuronowa. Tekst wyjściowy wprowadzany jest do sieci, następnie wysyłany do jej różnych ukrytych „warstw”, a na końcu generowany w języku docelowym. | Alana Cullen | CC-BY-SA

Sztuczny język

Przełomową cechą NMT jest tworzenie przez maszynę własnego języka numerycznego, który pomaga jej w tłumaczeniu.

Przyjrzyjmy się np. zdaniu „To thine own self be true” z Hamleta Shakespeare’a. Maszyna koduje każde słowo, przypisując mu cyfrę, tworząc tzw. wektory: 1, 2, 3, 4, 5, 6. Ta sekwencja cyfr wprowadzana jest następnie do sieci neuronowej, jak pokazano po lewej. W tych ukrytych warstwach dzieją się rzeczy magiczne. Opierając się na znanych sobie zasadach funkcjonowania języka, system znajduje odpowiednie niemieckie słowa. Generuje liczby 7, 8, 9, 10, 11, które odpowiadają właściwym słowom w zdaniu niemieckim. Następnie sekwencja odszyfrowywana jest w języku docelowym i po niemiecku brzmi: „Zu dir selber treu sein”.

System de facto tłumaczy słowa na wygenerowany przez siebie język i „zastanawia się”, jak najlepiej, w oparciu o to, co już wie, dobrać i ułożyć je w zdanie, które będzie zrozumiałe – tak jak zrobiłby to ludzki mózg.

Zrozumieć kontekst

You shall know a word by the company it keeps.

John R. Firth, 1957, twórca lingwistyki kontekstualnej

Technologia NMT może dobrze tłumaczyć teksty literackie, ponieważ powoli, lecz konsekwentnie zaczyna rozumieć kontekst. System skupia się nie tylko na słowie, które ma przetłumaczyć, ale także na słowach sąsiadujących.

Podobnie jak mózg rozszyfrowujący różne informacje, sztuczna sieć neuronowa przegląda informacje, które otrzymała, i generuje następne słowo na podstawie sąsiednich słów. Z czasem „uczy się”, na których słowach należy się skoncentrować i gdzie wykonać najlepsze połączenia kontekstowe na podstawie zgromadzonych przykładów. Proces ten jest formą „głębokiego uczenia się” (deep learning) i pozwala systemom tłumaczeniowym na ciągłe uczenie się i doskonalenie w miarę upływu czasu. W NMT kontekst deszyfrujący nazywany jest „adaptacją" i odbywa się w mechanizmie uwagi, który znajduje się pomiędzy koderem a dekoderem w systemie maszyny.

Proces adaptacji. Adaptacja odbywa się poprzez mechanizmy uwagi sztucznej sieci neuronowej i prowadzi do wyciągania wniosków na temat kontekstu danego słowa. | Alana Cullen | CC-BY-SA Oczywiście, także maszyny nie są doskonałe. Po ponownym przetłumaczeniu na język angielski nasze zdanie zamienia się w „Be true to yourself ”, nie do końca oddając ton czy rejestr historyczny języka Shakespeare’a piszącego w epoce Tudorów. W dosłownym tłumaczeniu słowo w słowo zdanie to brzmiałoby „Sei deinem eigenen Selbst treu”, ale w niemieckich przekładach zazwyczaj tłumaczone jest jako „Sei dir selbst treu”.

Tłumaczenie wykonane przez człowieka. Połączenia słów w zdaniach tłumaczonych przez ludzi są znacznie bardziej złożone niż w przypadku tłumaczeń sztucznej inteligencji. Dzieje się tak, ponieważ ludzki język ma wyższy poziom rozumienia kontekstu. | Alana Cullen | CC-BY-SA W tym przykładzie jest interesujące to, jak Google Translate zrozumiał znaczenie słowa „treu” w tym kontekście. Użycie go tutaj pokazuje, że Google Translate rozróżnił pomiędzy słowem „treu” oznaczającym „prawdziwy” w sensie bycia „wiernym” swojej prawdziwej naturze, a innym niemieckim słowem oznaczającym, że coś jest prawdziwe, jak np. „wahr” (zgodne z prawdą). Głębokie uczenie się oznacza, że błędnie przetłumaczone wyrażenie może zostać przynajmniej częściowo poprawione kilka tygodni później. Być może po publikacji tego artykułu Google Translate poprawi swoje błędy.

To ciągłe doskonalenie wraz ze stosowaniem wygenerowanego maszynowo języka oznacza, że technologia NMT może być „szkolona” do wykonywania tzw. tłumaczeń „zero-shot” polegających na bezpośrednich przekładach z jednego języka na drugi, bez stosowania angielskiego jako języka pośredniego. Wygląda na to, że w przypadku maszyn, podobnie jak u ludzi, praktyka czyni mistrza.

Lost in Translation / Umknęło w tłumaczeniu

Chociaż w ostatnich latach tłumaczenie maszynowe zrobiło krok do przodu, nadal nie spełnia akceptowalnych standardów literackich. Henry James podkreślał znaczenie rozumienia oryginalnego tekstu wyjściowego, mówiąc, że idealnym tłumaczem literatury jest osoba, „której nic nie umyka”. Przynajmniej w przypadku literatury, maszyny są jeszcze dalekie od takiego ideału.

NMT nadal zmaga się w tłumaczeniach literackich z rzadkimi słowami, nazwami własnymi i skomplikowanym językiem technicznym. Jedynie 25-30% tłumaczeń wykonanych w tej technologii można uznać za zadowalające ze wzlędu na standardy literackie. W jednym z badań dotyczących tłumaczenia powieści z języka niemieckiego na angielski stwierdzono, że choć system popełnia niewiele błędów składniowych, w tłumaczeniu nadal gubi się znaczenie słów wieloznacznych. Mimo tych błędów naukowcy stwierdzili jednak, że jakość tekstu po tłumaczeniu maszynowym była na tyle wysoka, że opowiadanie było zrozumiałe, a nawet przyjemne w czytaniu. Inne badania nad tłumaczeniami powieści z języka angielskiego na kataloński dały podobnie dobre wyniki. 25% rodzimych użytkowników języka uznało, że jakość tłumaczenia maszynowego dorównuje tłumaczeniom zrobionym przez ludzi.

Jednak system tłumaczenia maszynowego nie działa równie dobrze we wszystkich parach językowych. W szczególności zmaga się on z językami bogatymi morfologicznie, w których występuje dużo odmian i w których ważna jest intonacja, jak np. w językach słowiańskich. Jest to szczególnie widoczne w przypadku tłumaczenia z języka mniej złożonego na bardziej złożony – oznacza to, że NMT nie można więc jeszcze stosować jako globalnego narzędzia tłumaczeniowego.

Jak znaleźć odpowiedni ton?

Największym wyzwaniem pozostaje znalezienie właściwego tonu i rejestru dla tłumaczonego tekstu. Peter Constantine, dyrektor programu tłumaczeń literackich na Uniwersytecie w Connecticut, twierdzi, że maszyny muszą znaleźć „odpowiedni ton”, jeśli mają się sprawdzić w tłumaczeniu literackim.

Co ta maszyna będzie naśladować? Czy będzie tworzyć piękne i błyskotliwe egzotyzacje, czy raczej niesamowite udomowienia? Czy też może sprawi, że język Czechowa będzie brzmiał tak, jakby napisał on swoje teksty przed dziesięcioma minutami w londyńskim metrze?

Peter Constantine (2019)

Jaki ton wybierze maszyna? Weźmy np. dzieło niemieckiego noblisty Thomasa Manna. Jego styl pisarski zmieniał się z biegiem czasu. Wczesne opowiadania były o wiele bardziej beztroskie i lekkie niż późniejsze, poważniejsze powieści. Maszyny muszą zrozumieć i uchwycić te wariacje, jeśli ich tłumaczenia mają przekazać zamierzone znaczenie.

Istotna współpraca

Jest jasne, że mimo wszelkich starań wobec specyficznej wieloznaczności słów i elastyczności języka literackiego, maszyna nadal potrzebuje zarządzania przez człowieka. NMT nie może zastąpić tłumaczy, ale może im służyć jako użyteczne narzędzie w tłumaczeniu literatury.

Używanie systemów tłumaczeń maszynowych przez ludzi jest tutaj kwestią kluczową. Jedną z odpowiedzi na problemy związane z tłumaczeniem maszynowym może być redagowanie tłumaczeń zrobionych maszynowo. W tym przypadku profesjonalni tłumacze, znający specyficzne zagadnienia związane z tłumaczeniem maszynowym, redagują i poprawiają pierwszą wersję tłumaczenia zrobioną przez maszynę – podobnie jak w przypadku tłumacza o ugruntowanej pozycji, który pomaga mniej doświadczonemu koledze, redagując jego tłumaczenia. W ramach zwyczajnej obróbki tekstu wyłapuje się drobne błędy ortograficzne i gramatyczne. Natomiast głębsza ingerencja polega na rozwiązaniu większych problemów związanych ze strukturą zdań czy stylem pisania. W przypadku tekstów literackich redakcja służy dobraniu odpowiedniego rejestru i tonu w tłumaczeniu. Badanie przeprowadzone przez naukowców wykazało, że metoda ta zastosowana w tłumaczeniu powieści science fiction z języka gaelickiego szkockiego na irlandzki okazała się o 31% szybsza niż tłumaczenie bez użycia software‘u. Ponadto, produktywność tłumaczy wzrosła o 36%, gdy zaczęli korzystać z tłumaczenia maszynowego od pierwszego etapu pracy. Dzięki temu mogli wygenerować o 182 słowa więcej w ciągu godziny.

Sztuczna inteligencja odgrywa coraz większą rolę w naszym życiu. Tak więc uznanie jej za narzędzie przekładu jest niezbędne, aby rozwijać branżę. Tłumaczenie maszynowe przeszło długą drogę od swoich początków do przejęcia funkcji narzędzia pomocnego tłumaczom. Oprogramowanie wykonuje męczącą pracę nad szczegółami, podczas gdy tłumacze mogą skupić się na końcowym szlifie. NMT nie tylko odciąża tłumaczy, ale również umożliwia tłumaczenia tekstów z języków, z których dotychczas nie tłumaczono. NMT może również pomóc w nauce języka. Technologię NMT możemy wykorzystać jako narzędzie do nauki, które daje wszystkim lepszy dostęp do literatury i języka.

Teksty źródłowe:

Brownlee, J. 2017. A Gentle Introduction to Neural Machine Translation. [Accessed 9th July 2020].

Constantine, P. 2019. Google Translate Gets Voltaire: Literary Translation and the Age of Artificial Intelligence. Contemporary French and Francophone Studies. 23(4), pp. 471- 479.

Goldhammer, A. 2016. The Perils of Machine Translation. The Wire. [Accessed 14th July 2020].

Google Brain Team. 2016. A Neural Network for Machine Translation, at Production Scale. [Accessed 9th July 2020].

Gu, J., Wang, Y., Chu, K., Li. V. O. K. 2019. Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations.arXiv. [Accessed 10th July 2020].

Iqram, S. 2020. Now you can transcribe speech with Google Translate. [Accessed 9th July 2020].

Jones, B., Andreas, J., Bauer, D., Hermann, K. M., and Knight, K. 2012. Semantics- Based Machine Translation with Hyperedge Replacement Grammars. Anthology. 12(1083), pp. 1359- 1376.

Kravariti, A. 2018. Machine Translation: NMT translates literature with 25% flawless rate. Translate Plus. [Accessed 14th July 2020].

Matusov, E. 2019. The Challenges of Using Neural Machine Translation for Literature. European Association for Machine Translation: Dublin, Ireland.

Maučec, M. S., and Donaj, G. 2019. Machine Translation and the Evaluation of Its Quality Recent Trends in Computational Intelligence. Intech Open.

Shofner, K. 2017. Statistical vs. Neural Machine Translation. ULG’s Language Solutions Blog. [Accessed 10th July 2020].

Systran. 2020. What is Machine Translation? Rule Based Translation vs. Statistical Machine Translation. [Accessed 9th July 202].

Toral, A., Wieling, M., and Way, A. 2018. Post-editing Effort of a Novel with Statistical and Neural Machine Translation. Frontiers in Digital Humanities. 5(9).

Turovsky, B. 2016. Ten years of Google Translate. [Accessed 9th July 2020].

Wong, S. 2016. Google Translate AI invents its own language to translate with. New Scientist. [Accessed 11th July].

Yamada, M. 2019. The impact of Google Neural Machine Translation on Post-editing by student translators. The Journal of Specialised Translation. 31, pp. 87- 95.

Zameo, S. 2019. Neural Machine Translation: tips and advantages for your digital translations. Text Master Go Global. [Accessed 14th July 2020].

Tłumaczenie: Karolina Golimowska
Copyright: Text: Goethe-Institut, Alana Cullen. Ten tekst jest dostępny na licencji Creative Commons – Uznanie autorstwa – Na tych samych warunkach 4.0 International (CC BY-SA 4.0).

wrzesień 2020

- Polityka prywatności
Informationen zu
Social-Media-Diensten

Wir wollen Ihre Privatsphäre schützen

Eine Website, die solche Buttons enthält, übermittelt ohne Ihre Zustimmung personenbezogene Daten an die betreffenden sozialen Netzwerke. Der Button muss dazu nicht von Ihnen gedrückt worden sein. Das widerspricht den deutschen Datenschutzbestimmungen.
Um Ihre Privatsphäre zu schützen, verwendet das Goethe-Institut eine sogenannte 2-Klick Lösung. Diese wird in ähnlicher Form von zahlreichen Website-Betreibern eingesetzt und ist sehr einfach zu bedienen.

Artikel auf goethe.de weiterempfehlen

So funktioniert die 2-Klick Lösung: Wenn Sie sich auf goethe.de aufhalten, ist die Empfehlungsfunktion der Buttons als Standard inaktiv. Durch wenige Klicks haben Sie die Möglichkeit, das zu ändern:

1. Mit dem ersten Klick öffnet sich ein erklärendes Fenster.

2. Mit dem zweiten Klick können Sie Ihre Zustimmung geben, dass die Empfehlungsfunktion der sozialen Netzwerke aktiviert wird.
Drukuj

Zrozumieć neuronowe tłumaczenie maszynowe Jak „działa” sztuczna inteligencja w tłumaczeniu tekstów literackich