Multi-domain machine translation enhancements by parallel data extraction from comparable corpora

Wołk, Krzysztof; Rejmund, Emilia; Marasek, Krzysztof

Multi-domain machine translation enhancements by parallel data extraction from comparable corpora

Abstract

Teksty równoległe to zasób językowy spotykany stosunkowo rzadko, jednak stanowiący bardzo użyteczny materiał badawczy o szerokim zastosowaniu np. podczas międzyjęzykowego wyszukiwania informacji oraz w statystycznym tłumaczeniu maszynowym. Niniejsze badanie prezentuje i analizuje opracowane przez nas nowe metody pozyskiwania danych z korpusów porównywalnych. Metody te są automatyczne i działają w sposób nienadzorowany, co czyni je użytecznymi w budowie korpusów równoległych na szeroką skalę. W niniejszym badaniu proponujemy metodę automatycznego przeszukiwania sieci w celu zbudowania korpusów porównywalnych zrównoleglonych na poziomie tematu, np. na podstawie danych z Wikipedii czy strony Euronews.com. Opracowaliśmy również nowe metody pozyskiwania równoległych zdań z danych porównywalnych oraz proponujemy metody filtracji korpusów równoległych zdolne selekcjonować niezgodne ze sobą lub tylko częściowo ekwiwalentne pary zdań. Za pomocą naszych metod można pozyskać zasoby równoległe dla dowolnej pary języków. Ewaluację jakości zbudowanych korpusów przeprowadzono poprzez analizę wpływu ich użycia na systemy statystycznego tłumaczenia maszynowego przy wykorzystaniu typowych miar jakości tłumaczenia. Eksperymenty zostały zaprezentowane na przykładzie pary językowej polski-angielski dla różnego typu tekstów, tj. wykładów, rozmówek turystycznych, dialogów filmowych, zapisów posiedzeń Europarlamentu oraz tekstów zawartych w ulotkach leków. Przetestowaliśmy także drugą metodę tworzenia korpusów równoległych na podstawie danych z korpusów porównywalnych, pozwalającą automatycznie poszerzyć istniejący korpus zdań z danej tematyki, wykorzystując znalezione między nimi analogie. Metoda ta nie wymaga posiadania wcześniejszych zasobów równoległych celem stworzenia i dostosowania klasyfikatora. Wyniki naszych eksperymentów są obiecujące. Z artykułów Wikipedii udało się pozyskać prawie pół miliona zdań równoległych i niespełna 5.000 z portalu Euronews.com (z wykorzystaniem pierwszej z metod) oraz 114.000 z Wikipedii, wykorzystując analogie między artykułami. Pozyskane dane wpłynęły pozytywnie na jakość tłumaczenia maszynowego, która została zmierzona popularnymi miarami automatycznymi tj. BLEU, NIST, TER oraz METEOR. Jednak dane pozyskane automatycznie po manualnej analizie okazały się „zaszumione”, dlatego też podjęto próbę ich automatycznego przefiltrowania. Metodę filtrowania danych zbadano, porównując jej wyniki z wynikami uzyskanymi przy zastosowaniu metody polegającej na ocenie ludzkiej, a także badając jej wpływ na tłumaczenie maszynowe. Filtrowanie okazało się skuteczne, gdyż polepszyło ostateczne wyniki statystycznego tłumaczenia maszynowego.

Description

Gruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 158-179.