Multi-domain machine translation enhancements by parallel data extraction from comparable corpora

View/ Open
Date
2016Author
Wołk, Krzysztof
Rejmund, Emilia
Marasek, Krzysztof
Metadata
Show full item recordAbstract
Teksty równoległe to zasób językowy spotykany stosunkowo rzadko, jednak stanowiący bardzo użyteczny materiał badawczy o szerokim zastosowaniu np. podczas międzyjęzykowego wyszukiwania informacji oraz w statystycznym tłumaczeniu maszynowym. Niniejsze badanie prezentuje i analizuje opracowane przez nas nowe metody pozyskiwania danych z korpusów porównywalnych. Metody te są automatyczne i działają w sposób nienadzorowany, co czyni je użytecznymi w budowie korpusów równoległych na szeroką skalę. W niniejszym badaniu proponujemy metodę automatycznego przeszukiwania sieci w celu zbudowania korpusów porównywalnych zrównoleglonych na poziomie tematu, np. na podstawie danych z Wikipedii czy strony Euronews.com. Opracowaliśmy również nowe metody pozyskiwania równoległych zdań z danych porównywalnych oraz proponujemy metody filtracji korpusów równoległych zdolne selekcjonować niezgodne ze sobą lub tylko częściowo ekwiwalentne pary zdań. Za pomocą naszych metod można pozyskać zasoby równoległe dla dowolnej pary języków. Ewaluację jakości zbudowanych korpusów przeprowadzono poprzez analizę wpływu ich użycia na systemy statystycznego tłumaczenia maszynowego przy wykorzystaniu typowych miar jakości tłumaczenia. Eksperymenty zostały zaprezentowane na przykładzie pary językowej polski-angielski dla różnego typu tekstów, tj. wykładów, rozmówek turystycznych, dialogów filmowych, zapisów posiedzeń Europarlamentu oraz tekstów zawartych w ulotkach leków. Przetestowaliśmy także drugą metodę tworzenia korpusów równoległych na podstawie danych z korpusów porównywalnych, pozwalającą automatycznie poszerzyć istniejący
korpus zdań z danej tematyki, wykorzystując znalezione między nimi
analogie. Metoda ta nie wymaga posiadania wcześniejszych zasobów
równoległych celem stworzenia i dostosowania klasyfikatora. Wyniki
naszych eksperymentów są obiecujące. Z artykułów Wikipedii udało
się pozyskać prawie pół miliona zdań równoległych i niespełna 5.000
z portalu Euronews.com (z wykorzystaniem pierwszej z metod) oraz
114.000 z Wikipedii, wykorzystując analogie między artykułami.
Pozyskane dane wpłynęły pozytywnie na jakość tłumaczenia maszynowego,
która została zmierzona popularnymi miarami automatycznymi
tj. BLEU, NIST, TER oraz METEOR. Jednak dane pozyskane
automatycznie po manualnej analizie okazały się „zaszumione”, dlatego
też podjęto próbę ich automatycznego przefiltrowania. Metodę
filtrowania danych zbadano, porównując jej wyniki z wynikami uzyskanymi
przy zastosowaniu metody polegającej na ocenie ludzkiej,
a także badając jej wpływ na tłumaczenie maszynowe. Filtrowanie
okazało się skuteczne, gdyż polepszyło ostateczne wyniki statystycznego
tłumaczenia maszynowego.
Collections
- Inne prace ILS [26]

Using this material is possible in accordance with the relevant provisions of fair use or other exceptions provided by law. Other use requires the consent of the holder.