Between the devil and the deep blue sea or between users’ needs and the compilers’ powers: An analysis of the Czech-Polish part of the parallel corpus InterCorp

Oglądaj/ Otwórz
Data
2016Autor
Hebal-Jezierska, Milena
Kaczmarska, Elżbieta
Rosen, Alexandr
Metadane
Pokaż pełny rekordStreszczenie
Celem artykułu jest próba porównania oczekiwań użytkownika korpusu równoległego co do możliwości prowadzenia różnego typu badań, zwłaszcza analiz konfrontatywnych oraz translatologicznych z technicznymi możliwościami twórców korpusu.
Autorzy rozpoczynają rozważania od szczegółowego opisu problemów twórców InterCorp. Wskazują na największe bolączki polegające na braku proporcji pomiędzy liczbą tekstów w poszczególnych językach umieszczonych w korpusie, a także na tym, że teksty reprezentują różne poziomy anotacji i tagowania. Szczegółowo opisana została polska część korpusu InterCorp. Autorzy podają dane statystyczne dotyczące poszczególnych wersji korpusu. Wiele miejsca poświęcono również problemowi anotacji i tokenizacji (znakowania). Zauważono, że dużym utrudnieniem jest brak jednolitego systemu znakowania dla wszystkich obecnych w InterCorpie języków.
Na przedstawione w skrócie problemy twórców korpusu nakładają się trudności, jakie napotykają jego użytkownicy oraz ich oczekiwania względem jego zasobów. Osoby korzystające np. z zasobów polsko-czeskiej części InterCorpu narzekać mogą na zestawienie tekstów. O ile literatura piękna jest opracowywana ręcznie, o tyle tzw. kolekcje tekstów (Acquis, PressEurope, Europarl, Open Subtitles) są opracowywane tylko automatycznie. Paradoksalnie więc teksty, które nie sprawiają kłopotów twórcom korpusu, są dla niektórych użytkowników mniej przydatne. Nie można na przykład przeprowadzić
szeregu badań opartych na materiale korpusowym, jeżeli nie da
się ustalić kierunku przekładu albo języka źródłowego. Dotyczy to
wszystkich analiz translatologicznych. Również niedostateczna wielkość
korpusu stanowi dla użytkowników dużą przeszkodę. Zbyt mała
liczba poświadczeń może uniemożliwić całkowicie przeprowadzenie
badań nad konkretnym zjawiskiem leksykalnym czy gramatycznym
(przykłady podane zostały w artykule).
Użytkownicy sięgają jednak do korpusów paralelnych, ponieważ,
mimo wszelkich niedociągnięć, stanowią one niezwykłe narzędzie
służące do poszukiwania ekwiwalentów, a także porównywania znaczeń
jednostek językowych. Dopasowanie odpowiedniego tematu
badania do możliwości korpusu jest w tym przypadku podstawową
czynnością poprzedzającą samo badanie, a jednocześnie gwarantem
wiarygodności wyników.
Sposób rozbudowywania InterCorpu jest sprawą powodującą
prawdopodobnie największe kontrowersje pomiędzy twórcami
a użytkownikami korpusu. Korzystającym z części polsko-czeskiej czy
czesko-angielskiej zależy na tym, aby twórcy poświęcili jak najwięcej
uwagi tej konkretnej parze języków, tę część rozbudowywali i doskonalili.
Twórcy natomiast chcą uwzględnić w korpusie jak najwięcej
języków. Z puntu widzenia użytkowników to zabieg mniej ważny,
z punktu widzenia twórców to działanie przyszłościowe. Zarówno
użytkownik korpusu, jak i jego twórca, znajdują się w sytuacji pomiędzy
tym, co mogą i tym, co by chcieli – między swoistym młotem
i kowadłem.
Kolekcje
- Inne prace ILS [26]

Korzystanie z tego materiału jest możliwe zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa, a korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.