InterCorp – a look behind the façade of a parallel corpus
dc.contributor.author | Rosen, Alexandr | |
dc.date.accessioned | 2017-12-02T19:05:24Z | |
dc.date.available | 2017-12-02T19:05:24Z | |
dc.date.issued | 2016 | |
dc.identifier.isbn | 978-83-935320-4-9 | |
dc.identifier.issn | 2544-4913 | |
dc.identifier.uri | https://depot.ceon.pl/handle/123456789/13397 | |
dc.description | Gruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 21-40. | en |
dc.description.abstract | InterCorp to projekt, który powstał na Wydziale Filozoficznym Uniwersytetu Karola w Pradze. Jego celem jest zbudowanie obszernego równoległego korpusu synchronicznego, który obejmowałby jak najwięcej języków. W tworzeniu korpusu uczestniczą pracownicy naukowi i studenci Wydziału Filozoficznego Uniwersytetu Karola, osoby związane z Czeskim Korpusem Narodowym, a także współpracownicy zewnętrzni. InterCorp to rzeczywiście obszerny i ciągle rozwijający się synchroniczny korpus równoległy, obejmujący teksty w języku czeskim i 38 innych językach – w tym w języku polskim (wersja 8; stan w lutym 2016), dostępny online poprzez interfejs. Trzon korpusu, który stanowi półautomatycznie opracowana beletrystyka, jest uzupełniony automatycznie opracowanymi tekstami z zakresu publicystyki i prawa, a także zapisami debat parlamentarnych i napisami filmowymi. W sumie korpus obejmuje około 1,6 miliarda słów. Wszystkie teksty dysponują wiązaniem segmentów na poziomie zdania i w miarę możliwości są opatrzone lingwistyczną anotacją (z podaniem podstawowych form i kategorii morfologicznych) oraz danymi bibliograficznymi. Po krótkiej prezentacji koncepcji korpusu przedstawiamy jego parametry liczbowe; zwracamy przy tym uwagę na olbrzymią nierównowagę w reprezentacji tekstów z różnych języków, oryginałów i przekładów oraz typów tekstów. Staramy się także dokonać porównania z niektórymi innymi projektami tego typu. W części poświęconej wykorzystaniu korpusu zwracamy uwagę na możliwości i ograniczenia wyszukiwarki KonText (wcześniej wykorzystywane wyszukiwarki Bonito i NoSketch Engine nie są już dostępne) oraz różne sposoby wykorzystania tekstów równoległych takich jak ekscerpcja ekwiwalentów leksykalnych czy analiza zgodnych fragmentów tekstu. Spojrzenie na korpus od strony użytkownika jest uzupełnione komentarzem twórców korpusu. W części przedstawiającej opracowywanie tekstów przed ich włączeniem do korpusu oczekiwania i życzenia użytkowników zostają skonfrontowane z koncepcyjnymi, technicznymi i fizycznymi możliwościami budowy korpusu paralelnego. Końcowa część 22 Alexandr Rosen zawiera wnioski, jakie się nasuwają na podstawie dotychczasowych doświadczeń, a także plany na przyszłość obejmujące zarówno konkretne projekty twórców korpusu, jak i koncepcje dotyczące zmian wymagających dużych technicznych interwencji w samej strukturze korpusu. Powstały i ciągle rozwijany korpus równoległy InterCorp ma z założenia służyć między innymi jako źródło danych do badań teoretycznych, analiz gramatycznych i leksykograficznych, prac translatorskich, projektów dotyczących nauki języków obcych, a także jako materiał do badań dla studentów. | pl |
dc.language.iso | en | |
dc.publisher | Instytut Lingwistyki Stosowanej UW | en |
dc.rights | Dozwolony użytek | * |
dc.subject | parallel corpus | en |
dc.subject | Czech | en |
dc.subject | multilinguality | en |
dc.subject | user feedback | en |
dc.subject | annotation | en |
dc.subject | balance | en |
dc.subject | korpus równoległy | pl |
dc.subject | język czeski | pl |
dc.subject | wielojęzyczność | pl |
dc.subject | feedback od użytkowników | pl |
dc.subject | anotacja | pl |
dc.subject | równowaga | pl |
dc.title | InterCorp – a look behind the façade of a parallel corpus | en |
dc.title.alternative | InterCorp – korpus równoległy od kuchni | pl |
dc.type | article | en |
dc.contributor.organization | Univerzita Karlova | en |
Pliki tej pozycji
Pozycja umieszczona jest w następujących kolekcjach
-
Artykuły ILS [3]
Korzystanie z tego materiału jest możliwe zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa, a korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.