InterCorp – a look behind the façade of a parallel corpus

Rosen, Alexandr

dc.contributor.author	Rosen, Alexandr
dc.date.accessioned	2017-12-02T19:05:24Z
dc.date.available	2017-12-02T19:05:24Z
dc.date.issued	2016
dc.identifier.isbn	978-83-935320-4-9
dc.identifier.issn	2544-4913
dc.identifier.uri	https://depot.ceon.pl/handle/123456789/13397
dc.description	Gruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 21-40.	en
dc.description.abstract	InterCorp to projekt, który powstał na Wydziale Filozoficznym Uniwersytetu Karola w Pradze. Jego celem jest zbudowanie obszernego równoległego korpusu synchronicznego, który obejmowałby jak najwięcej języków. W tworzeniu korpusu uczestniczą pracownicy naukowi i studenci Wydziału Filozoficznego Uniwersytetu Karola, osoby związane z Czeskim Korpusem Narodowym, a także współpracownicy zewnętrzni. InterCorp to rzeczywiście obszerny i ciągle rozwijający się synchroniczny korpus równoległy, obejmujący teksty w języku czeskim i 38 innych językach – w tym w języku polskim (wersja 8; stan w lutym 2016), dostępny online poprzez interfejs. Trzon korpusu, który stanowi półautomatycznie opracowana beletrystyka, jest uzupełniony automatycznie opracowanymi tekstami z zakresu publicystyki i prawa, a także zapisami debat parlamentarnych i napisami filmowymi. W sumie korpus obejmuje około 1,6 miliarda słów. Wszystkie teksty dysponują wiązaniem segmentów na poziomie zdania i w miarę możliwości są opatrzone lingwistyczną anotacją (z podaniem podstawowych form i kategorii morfologicznych) oraz danymi bibliograficznymi. Po krótkiej prezentacji koncepcji korpusu przedstawiamy jego parametry liczbowe; zwracamy przy tym uwagę na olbrzymią nierównowagę w reprezentacji tekstów z różnych języków, oryginałów i przekładów oraz typów tekstów. Staramy się także dokonać porównania z niektórymi innymi projektami tego typu. W części poświęconej wykorzystaniu korpusu zwracamy uwagę na możliwości i ograniczenia wyszukiwarki KonText (wcześniej wykorzystywane wyszukiwarki Bonito i NoSketch Engine nie są już dostępne) oraz różne sposoby wykorzystania tekstów równoległych takich jak ekscerpcja ekwiwalentów leksykalnych czy analiza zgodnych fragmentów tekstu. Spojrzenie na korpus od strony użytkownika jest uzupełnione komentarzem twórców korpusu. W części przedstawiającej opracowywanie tekstów przed ich włączeniem do korpusu oczekiwania i życzenia użytkowników zostają skonfrontowane z koncepcyjnymi, technicznymi i fizycznymi możliwościami budowy korpusu paralelnego. Końcowa część 22 Alexandr Rosen zawiera wnioski, jakie się nasuwają na podstawie dotychczasowych doświadczeń, a także plany na przyszłość obejmujące zarówno konkretne projekty twórców korpusu, jak i koncepcje dotyczące zmian wymagających dużych technicznych interwencji w samej strukturze korpusu. Powstały i ciągle rozwijany korpus równoległy InterCorp ma z założenia służyć między innymi jako źródło danych do badań teoretycznych, analiz gramatycznych i leksykograficznych, prac translatorskich, projektów dotyczących nauki języków obcych, a także jako materiał do badań dla studentów.	pl
dc.language.iso	en
dc.publisher	Instytut Lingwistyki Stosowanej UW	en
dc.rights	Dozwolony użytek	*
dc.subject	parallel corpus	en
dc.subject	Czech	en
dc.subject	multilinguality	en
dc.subject	user feedback	en
dc.subject	annotation	en
dc.subject	balance	en
dc.subject	korpus równoległy	pl
dc.subject	język czeski	pl
dc.subject	wielojęzyczność	pl
dc.subject	feedback od użytkowników	pl
dc.subject	anotacja	pl
dc.subject	równowaga	pl
dc.title	InterCorp – a look behind the façade of a parallel corpus	en
dc.title.alternative	InterCorp – korpus równoległy od kuchni	pl
dc.type	article	en
dc.contributor.organization	Univerzita Karlova	en

Pliki tej pozycji

Nazwa:: 02_Rosen.pdf
Rozmiar:: 706.7KB
Format:: PDF

Oglądaj/Otwórz

Pozycja umieszczona jest w następujących kolekcjach

Artykuły ILS [3]

Pokaż uproszczony rekord

Korzystanie z tego materiału jest możliwe zgodnie z właściwymi przepisami o dozwolonym użytku lub o innych wyjątkach przewidzianych w przepisach prawa, a korzystanie w szerszym zakresie wymaga uzyskania zgody uprawnionego.