Parallel corpus


Parallel corpus

Slavicus Parallel Corpus is a multilingual collection of texts in 11 Slavic and 2 Baltic languages, and English as a pivot language. The corpus contain a program that enables to search words, grammatical forms, their combinations and post-process the query results. The query can be sorted and different statistical information can be collected. We can also extract the information about frequencies, collocations etc.

The corpus can be used for advanced studies and linguistic research in grammar, lexicon of Slavic and Baltic languages and it offers linguistic material that can be used as a basis for dictionaries and glossaries.

All resources in the corpus were manually aligned at sentence level. All wordforms were automatically lemmatized, morpho-syntactically annotated and disambiguated. Wordforms not recognized in the automatic tagging process were annotated manually. All resources are described in detail with metadata (in CMDI format).

Initially, the Slavicus parallel corpus will contain 3 500 000 wordforms. The basic criterion for the selection of resources were modern fiction texts.

Projekt "Zintegrowany Program Rozwoju Uniwersytetu Wrocławskiego 2018-2022" współfinansowany ze środków Unii Europejskiej z Europejskiego Funduszu Społecznego

NEWSLETTER
Polityka cookies i prywatności

Strona internetowa używa plików cookies (tzw. ciasteczka) w celu niezbędnym do prawidłowego działania serwisu, dostosowania strony do indywidualnych preferencji użytkownika oraz statystyk. Wyłączenie zapisywania plików cookies jest możliwe w ustawieniach każdej przeglądarki internetowej, dzięki czemu nie będą zbierane żadne informacje. Jeżeli nie wyrażasz zgody na zapisywanie informacji w plikach cookies należy opuścić stronę.

Przechodzę do polityki prywatności
Return