Българско-английски паралелен корпус със съотнесени (прости) изречения (БУЛЕНСИ)

Българско-английският паралелен корпус със съотнесени (прости) изречения (БУЛЕНСИ) е структуриран корпус с паралелни текстове на български и английски език със сегментирани и съотнесени самостоятелни изречения и прости изречения в състава на сложните, с отбелязване на вида на синтактичната връзка. БУЛЕНСИ е създаден от Секцията по компютърна лингвистика към Института за български език „Проф. Любомир Андрейчин“ при Българската академия на науките.

Съдържание

Българско-английският паралелен корпус със съотнесени (подчинени) изречения (БУЛЕНСИ) е подкорпус на Българско-английския паралелен корпус в рамките на Българския национален корпус (БНК). БУЛЕНСИ съдържа общо 366 865 токъна. Българският подкорпус включва 176 397 токъна в 14 667 изречения (със средна дължина на изречениe 12,02 думи), а английският подкорпус включва 190 468 токъна в 15 718 (със средна дължина на изречение 12,11 думи). Средният брой на простите изречения в състава на сложното е 1,67 за български и 1,85 за английски. Текстовете в БУЛЕНСИ са разделени в следните категории:

  1. административни текстове (20,5%);
  2. художествена литература (21,35%);
  3. публицистика (37,13%);
  4. научни текстове (11,16%);
  5. разговорни/художествени текстове (9,84%).

Анотация

Текстовете на български език са токънизирани и лематизирани с Българската многокомпонентна система за първична обработка и лингвистична анотация на текстове, а за тези на английски език са използвани Apache OpenNLP и Stanford CoreNLP. Разделянето на изреченията в българския подкорпус е извършено автоматично с помощта на програмата BG Sentence Splitter (Коева и Генов 2011), а за тези в английския подкорпус е използвана имплементация на предварително трениран модел на Apache OpenNLP. Съотнасянето на изреченията в двата езика е изпълнено автоматично с помощта на HunAlign, с последваща проверка и при необходимост корекция от експерти.

Приложения

Приложениятата на БУЛЕНСИ обхващат редица взаимосвързани области:

  • разработване на методи за автоматично разделяне и съотнасяне по изречения, включително на прости изречения в състава на сложното;
  • разработване на методи за промяна на словореда на простите изречения в състава на сложното с оглед на оптимизирането на тренировъчните данни за целите на статистическия автоматичен превод (SMT) (Коева и др. 2012b);
  • съотнасяне на ниво думи и фрази;
  • приложения за разрешаване на семантична многозначност.

Библиография

  • Коева и др. 2012a: Koeva, Svetla, Borislav Rizov, Ekaterina Tarpomanova, Tsvetana Dimitrova, Rositsa Dekova, Ivelina Stoyanova, Svetlozara Leseva, Hristina Kukova, and Angel Genov. Application of Clause Alignment for Statistical Machine Translation. – In: Proceedings of SSST-6, Sixth Workshop on Syntax, Semantics and Structure in Statistical Translation, Jeju, Republic of Korea, 12 юли 2012, The Association for Computational Linguistics: ACL 2012 / SIGMT / SIGLEX Workshop, 2012, pp. 102-110.
  • Коева и др. 2012b: Koeva, Svetla, Borislav Rizov, Ekaterina Tarpomanova, Tsvetana Dimitrova, Rositsa Dekova, Ivelina Stoyanova, Svetlozara Leseva, Hristina Kukova, and Angel Genov. Bulgarian-English Sentence- and Clause-Aligned Corpus. – In: Proceedings of the Second Workshop on Annotation of Corpora for Research in the Humanities (ACRH-2), Lisbon, 29 ноември 2012. Lisboa: Colibri, 2012, pp. 51-62.
  • Коева и Генов 2011: Koeva, Svetla, Angel Genov. Bulgarian Language Processing Chain. – In: Proceeding of the Workshop on the Integration of Multilingual Resources and Tools in Web Applications in conjunction with GSCL 2011, 26 септември 2011, Hamburg.
  • Търпоманова и Димитрова 2014: Търпоманова, Екатерина, Цветана Димитрова. Българско-английски паралелел корпус със съотнесени (прости) изречения. – В: Езикови технологии и ресурси за български език. София: Академично издателство „Марин Дринов“, 2014, с. 105-126.

Вижте също

Външни препратки