Генеральный интернет-корпус русского языка
Генеральный интернет-корпус русского языка |
URL |
webcorpora.ru |
Коммерческий |
нет |
Тип сайта |
образовательный/научный проект |
Регистрация |
есть: необходима для получения доступа к поиску |
Язык (-и) |
русский |
Расположение сервера |
Россия |
Начало работы |
2012 год |
Текущий статус |
работает и развивается |
Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.
Цели проекта
Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ.
В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную[1] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.
Корпус дает возможность производить:
В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.
Научные руководители проекта:
В создании и поддержке проекта участвовали:
Объём и состав корпуса
Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги@Mail.ru и Новости, и 2 % — на Журнальный зал[4]. В сегменте Новостей собраны материалы из источников: РИА Новости, Regnum, Lenta.ru, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы[4]. Большую часть текстов создают записи за 2013—2014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты начиная с 1994 года[5].
ГИКРЯ является одним из немногих мегакорпусов, достигающих объемом нескольких миллиардов слов.
Корпус |
Языки |
Доступ |
Сайт |
Объем |
Возможности
|
COW: Free, Large Web Corpora in European Languages |
Английский, французский, немецкий, испанский, шведский, нидерландский |
бесплатно, после регистрации, возможен ознакомительный доступ без регистрации |
https://web.archive.org/web/20160221212019/https://webcorpora.org/ |
порядка 30 млрд слов |
формат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
|
Sketch Engine |
английский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платно |
платно, после регистрации, возможен ознакомительный доступ |
https://www.sketchengine.co.uk/ |
86 млрд слов |
конкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
|
Aranea Corpora |
английский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкий |
бесплатно, после регистрации, возможен ознакомительный доступ без регистрации |
http://sketch.juls.savba.sk/aranea_about/ |
около 14 млрд слов |
noSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
|
ГИКРЯ Генеральный интернет-корпус русского языка |
русский |
бесплатно, регистрация по запросу |
http://www.webcorpora.ru/ |
20 млрд слов |
формат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
|
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE) |
английский, спецификация 20 стран мира |
без регистрации |
http://corpus.byu.edu/glowbe/ |
1,9 млрд слов |
KWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком
|
Доступ
В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.
См. также
Примечания
Литература
- Российские учёные разметят интернет (на сайте «Наука и технологии России — STRF.ru»)
- Беликов В., Копылов Н., Пиперски А., Селегей В., Шаров С. (2013), Корпус Как язык: от масштабируемости К дифференциальной полноте. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Бекасово.
- Пиперски А. Ч. (2013) Генеральный интернет-корпус русского языка и понятие репрезентативности в корпусной лингвистике. Институт лингвистики ФГБОУ ВПО «Российский государственный гуманитарный университет», Москва, Россия
- Шаров С. А., Беликов В. И., Копылов Н. Ю., Сорокин А. А., Шаврина Т. О. (2015) Корпус с автоматически снятой морфологической неоднозначностью: К методике лингвистических исследований. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Бекасово.
Ссылки
|
---|
Англоязычные корпусы | |
---|
Русскоязычные корпусы | |
---|
Корпусы на других языках | |
---|
Организации | |
---|
|
|