СинТагРус (англ.SynTagRus, сокр. от англ.Syntactically Tagged Russian text corpus, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированныйкорпус текстоврусского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН➤. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов➤.
СинТагРус распространяется по некоммерческой лицензии➤. Кроме того, корпус был также преобразован в различные форматы➤; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.
К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало[2]. Более того, даже существовавшие на тот момент неразмеченные корпусы (например, Уппсальский корпус русского языка) не были общедоступными[3].
По этим причинам с 1998 года[4] началась разработка первого аннотированного корпуса русского языка СинТагРус[2][5], ставшего впоследствии эталоном среди корпусов с синтаксической разметкой[6]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего[7][8]. В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус»[9].
Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[10].
СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около 107 тысяч предложений (более 1,5 миллионов словоупотреблений)[12], взятых из текстов следующих жанров[8][13][14]:
новостные ленты (тексты общественно-политического, культурного, экономического и научно-технического характера).
Типы и формат разметки
Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML, а формат разметки совместим с формализмом TEI[англ.], за исключением некоторых дополнительно введённых элементов и атрибутов[2]. В основном разметка произвольного текста осуществляется в два шага[11]:
Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.
Далее будут перечислены имеющиеся в корпусе типы разметки.
Разбиение текста на предложения и лексические элементы
Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении[11]. Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами[15].
Морфологическая разметка
Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT[8][16].
Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей: синтаксической структурой является ориентированное дерево, узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению. Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы[18]. Всего в СинТагРусе различается около 70 типов синтаксических отношений[13].
Слово, реализующее первую семантическую валентность существительного, являющегося семантическим актантом слова-хозяина
Первое комплетивное
1-компл
Предикатное слово
Синтаксический актант слова-хозяина, за исключением первого. Так, первое комплетивное отношение относится ко второму актанту, второе — к третьему и т. д.
Наречие или вершина группы с предлогами в или на, указывающая на интенсивность
Распределительное
распред
Вершина именной группы, обозначающая некий параметр (цену, скорость, вес и т. п.)
Существительное в именительном падеже или вершина группы с предлогами в, на, за, указывающая на единицу измерения
Аддитивное
аддит
Числительное или вершина количественной группы
Числительное или вершина количественной группы
Обстоятельственные
Обстоятельственное
обст
Глагол или слово другой части речи, являющееся вершиной предложения
Обстоятельство
Длительное
длительн
Глагол
Обстоятельство длительности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности
Кратно-длительное
кратно-длительн
Глагол
Обстоятельство многократной длительности, выражаемое существительным в творительном падеже множественного числа
Дистанционное
дистанц
Глагол
Обстоятельство пространственной протяженности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности
Обстоятельственно-тавтологическое
обст-тавт
Глагол
Существительное в творительном падеже, дублирующее часть значения слова-хозяина
Субъектно-обстоятельственное
суб-обст
Глагол
Обстоятельство в творительном падеже, характеризующее одновременно субъект действия
Объектно-обстоятельственное
об-обст
Глагол
Обстоятельство в творительном падеже, характеризующее одновременно объект действия
Субъектно-копредикативное
суб-копр
Глагол
Вершина именной группы в именительном или творительном падеже, либо вершина предложной группы, выступающая в функции, близкой к функции именной части составного сказуемого, но по смыслу характеризующая подлежащее и (в случае именной группы) согласующаяся с ним по роду и числу
Объектно-копредикативное
об-копр
Глагол
Вершина именной группы в творительном или винительном падеже или вершина предложной группы, характеризующая дополнение. Если слово-слуга выражено именной группой, то оно согласуется с дополнением по роду и числу
Вершина придаточного предложения, включающего союзное слово что, отчего или почему
Разъяснительное
разъяснит
Произвольное слово
Слово, которое имеет зависимые и вместе с ними сообщает дополнительную информацию о слове-хозяине или группе слов, представленных словом-хозяином. Необходимо присутствие формального «маркера разъяснения», которым может быть знак препинания или выражение, вводящее дополнительную информацию
Примыкательное
примыкат
Слово, являющееся «хозяином» выражения, вершиной которого является слово-слуга
Вершина выражения, зависящего от слова-хозяина, расположенного справа от слова-хозяина и заключенного в скобки или ограниченного с обеих сторон тире
Уточнительное
уточн
Представитель (вершина) некоторого выражения
Представитель некоторого выражения. Это выражение семантически уточняет выражение, представителем которого являтся слово-хозяин, однако оба этих выражения имеют одинаковую синтаксическую функцию.
Зависимый член кратной конструкции. Оформлен либо так же, как и главный член, и отделен от него дефисом, тире, двоеточием или наклонной чертой, либо вводится предлогом «на» или «к»
Подчинительный союз или вершина предложения. Слово-хозяин «расшифровывается» словом-слугой
Пролептическое
пролепт
Семантически неполнозначное слово, занимающее полноценную позицию в предложении
Слово, вынесенное вовне
Вспомогательное
вспом
Части образующих синтаксическое и смысловое единство словосочетаний
Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения[16]. Вершина предложения имеет специальное значение _root атрибута DOM[19].
Лексико-семантическая разметка
Каждой словоформе, помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов[10].
Лексико-функциональная разметка
В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ[13].
Микросинтаксическая разметка
Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой[20]. В качестве примера можно привести составной предлогв силу. С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа в виде, в случае и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н-, как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов, а также частицали или же, может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным[21].
Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT, значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы[20].
Анафорическая разметка
Для встреченного в тексте анафорическогоместоимения указывается его антецедент[англ.], то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF, значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны)[4].
Обработка эллиптических конструкций
В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM[2][22].
Использование корпуса
СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов. Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса[4].
Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы HPSG[англ.] и PDT[13]. Кроме того, СинТагРус был успешно переведён в форматы CoNLL-U[англ.][22], PTB[23] и SD[24]. Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат CoNLL-U[англ.] (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией[22].
Доступ
СинТагРус бесплатно распространяется по некоммерческой лицензии[25]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе[13], так же как и версии в форматах CoNLL-U[англ.] (лицензия CC BY-NC-SA 4.0)[22] и PTB (доступен только конвертер)[23].
↑ 123Иншакова Е. С., Иомдин Л. Л., Митюшин Л. Г., Сизов В. Г., Фролова Т. И., Цинман Л. Л.СинТагРус сегодня (рус.) // Труды Института русского языка им. В. В. Виноградова. — М.: «Нестор-История», 2019. — Вып. 21. — С. 14—40. Архивировано 26 марта 2020 года.
↑Захаров В. П., Богданова С. Ю. Корпусная лингвистика (рус.). — 3-е изд., перераб. — СПб.: Издательство Санкт-Петербургского университета, 2020. — С. 47. — 234 с. — ISBN 978-5-288-05997-1.
↑ 123Богуславский И. М., Григорьев Н. В., Иомдин Л. Л., Крейдлин Л. Г., Фрид Н. Е., Чардин И. С.Разработка синтаксически размеченного корпуса русского языка (рус.) // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб.: СПбГУ, 2002. — С. 40—50. Архивировано 31 июля 2019 года.
↑ 12Igor Boguslavsky, Ivan Chardin, Svetlana Grigorjeva, Nikolai Grigoriev, Leonid Iomdin, Lеonid Kreydlin, Nadezhda Frid.Development of a dependency treebank for Russian and its possible applications in NLP (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III. — P. 852—856. Архивировано 10 августа 2017 года.
↑Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — С. 32—40, 56—73. — 256 с.
Artikel ini memberikan informasi dasar tentang topik kesehatan. Informasi dalam artikel ini hanya boleh digunakan untuk penjelasan ilmiah; bukan untuk diagnosis diri dan tidak dapat menggantikan diagnosis medis. Wikipedia tidak memberikan konsultasi medis. Jika Anda perlu bantuan atau hendak berobat, berkonsultasilah dengan tenaga kesehatan profesional. Penyakit paru obstruktif kronisPatologi kasar yang menunjukkan emfisema tipe sentrilobular yang merupakan ciri dari merokok. Tampilan jarak d...
Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada November 2022. Hari WonHari Won pada 2020LahirEsther Lưu22 Juni 1985 (umur 38)Seoul, Korea SelatanPekerjaan Penyanyi Aktris MC Tahun aktif2001–sekarangSuami/istriTrấn Thành (m. 2016) Esther Lưu (lahir 22 Juni 1985), at...
Angela BassettLahirAngela Evelyn Bassett16 Agustus 1958 (umur 65)Harlem, New York, USAPekerjaanAktrisTahun aktif1986-sekarangSuami/istriCourtney B. Vance (1997-sekarang) Angela Evelyn Bassett (lahir 16 Agustus 1958) adalah seorang aktris film, sutradara, produser, dan aktivis berkebangsaan Amerika Serikat. Dia dikenal karena peran film biografinya, terutama penampilannya sebagai Tina Turner dalam film biografi What's Love Got to Do with It (1993), di mana dia dinominasikan untuk Ac...
Pop Sunda: Kabaya BeureumAlbum studio karya Dian PieseshaDirilis1995Genrepop SundaLabelJK RecordsProduserJudhi KristianthoKronologi Dian Piesesha Kau, Kusayang (1994)String Module Error: Match not foundString Module Error: Match not found Pop Sunda: Kabaya Beureum (1995) Pop Keroncong: Kasmaran (1995)String Module Error: Match not foundString Module Error: Match not found Pop Sunda: Kabaya Beureum merupakan sebuah album musik kelima belas milik penyanyi senior Indonesia, Dian Piesesha. Al...
Ordine del Servizio Meritevole a SarawakDarjah Jasa Bakti SarawakSarawakTipologiaOrdine cavalleresco statale MottoBersatu Berusaha Berbakti (Unità, Sforzo, Servizio) Statusattivo CapoAbang Muhammad Salahuddin Istituzione1997 Primo capoAhmad Zaidi Adruce GradiMembro PrecedenzaOrdine più altoOrdine della Stella di Bucero di Sarawak Ordine più bassoMedaglia dell'amministrazione civile Nastro dell'ordine Modifica dati su Wikidata · Manuale L'Ordine del Servizio Meritevole a Sarawak è un...
Guerre de SécessionMarche de Sherman vers la mer(Campagne de Savannah) William T. Sherman (à gauche) et William J. Hardee, son adversaire confédéré lors de la marche vers la mer. Informations générales Date 15 nov. - 21 déc. 1864 Lieu Caroline du Nordet Caroline du Sud. Issue Victoire de l'Union.Destruction des ressources.Politique de la terre brûlée.Capture du port de Savannah. Belligérants Union États confédérés Commandants William T. Sherman William J. Hardee Forces en pré...
Questa voce sull'argomento cestisti messicani è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. José Meneses Nazionalità Messico Altezza 179[1] cm Pallacanestro Carriera Nazionale 1952-1955 Messico Il simbolo → indica un trasferimento in prestito. Modifica dati su Wikidata · Manuale José Salvador Meneses Rentería, noto anche con lo pseudonimo di Pistolas (San Antonio de l...
General knowledge encyclopaedia since 1768 Britannica redirects here. For other uses, see Britannica (disambiguation). Encyclopædia Britannica Britannica's thistle logoAuthorAs of 2008[update], 4,411 named contributorsIllustratorSeveral; initial engravings by Andrew BellCountry United Kingdom (1768–1901) United States (1901–present) LanguageBritish EnglishSubjectGeneralPublished 1st through 6th editions (1768–1826): private publishers such as Andrew Bell, Archibald Constabl...
2004 filmVanity FairTheatrical release posterDirected byMira NairScreenplay by Julian Fellowes Matthew Faulk Mark Skeet Based onVanity Fairby William Makepeace ThackerayProduced byJanette DayStarring Reese Witherspoon Eileen Atkins Jim Broadbent Gabriel Byrne Romola Garai Bob Hoskins Rhys Ifans James Purefoy Jonathan Rhys Meyers CinematographyDeclan QuinnEdited by Allyson C. Johnson Nishikesh Mehra Music byMychael DannaProductioncompanyGranada ProductionsDistributed by Focus Features (United...
内華達州 美國联邦州State of Nevada 州旗州徽綽號:產銀之州、起戰之州地图中高亮部分为内華達州坐标:35°N-42°N, 114°W-120°W国家 美國建州前內華達领地加入聯邦1864年10月31日(第36个加入联邦)首府卡森城最大城市拉斯维加斯政府 • 州长(英语:List of Governors of {{{Name}}}]]) • 副州长(英语:List of lieutenant governors of {{{Name}}}]])喬·隆巴爾多(R斯塔...
French screenwriter and film director (born 1925) Jean-Charles TacchellaBorn (1925-09-23) 23 September 1925 (age 98)Cherbourg, Manche, Normandy, FranceOccupation(s)Film director, screenwriter, cinematographerYears active1955–2008 Jean-Charles Tacchella (born 23 September 1925) is a French screenwriter and film director. He was nominated for an Academy Award for Best Original Screenplay for his film Cousin Cousine (1975), which was also nominated for the Academy Award for Best Fore...
Railway station in Sakai, Fukui Prefecture, Japan Maruoka Station丸岡駅General informationLocationKamishinjo Sakai-shi, Fukui-ken, 919-0522JapanCoordinates36°09′43″N 136°13′57″E / 36.1620°N 136.2326°E / 36.1620; 136.2326Operated byHapi-Line FukuiLine(s)■ Hapi-Line Fukui Line Distance65.9 km from TsurugaPlatforms2 side platformTracks2ConstructionStructure typeGround levelOther informationStatusStaffedWebsiteOfficial websiteHistoryOpened20 September 1897...
The Slave's Lament is a song first published in 1792 in volume four of the Scots Musical Museum.[1] It is often claimed that the lyrics were written by Robert Burns.[2][3] The song is the subject of Graham Fagen’s installation originally created in 2015[4] with the help of the composer Sally Beamish, reggae artist Ghetto Priest and producer Adrian Sherwood, for that year's La Biennale di Venezia, and in 2017 in the Scottish National Portrait Gallery,[5...
العلاقات المارشالية الصربية جزر مارشال صربيا جزر مارشال صربيا تعديل مصدري - تعديل العلاقات المارشالية الصربية هي العلاقات الثنائية التي تجمع بين جزر مارشال وصربيا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه ال�...
Ilustrasi Sheriff of Nottingham Sheriff of Nottingham adalah tokoh antagonis utama dalam legenda Robin Hood. Ia biasanya digambarkan sebagai seorang penguasa lalim yang menindas rakyat Nottinghamshire dan memungut pajak yang begitu besar. Robin Hood mencuri dari orang kaya dan Sheriff untuk dibagikan kepada rakyat miskin. Tidak diketahui tokoh ini didasarkan pada siapa. Kisah Robin Hood dan Sheriff of Nottingham sendiri berlatar di Kerajaan Inggris pada masa ketika Raja Richard I dari Inggris...
Edward Rowe Mores (1731-1778) Edward Rowe Mores (24 Januari 1731 – 22 November 1778) adalah pakar keilmuan dan kajian kuno dari Britania. Karya tulisnya meliputi bidang sejarah dan tipografi, serta mendirikan The Equitable Life Assurance Society, sebuah perusahan asuransi jiwa yang inovatif pada masanya. Ia dianggap sebagai orang pertama yang menggunakan istilah aktuaris untuk pekerjaan di bidang asuransi. Referensi Ogborn, M. E. (1956). The Professional Name of Actuary (PDF). Journal of th...
Baja Ferit Austenit Sementit Grafit Martensit Mikrostruktur Sferoidit Pearlit Bainit Ledeburit Martensit temper Struktur Widmanstätten Jenis Baja krus Baja karbon Baja pegas Baja paduan Baja maraging Baja nirkarat Baja cuaca Baja alat Material besi lainnya Besi tuang Besi abu Besi putih Besi ulet Besi lunak Besi tempa Eiffel tower dibangun dari puddled besi, salah satu bentuk besi tempa Tiang besi Delhi, India, yang mengandung 98% besi tempa Besi tempa adalah besi paduan dengan kandungan kar...