Письменный корпус татарского языка

Письменный корпус татарского языка
URL corpus.tatar
Тип сайта корпус текстов
Язык (-и) татарский/русский/английский
Расположение сервера Татарстан
Создатель Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р.
Начало работы 2011
Текущий статус Работает и развивается

Пи́сьменный ко́рпус тата́рского языка́ — электронный корпус татарского языка, доступный для онлайн пользования. Корпус предназначен интересующимся системой, состоянием и перспективой татарского языка. Он необходим лингвистам, изучающим татарский язык в рамках корпусной лингвистики.
Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar Архивная копия от 26 апреля 2016 на Wayback Machine.
Доступен на татарском, русском и английском языках.

Объём корпуса

Объём корпуса с конца 2014 года насчитывает более 116 млн слов, составляющих более 10 млн предложений, число различных словоформ приближается к 1,5 млн.
Тексты в корпусе хранятся в виде отдельных предложений с целью предотвращения их копирования.

Доступ

Доступ к пользованию корпусом является бесплатным.

О создании корпуса

Создание корпуса началось в 2010 году группой энтузиастов. Оно было продиктовано необходимостью разработки системы машинного перевода текстов с татарского на иностранный язык и обратно, а также системы автоматического синтеза и распознавания татарской речи определенной тематики.

Практическая значимость и возможности использования

Корпус может использоваться лингвистами, изучающими татарский язык в рамках корпусной лингвистики, а также при обучении языку и в качестве справочника при составлении различных документов.
Корпус позволяет просматривать контекст, определять частоту вхождений, находить слова с требуемыми свойствами.

Контекстно-статистический поиск

Данный тип поиска Архивная копия от 26 апреля 2016 на Wayback Machine позволяет просматривать отсортированные по частотности правый, левый и семантический контексты искомого слова.
Правый контекст — слова расположенные непосредственно за текущим словом.
Левый контекст — слова расположенные непосредственно перед текущим словом.
Семантический контекст — слова расположенные в одном предложении с текущим словом, то есть имеющие с ним в той или иной степени семантическую связь.

Сложный морфологический поиск

В 2014 году была произведена морфологическая разметка Корпуса. В основу метаязыка грамматических помет положена система «тегов» для тюркских языков, разработанная международным проектом Apertium Архивная копия от 14 апреля 2016 на Wayback Machine. В рамках данного проекта создается система машинного перевода для большого количества языков. Основными аргументами в пользу выбора морфологического таггера Apertium’а для разметки Письменного корпуса являются:
— высокое качество морфологической аннотации;
— абсолютная открытость этого проекта: все исходные коды и наработки публично доступны всем желающим бесплатно.
Разработанная нами в 2015—2016 годах Система сложного морфологического поиска Архивная копия от 26 апреля 2016 на Wayback Machine позволяет производить поиск в Корпусе на основе различных комбинаций таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало, середина, конец слова с указанием возможных расстояний между лексемами.

Система синтеза татарской речи

На сайте Письменного корпуса татарского языка имеется возможность прослушать как найденные предложения, так и произвольный текст Архивная копия от 26 апреля 2016 на Wayback Machine.

Статистические данные

На сайте Корпуса размещаются различные статистические данные Архивная копия от 26 апреля 2016 на Wayback Machine, которые авторы получают по мере обработки данных.

Недостатки и перспективы развития

  • Отсутствует оффлайн версия корпуса.
  • Нет возможности поиска со снятой омонимией.

Составители

Создателями корпуса являются:

  • Сайхунов М. Р. (кандидат филологических наук, научный сотрудник Института информатики АН РТ)
  • Ибрагимов Т. И. (кандидат филологических наук, доцент кафедры прикладной лингвистики КФУ)
  • Хусаинов Р. Р. (инженер, компания GDC)

При содействии:

  • Республиканского центра развития традиционной культуры
  • Кафедры финно-угорских языков Университета Турку (Финляндия)
  • Компании «RX5»
  • Редакции научно-информационного журнала «Фән һәм Тел»

Литература[1]

Примечания

  1. Письменный Корпус Татарского Языка. Дата обращения: 22 апреля 2016. Архивировано 25 апреля 2016 года.

Ссылки

Read other articles:

Basis data OracleTipemulti-model database (en) Versi stabil 23c (19 September 2023) GenreORDBMSLisensiPeroranganBahasaDaftar bahasa Multi Karakteristik teknisSistem operasiLintas platform Bahasa pemrogramanJava, C dan C++ Format kodeDaftarOracle Trace Metadata (en) Format berkasDaftarOracle Trace Metadata (en) Informasi pengembangPengembangOracle CorporationInformasi tambahanSitus webwww.oracle.comStack ExchangeEtiqueta PRONOMx-sfw/186 Sunting di Wikidata • L • B • Bantua...

 

Mario ZenariKardinal, Nuncio Apostolik untuk SuriahGerejaGereja Katolik RomaPenunjukan30 Desember 2008PendahuluGiovanni Battista MorandiniJabatan lainKardinal-Deakon Santa Maria delle Grazie alle Fornaci fuori Porta CavalleggeriImamatTahbisan imam5 Juli 1970oleh Giuseppe CarraroTahbisan uskup25 September 1999oleh Angelo SodanoPelantikan kardinal19 November 2016oleh Paus FransiskusPeringkatKardinal DeakonInformasi pribadiNama lahirMario ZenariLahir05 Januari 1946 (umur 78)Villaf...

 

Location of Wythe County in Virginia This is a list of the National Register of Historic Places listings in Wythe County, Virginia. This is intended to be a complete list of the properties and districts on the National Register of Historic Places in Wythe County, Virginia, United States. The locations of National Register properties and districts for which the latitude and longitude coordinates are included below, may be seen in an online map.[1] There are 22 properties and districts...

Chronologies La Défense de Paris, monument de Louis-Ernest Barrias, inauguré le 12 octobre au carrefour de Courbevoie. L'Illustration, couverture du numéro du 28 juillet 1883.Données clés 1880 1881 1882  1883  1884 1885 1886Décennies :1850 1860 1870  1880  1890 1900 1910Siècles :XVIIe XVIIIe  XIXe  XXe XXIeMillénaires :-Ier Ier  IIe  IIIe Chronologies géographiques Afrique Afrique du Sud, Algérie, Angola, Bénin, Botswana, Burk...

 

Ethnic group from Indonesia Not to be confused with Sudanese people. Sundanese peopleᮅᮛᮀ ᮞᮥᮔ᮪ᮓ Urang SundaA Sundanese couple wearing neo-traditional wedding attireTotal populationc. 40-42 million[a]Regions with significant populations Indonesia36,701,670 (2010)[1]    West Java34 million    Banten2,400,000    Jakarta1,500,000    Lampung600,000    Central Java...

 

Sports season 1920 Canton Bulldogs seasonCanton Bulldogs team.Head coachJim ThorpeHome fieldLeague Field[1]ResultsRecord7–4–2 Overall 6–2 APFALeague place8th ← 1919 Canton Bulldogs 1921 → The 1920 Canton Bulldogs season was the franchise's sixteenth and its first in the American Professional Football Association (APFA), which became the National Football League two years later. Jim Thorpe, the APFA's president, was Canton's coach and a back who played ...

Athena beralih ke halaman ini. Untuk mitologi, lihat Athena (mitologi). AthenaΑθήνα AthīnaDari atas kiri Acropolis, Parlemen Hellenic, Zappeion, Museum Acropolis, Lapangan Monastiraki, Panorama Athena. LambangPopulasi (2001) • Perkotaan3.130.841 • Metropolitan4.013.368Kode area telepon21Situs webwww.cityofathens.gr Athena atau Atena adalah ibu kota negara Yunani. Dalam bahasa Yunani Modern (bahasa Dhimotiki) kota ini disebut Athina atau Αθήνα, sedangkan...

 

This article may require cleanup to meet Wikipedia's quality standards. The specific problem is: The article has many duplicate section heading titles, in contravention of MOS:SECTIONHEAD, which need to be made unique. Please help improve this article if you can. (October 2023) (Learn how and when to remove this message) This article lists modern armoured fighting vehicles (AFVs) produced or used after the Second World War. Algeria AFVs produced in Algeria BCL-M5 Argentina AFVs produced in A...

 

Эта статья — о спортивном сооружении в Берлине. О местности в Рейнланд-Пфальце см. Майфельд. Вид на Олимпийский стадион со стороны Майского поля. Фото 2012 года Расположение Майского поля на карте Колокольня и трибуна на Майском поле перед стадионом. Фото 2017...

2020年夏季奥林匹克运动会波兰代表團波兰国旗IOC編碼POLNOC波蘭奧林匹克委員會網站olimpijski.pl(英文)(波兰文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員206參賽項目24个大项旗手开幕式:帕维尔·科热尼奥夫斯基(游泳)和马娅·沃什乔夫斯卡(自行车)[1]闭幕式:卡罗利娜·纳亚(皮划艇)&#...

 

Questa voce o sezione sull'argomento competizioni cestistiche non cita le fonti necessarie o quelle presenti sono insufficienti. Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili secondo le linee guida sull'uso delle fonti. Torneo Acropolis 1987 Competizione Torneo Acropolis Sport Pallacanestro Edizione II Organizzatore EOK Luogo Atene Partecipanti 4 Impianto/i 1 Risultati Vincitore Jugoslavia(2º titolo) Statistiche Incontri disputati 6 Manuale Il Torneo Acrop...

 

Karl Popper (1980) Sir Karl Raimund Popper CH FBA FRS (* 28. Juli 1902 in Wien; † 17. September 1994 in London) war ein österreichisch-britischer Philosoph, der mit seinen Arbeiten zur Erkenntnis- und Wissenschaftstheorie, zur Sozial- und Geschichtsphilosophie sowie zur politischen Philosophie den Kritischen Rationalismus begründete. Inhaltsverzeichnis 1 Überblick 2 Leben 2.1 Kindheit und Ausbildung 2.2 Studium und Beruf 2.3 Der Wiener Kreis 2.4 Emigration nach Neuseeland und England 2.5...

توماس جفرسون (بالإنجليزية: Thomas Jefferson)‏    مناصب حاكم فرجينيا (2 )   في المنصب1 يونيو 1779  – 3 يونيو 1781  باتريك هنري  ويليام فلمنج (سياسي أمريكي)  سفير الولايات المتحدة إلى فرنسا   في المنصب1785  – 1789  بنجامين فرانكلين    وزير الخارجية الأمريكي (1 ) &...

 

Dieser Artikel behandelt die ehemalige Gemeinde. Zum Tal des Ketzerbaches siehe Ketzerbach (Elbe). Ketzerbachtal war eine Gemeinde im sächsischen Landkreis Meißen. Sie war Sitz der Verwaltungsgemeinschaft Ketzerbachtal und nach dem sie durchfließenden Ketzerbach benannt. Ketzerbachtal wurde zum 1. Januar 2014 aufgelöst, die früheren Ortsteile kamen zur Stadt Nossen. Inhaltsverzeichnis 1 Geographie 2 Geschichte 2.1 Eingemeindungen 2.2 Einwohnerentwicklung 3 Weblinks 4 Einzelnachweise Geo...

 

Pakistani educational institution Dadabhoy Institute of Higher Educationدادا بھائی انسٹیٹیوٹ آف ہائر ایجوکیشنTypePrivateEstablished2003LocationKarachi, Sindh, PakistanWebsitewww.dadabhoy.edu.pk The Dadabhoy Institute of Higher Education (DIHE) (Urdu: دادا بھائی انسٹیٹیوٹ آف ہائر ایجوکیشن) is an educational institution in Karachi offering undergraduate, graduate and postgraduate education.[1] History It was founded in 2000...

Canadian-born American conservationist and writer (1814-1910) Galen ClarkGalen ClarkBorn(1814-03-28)March 28, 1814Shiptoon, Lower CanadaDiedMarch 24, 1910(1910-03-24) (aged 95)Oakland, CaliforniaResting placeYosemite CemeteryChildrenElvira Missouri Clark (1840-1912)Joseph Locke Clark (1842-1862)Mary Ann Clark (1844-1919)Calen Alonzo Clark (1847-1873)Solon McCoy Clark (1848-1857) Galen Clark in the Big Tree Grove, photo by Carleton E. Watkins, c. 1865-66 Galen Clark (March 28, 1814 – Ma...

 

Biografi tokoh yang masih hidup ini tidak memiliki referensi atau sumber sehingga isinya tidak dapat dipastikan. Bantu memperbaiki artikel ini dengan menambahkan sumber tepercaya. Materi kontroversial atau trivial yang sumbernya tidak memadai atau tidak bisa dipercaya harus segera dihapus.Cari sumber: Elvyn G. Masassya – berita · surat kabar · buku · cendekiawan · JSTOR (Pelajari cara dan kapan saatnya untuk menghapus pesan templat ini) Elvyn G. Masass...

 

Ancient capital of Inebu-hedj, Egypt For the nome, see Inebu-hedj. For other uses, see Memphis (disambiguation). Memphisمنف (Arabic)ⲙⲉⲙϥⲓ (Coptic)Ruins of the pillared hall of Ramesses IIat Mit RahinaMemphisLocation within the Nile DeltaShow map of Nile DeltaMemphisLocation within EgyptShow map of EgyptAlternative name Memphis(Middle Egyptian) Enduring and beautiful (mn nfr)in hieroglyphs Memphis(Old Egyptian) Everlasting places (Djd swt)in hieroglyphs Memphis(Late ...

Sungai Qiantang Jembatan Sungai Qiantang Hanzi sederhana: 钱塘江 Hanzi tradisional: 錢塘江 Makna harfiah: Tanggul Sungai Raja Qian Alih aksara Mandarin - Hanyu Pinyin: Qiántáng Jiāng - Wade-Giles: Ch'ien-t'ang Chiang - Peromawian Pos: Tsientang Kiang Wu - Romanisasi: Chi-dhon kaon Sungai Qiantang adalah sungai yang terletak di Tiongkok. Panjang sungai ini sekitar 459 kilometer melewati Zhejiang, ibukota provinsi Hangzhou sebelum mengalir ke Laut Tiongkok Timur melalui Teluk Hangzhou...

 

This article contains content that is written like an advertisement. Please help improve it by removing promotional content and inappropriate external links, and by adding encyclopedic content written from a neutral point of view. (September 2013) (Learn how and when to remove this message) Television channel CinelatinoCountryMexicoBroadcast areaNorth AmericaSouth AmericaHeadquartersMexico CityProgrammingLanguage(s)SpanishPicture format480i (SDTV)OwnershipOwnerMVS ComunicacionesHemisphere Med...