Электронный словарь

Электронный словарьпрограммное обеспечение, которое позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Внутренне устроен как база данных со словарными статьями.

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.

Машиночитаемые словари

Создание машиночитаемых словарей

В проекте Leipzig Corpora Collection[1] (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет[2]. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов[3]. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения[3].

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán[4], собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен[5]. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря[6].

Использование машиночитаемых словарей

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы[7].

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий[8].

Трудности извлечения информации из словарей:

Число уникальных русских слов в академических словарях (вертикальная полоса) и число уникальных слов по всем 12 словарям (круговая диаграмма), 2015[9]
  • Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами[10]. Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало[10].
  • Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям[11]. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует[12]. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать[12].
  • Необходима частичная ручная проверка для построения качественных баз знаний по словарям[13].
  • Необходима интеграция множества источников данных. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна[13]. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей[9]. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей[9].

Формат машиночитаемых словарей

Фрагмент страницы в русско-ненецком словаре. Словарные статьи краткие, но включают большой объём разнородных данных: толкование, перевод, словообразование, ударение, грамматические и диалектные пометы

Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей[13]. Примером является формат, выработанный сообществом TEI[13].

С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче «товары-поставщик» или организация «базы данных сотрудников». Классические (реляционные) базы данных не являются идеальным решением для лексических баз данных[14].

В работах[15][16], посвящённых исследованиям в области проектирования баз данных, предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.

Популярные электронные словари

Словари

Программы

Программы, сайты и др.

См. также

Примечания

  1. Leipzig Corpora Collection. Дата обращения: 5 мая 2019. Архивировано 30 мая 2016 года.
  2. Goldhahn et al., 2012, с. 760.
  3. 1 2 Goldhahn et al., 2012, с. 762.
  4. An Crúbadán — Corpus Building for Minority Languages. Дата обращения: 5 мая 2019. Архивировано 23 апреля 2019 года.
  5. Scannell, 2007.
  6. Scannell, 2007, с. 9.
  7. Ide, Véronis, 1994, с. 137—138.
  8. Ide, Véronis, 1994, с. 138.
  9. 1 2 3 Kiselev et al., 2015.
  10. 1 2 Ide, Véronis, 1994, с. 139.
  11. Ide, Véronis, 1994, с. 141.
  12. 1 2 Ide, Véronis, 1994, с. 140.
  13. 1 2 3 4 Ide, Véronis, 1994, с. 143.
  14. Ide, Véronis, 1994, с. 144.
  15. Ide, N., Le Maitre, J., & Véronis, J. (1994). Outline of a model for lexical databases Архивная копия от 9 августа 2017 на Wayback Machine. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
  16. Véronis, J., & Ide, N. (1992, August). A feature-based model for lexical databases Архивная копия от 14 июля 2019 на Wayback Machine. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Литература


Read other articles:

Johnny Depp di Berlinale 2020 Johnny Depp adalah aktor, produser, dan seorang musisi berkebangsaan Amerika. Ia telah banyak muncul di beberapa film, serial televisi, dan video game. Debut film pertamanya bergenre horor yang berjudul A Nightmare on Elm Street di tahun 1984.[1] Pada dua tahun berikutnya, Depp muncul dalam film bergenre komedi Private Resort (1985), film perang Platoon (1986), dan Slow Burn (1986). Satu tahun berikutnya ia memulai bermain peran sebagai Petugas Tom Hanson...

 

Dewan Perwakilan Rakyat Daerah Kabupaten Lampung TimurDewan Perwakilan RakyatKabupaten Lampung Timur2019-2024JenisJenisUnikameral SejarahSesi baru dimulai19 Agustus 2019PimpinanKetuaHi. Ali Johan Arif, S.E., M.Si. (PDI-P) sejak 15 Oktober 2019 Wakil Ketua IHi. Ahmad Basuki, M.Pd.I. (PKB) sejak 16 September 2022 Wakil Ketua IIHi. Nawawi Iskandar, S.E. (NasDem) sejak 13 April 2021 Wakil Ketua IIIAriyan Putra Marga, S.E., M.M. (Golkar) sejak 15 Oktober 2019 KomposisiAnggota50Part...

 

NASCAR Seri Piala Sprint 2013 Sebelum: 2012 Sesudah: 2014 Jimmie Johnson (foto 2018) meraih gelar Seri Piala keenamnya di musim 2013. NASCAR Seri Piala Sprint 2013 merupakan musim ke 65 dari NASCAR Seri Piala Sprint. Musim ini berlangsung dari bulan Februari 2013 lewat Daytona 500 di Daytona International Speedway dan berakhir pada bulan November dalam Ford 400 di Homestead-Miami Speedway. Brad Keselowski bersama tim Penske Racing adalah juara bertahan di musim 2013 namun ia gagal mempertaha...

Filipino seafood soup that does not use vegetables Ginataang hiponGinataang hipon with lemongrassCourseMain coursePlace of originPhilippinesServing temperatureHotVariationsGinataang curacha(spanner crab)Ginataang sugpo(prawn or lobster)  Media: Ginataang hipon Ginataang hipon is a Filipino seafood soup made from shrimp (hipon) in coconut milk (gata) and spices. It differs from other types of ginataan (which also commonly include shrimp), in that it does not use vegetables. It is a ty...

 

ХристианствоБиблия Ветхий Завет Новый Завет Евангелие Десять заповедей Нагорная проповедь Апокрифы Бог, Троица Бог Отец Иисус Христос Святой Дух История христианства Апостолы Хронология христианства Раннее христианство Гностическое христианство Вселенские соборы Н...

 

Canadian licensed built F-86 Sabre This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Canadair Sabre – news · newspapers · books · scholar · JSTOR (February 2013) (Learn how and when to remove this message) CL-13 Sabre An RCAF Canadair Sabre. Camouflage colouring was used on Europe-based aircraft. Role FighterT...

Sceaux 行政国 フランス地域圏 (Région) イル=ド=フランス地域圏県 (département) オー=ド=セーヌ県郡 (arrondissement) アントニー郡小郡 (canton) 小郡庁所在地INSEEコード 92071郵便番号 92330市長(任期) フィリップ・ローラン(2008年-2014年)自治体間連合 (fr) メトロポール・デュ・グラン・パリ人口動態人口 19,679人(2007年)人口密度 5466人/km2住民の呼称 Scéens地理座標 北緯48度4...

 

Ця стаття потребує додаткових посилань на джерела для поліпшення її перевірності. Будь ласка, допоможіть удосконалити цю статтю, додавши посилання на надійні (авторитетні) джерела. Зверніться на сторінку обговорення за поясненнями та допоможіть виправити недоліки. Мат...

 

尤睦佳·泽登巴尔Юмжаагийн Цэдэнбал1970年代时的尤睦佳·泽登巴尔蒙古人民革命党中央委员会总书记任期1958年11月22日—1984年8月24日前任达希·丹巴(第一书记)继任姜巴·巴特蒙赫任期1940年4月8日—1954年4月4日前任达希·丹巴(第一书记)继任达希·丹巴(第一书记)蒙古人民共和國部長會議主席任期1952年1月26日—1974年6月11日前任霍尔洛·乔巴山继任姜巴·巴特蒙赫�...

SD Negeri Grogol 2InformasiDidirikan31 Desember 1978JenisNegeriAkreditasiANomor Statistik Sekolah101031101023Nomor Pokok Sekolah Nasional20228735Kepala SekolahNeneng Supriati S.PdRentang kelasI, II, III, IV, V, VIKurikulumKurikulum 2013StatusSekolah Standar NasionalAlamatLokasiJalan Pulo Mangga №1, Grogol, Kec. Limo, Depok, Jawa Barat, IndonesiaTel./Faks.(0251) 83627877Situs webSitus [email protected] SD Negeri Grogol 2 adalah sebuah sekolah dasar negeri yang t...

 

Karl von KremplerFoto era perang yang dipakai pada dokumen pasca-perang - 1945.Lahir(1896-05-26)26 Mei 1896Pirot, SerbiaMeninggal17 April 1971(1971-04-17) (umur 74)Salzburg, AustriaPengabdian JermanDinas/cabang Waffen SSPangkatSS-StandartenführerKesatuanSS Polizei-Selbstschutz-Resimen Sandschak Karl von Krempler, kemudian disebut sebagai Karl Krempler (Kiril Serbia: Карл Кремплер, 26 Mei 1896 – 17 April 1971) adalah seorang SS-Standartenführer Jerman da...

 

Singaporean historian (1927–2008) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Mary Turnbull – news · newspapers · books · scholar · JSTOR (January 2022) (Learn how and when to remove this message) Constance Mary TurnbullBornConstance Mary Turnbull(1927-02-09)9 February 1927West Lyham, near Wooler, Nort...

You can help expand this article with text translated from the corresponding article in German. (November 2012) Click [show] for important translation instructions. View a machine-translated version of the German article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-translated text into the English Wikip...

 

Swiss chemist (1844–1898) Ferdinand HurterFerdinand Hurter. Photograph taken by his colleague in photographic research, Vero Charles DriffieldBorn15 March 1844Schaffhausen, SwitzerlandDied12 March 1898 (1898-03-13) (aged 53)Cressington Park, LiverpoolNationalitySwissAlma materZürich Polytechnic, Heidelberg UniversityKnown forchemistry, photographic researchAwardsProgress Medal of the Royal Photographic Society, 1898Scientific careerFieldsChemistInstitutionsGaskell, Deac...

 

Maria Angela Ortolani Maria Angela Ortolani (Bergamo, 10 maggio 1834 – Ardenza, 1913) è stata un soprano italiano. Indice 1 Biografia 2 Note 3 Altri progetti 4 Collegamenti esterni Biografia Angela (o Angelica, o Angelina) Ortolani compì gli studi presso il conservatorio di Milano nella classe di Francesco Lamperti, su incitazione di Gaetano Donizetti, che l'aveva affidata prima al Forini. Debuttò nel 1853 al Teatro Sociale di Bergamo, nella Parisina di Donizetti. Nel 1857 avviò una car...

Mountain in Taiwan For other uses, see Tai Ping Shan (disambiguation). Mount TaipingHighest pointElevation1,950 m (6,400 ft)Coordinates24°29′37″N 121°32′06″E / 24.49361°N 121.53500°E / 24.49361; 121.53500NamingNative name太平山 (Chinese)GeographyMount TaipingTaiwan LocationDatong, Yilan County, Taiwan Aerial panorama of Taiping Mountain villa and visitor centre. Shot December 2022. Taiping Mountain or Taipingshan (Chinese: 太平�...

 

Pour les articles homonymes, voir Baxter. Anne Baxter Anne Baxter en 1950. Données clés Naissance 7 mai 1923Michigan City (Indiana), États-Unis Nationalité Américaine Décès 12 décembre 1985 (à 62 ans)New York, États-Unis Profession Actrice Films notables La Splendeur des AmbersonLe Fil du rasoirÈveLa Loi du silenceLes Dix Commandements modifier Anne Baxter, née le 7 mai 1923 à Michigan City dans l'Indiana et morte le 12 décembre 1985 à New York, est une actrice américain...

 

1980s economic stagnation in Peru The Lost Decade or the Crisis of the 80s (Spanish: La crisis de los 80) was a period of economic stagnation in Peru throughout the 1980s which was exacerbated to a severe macroeconomic crisis by the end of the decade.[1] Foreign debt accumulation throughout Latin America, a series of natural disasters, mass public expenditures, nationalizations of banks and financial institutions, and the shutting of Peru out of international credit markets led to a d...

Pour les articles homonymes, voir Medellín (homonymie). Cet article possède un paronyme, voir Medellín v. Texas. Medellín Blason Drapeau Administration Pays Colombie Département  Antioquia Alcalde Federico Gutiérrez (2024-2027) Code DANE 05001 Démographie Gentilé Medellinense Population 2 219 861 hab. (2005[1]) Densité 5 832 hab./km2 Géographie Coordonnées 6° 14′ 00″ nord, 75° 34′ 00″ ouest Altitude ~ 1 500...

 

NGC 1574 La galaxie lenticulaire NGC 1574 Données d’observation(Époque J2000.0) Constellation Réticule Ascension droite (α) 04h 21m 58,8s[1] Déclinaison (δ) −56° 58′ 29″ [1] Magnitude apparente (V) 10,4[2] 11,4 dans la Bande B[2] Brillance de surface 13,30 mag/am2[2] Dimensions apparentes (V) 4,0′ × 3,6′[2] Décalage vers le rouge 0,003472 ± 0,000053[1] Angle de position 134°[2] Localisation dans la constellation : Réticule Astrom�...