Стемінг

Стемінг (англ. stemming) - це процес скорочення слова до основи шляхом відкидання допоміжних частин, таких як закінчення чи суфікс. Результати стемінгу іноді дуже схожі на визначення кореня слова, але його алгоритми базуються на інших принципах. Тому слово після обробки алгоритмом стемінгу (стематизації) може відрізнятися від морфологічного кореня слова. Стемінг застосовується в лінгвістичній морфології та в інформаційному пошуку. Багато пошукових систем використовують стемінг для об’єднання слів у яких збігаються форми після стематизації, вони вважають такі слова синонімами. Цей процес називають злиттям.

Комп’ютерна програма, що реалізує алгоритм стемінгу іноді має назву стемер.

Приклади

Під час стемінгу слова "швидко", "швидкий", "швидкі" будуть перетворені до форми "швидк". А слова "бігом", "бігаю", "бігати" взагалі до кореня слова "біг".

Історична довідка

Вперше алгоритм стемінгу був опублікований Джулі Бет Ловінс[en] у 1968.[1] На свій час це була передова робота яка мала великий вплив на подальші дослідження у цьому напрямку.

Пізніше алгоритм стемінгу був написаний Мартіном Портером[en] та опублікований в липні 1980 у журналі Program. Цей алгоритм набув широкого поширення та став де-факто стандартним алгоритмом стемінгу для англійської мови. Доктор Портер отримав Tony Kent Strix award[en] у 2000 році за свою роботу над стемінгом та внесок у галузь пошуку інформації.

Існує досить багато реалізацій Портерівського алгоритму, що вільно поширюються у програмному забезпеченні, але деякі з них мають певні вади. Як результат, не всі алгоритми стемінгу видають результат, який від них очікують. Щоб зменшити подібні помилки Мартін Потер створив офіційну вільну реалізацію [Архівовано 14 травня 2012 у Wayback Machine.] алгоритму у 2000 році. А наступні кілька роки присвятив побудові Snowball[en], спеціального середовища для написання алгоритмів стемінгу, яке призначене для вдосконалення стемінгу англійської мови та написанню алгоритмів стемінгу ще для кількох мов.

Алгоритми

Існує кілька варіантів алгоритмів стемінгу, які відрізняються своєю точністю та продуктивністю.

Пошук за таблицею

Цей алгоритм використовує принцип пошуку за таблицею в якій зібрані всі можливі варіанти слів та їх форми після стемінгу. Перевагами цього методу є простота, швидкість та зручність обробки винятків з мовних правил. До недоліків слід віднести те, що таблиця пошуку має містити в собі всі форми слів: тобто алгоритм не буде працювати з новими словами (а як відомо, "живі" мови постійно поповнюються новими словами) і розміри такої таблиці можуть бути істотними. Для мов з відносно простою морфологією, таких як англійська, розміри таблиці пошуку доволі скромні, проте у аглютинативних мовах, наприклад, турецькій, кількість варіантів слів з одним коренем може йти на сотні.

Фрагмент таблиці пошуку, на прикладі слова "безпритульний":

Слово Стемінг
безпритульна  безпритул 
безпритульне
безпритульний
безпритульним
безпритульними
безпритульних
безпритульні
безпритульній
безпритульнім
безпритульного
безпритульної
безпритульному
безпритульною
безпритульну

Відсічення закінчень та суфіксів

Ці алгоритми базуються на правилах, за якими можна скорочувати слово. Якщо взяти приклад з алгоритму пошуку за таблицею, то ці правила можуть мати такий вигляд:

  • слово закінчується на "льна" - відсікаємо від слова "ьна";
  • слово закінчується на "льне" - відсікаємо "ьне";
  • слово закінчується на "льний" - відсікаємо "ьний";
  • слово закінчується на "льним" - відсікаємо "ьним".

Кількість таких правил стемінгу набагато менша за таблицю з усіма словоформами, а тому алгоритм є досить компактним та продуктивним. Наведені вище 4 правила правильно обробляють наступні прикметники:

Слово Стемінг
безпритульна безпритул
повільне повіл
ортогональний ортогонал
цивільним цивіл

Проте алгоритм може робити хибні висновки і спотворювати форму стемінгу. Наприклад, слово "пальне" перетвориться на "пал" замість правильної форми "пальн". Тому враховуючи особливості мови набір правил по відсіченню закінчень та суфіксів може бути досить складним. До недоліків також слід віднести обробку винятків, коли базові слова мають змінну форму. Наприклад, слова "бігом" та "біжу" повинні мати після стемінгу однаковий вигляд "біг", але простим відсіканням закінчення це не можливо зробити. Алгоритм вимушений враховувати такі ситуації - це призводить до ускладнення правил, і врешті-решт негативно впливає на ефективність.

Лематизація

Це більш комплексний підхід, що базується на визначенні основи слова шляхом лематизації. Першим кроком цього алгоритму є визначення частин мови у реченні, так званий POS tagging. На другому кроці, до слова застосовуються правила стемінгу відповідно до частини мови. Тобто слова "пальне" та "вітальне" мають проходити через різні ланцюжки правил, тому що "пальне" - іменник, а "вітальне" - прикметник. Теоретично алгоритми стемінгу, що базуються на лематизації повинні мати дуже високу якість і мінімальний відсоток помилок, але вони дуже залежні від правильності розпізнавання частин мови.

Стохастичні алгоритми

Стохастичні алгоритми базуються на ймовірності визначення основи слова. По своїй природі вони мають здатність "навчатися" і чим краща та більша база навчання, тим кращий результат їх роботи. База знань для цих алгоритмів - це набір логічних правил та таблиці пошуку. Після опрацювання слова стохастичним алгоритмом може з’явитися декілька варіантів основи слова, з яких алгоритм обере найімовірніший, на його думку, варіант.

Розглянемо приклад. Уявімо, що маємо лише одне логічне правило за яким від слова відсікаємо останні літери. База знань наведена у таблиці:

Слово Стемінг Закінчення
особистість особист ість
спогади спогад и
дивними дивн ими

У стовпці "Закінчення" наведений результат "навчання" алгоритму на базі знань, тобто якщо слова закінчуються на "ість", "и" чи "ими", то алгоритм знає що з ними робити. Для ілюстрації спробуємо виконати стемінг слова "кияни":

Слово Закінчується на? Результат Числовий результат
кияни ість ні 0
кияни и так 1
кияни ими ні 0

Маємо один варінт (2-й рядок), тому слово після стемінгу - "киян". Але якщо передати цьому алгоритму слово "чуйними", то відповідь вже не однозначна:

Слово Закінчується на? Результат Числовий результат
чуйними ість ні 0
чуйними и так 1
чуйними ими так 1

Перед нашим алгоритмом дилема, який варіант стемінгу обрати: "чуйним" чи "чуйн"? Ускладнення правила дозволяє розв'язати такі розбіжності: ми можемо віддавати перевагу стемінгу, який скорочує слово найбільше чи найменше.

Іноді алгоритми лематизації теж мають стохастичні властивості, коли частину мови вони визначають без урахування контексту, в якому це слово було вжито в реченні. У таких випадках перевага віддається найвірогіднішій частині мови для цього слова, і як результат - ймовірність помилок стемінгу зростає.

Гібридний підхід

При побудові гібридного алгоритму стемінгу може використовуватись комбінація алгоритмів, що наведені вище. Наприклад, алгоритм може використовувати метод відсікання закінчень та суфіксів, але на першому етапі виконувати пошук по таблиці. На відміну від пошуку по таблиці ця таблиця містить не всі словоформи, а тільки винятки з правил, які хибно обробляються алгоритмом, що відсікає закінчення.

Відсічення префіксів

Деякі стемери не обмежуються відсіченням від слова суфіксів та закінчень, а додатково намагаються позбавити слово ще й префіксу. Звичайно, не можна позбавляти всі слова префіксів, тому що після такого нерозбірливого стемінгу від слова "незалежний" утвориться "залежн", а це вже слово з протилежним змістом. Але існують слова, у яких префікс скоріше додає забарвлення ніж змінює значення слова, тому "проголошую", "наголошувати", "виголошував" цілком коректно скоротити до "голошу". Існують наукові праці, які обґрунтовують важливість таких алгоритмів стемінгу для деяких європейських мов. [2]

Пошук відповідності

Ці алгоритми використовують базу знань, що містить в собі лише основи слів. Тобто ця база знань складається з тих слів в які перетворюються звичайні слова після стемінгу. Якщо порівнювати з пошуком по таблиці, то це слова з другого стовпця. Основна мета цих алгоритмів - через систему внутрішніх правил знайти для слова найвідповіднішу форму з бази знань. Одним з таких внутрішніх правил може бути довжина збігу слова та його основи. Наприклад, у базі знань є основи "чорн" та "чорняв". Порівнюючи зі словом "чорнява" у першому випадку спільна довжина 4 ("чорнява"), а у другому - 6 ("чорнява"), тому алгоритм обере довший варіант.

Стемінг різними мовами

Якщо перші академічні роботи зі стемінгу були присвячені лише англійській, то зараз існує доволі багато реалізацій стемінгу для інших мов. Від особливостей мови залежить складність написання алгоритмів стемінгу. Так якщо стемінг англійської це доволі тривіальна задача, то стемінг для арабської чи івриту - задача на порядок складніша.

Стемінг українською

Існують варіанти стемінгу для української мови[3][4][5][6][7].

Помилки стемінгу

У алгоритмах стемінгу поширені помилки 2-х типів:

  • надстемінг (англ. overstemming)
  • недостемінг (англ. understemming)

Надстемінг - це коли під час стематизації два слова скорочуються до однієї основи, хоча це не мало б статися. Недостемінг - це протилежна помилка, коли слова отримують різні основи, хоча б мали мати одну спільну. Алгоритми стемінгу намагаються мінімізувати подібні помилки, проте скорочення помилок одного типу може призвести до зростання помилок іншого.

Посилання

  1. Julie Beth Lovins (1968). Development of a stemming algorithm. Mechanical Translation and Computational Linguistics 11:22–31.
  2. Jongejan, B. and H. Dalianis. Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike. In the Proceeding of the ACL-2009, Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, Singapore, August 2-7, 2009, pp. 145-153 [1] [Архівовано 18 березня 2012 у Wayback Machine.]
  3. Порівняння алгоритмів стемінгу для української мови [Архівовано 24 січня 2021 у Wayback Machine.] (англ.)
  4. Вероятностный морфологический анализатор русского и украинского языков [Архівовано 14 квітня 2012 у Wayback Machine.] (рос.)
  5. Модуль Drupal для стемінга українською [2] [Архівовано 20 серпня 2011 у Wayback Machine.]
  6. Hardcoded stemmer for Ukrainian [3] [Архівовано 10 червня 2018 у Wayback Machine.]
  7. Стемінг за словником в українському аналізаторі для Lucene [4] [Архівовано 8 листопада 2020 у Wayback Machine.]

Read other articles:

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Kembar mayang – berita · surat kabar · buku · cendekiawan · JSTOR Kembar mayang Kembar mayang (Hanacaraka: ꦏꦼꦩ꧀ꦧꦂꦩꦪꦁ) adalah sepasang hiasan dekoratif simbolik setinggi setengah sampai ...

 

Kamu, Aku, CintaAlbum studio karya Lala KarmelaDirilis1 Mei 2011Direkam2010GenrePop, countryLabelSony Music IndonesiaProduserIan DjuhanaKronologi Lala Karmela Stars(2008)String Module Error: Match not found2008 Kamu, Aku, Cinta(2011) Between Us(2013)String Module Error: Match not found2013 Singel dalam album Kamu, Aku, Cinta Buka Semangat BaruDirilis: November 2009 Satu Jam SajaDirilis: Oktober 2010 Kamu, Aku, CintaDirilis: Mei 2011 Kamu, Aku, Cinta adalah album studio penyanyi Lala Karme...

 

Ksar Ait-Ben-HaddouSitus Warisan Dunia UNESCOKriteriaBudaya: iv, vNomor identifikasi444Pengukuhan1987 (11) Aït Benhaddou (Berber: Ath Benhadu, Arab: آيت بن حدّوcode: ar is deprecated ) adalah kota terfortifikasi atau ksar yang terletak di sepanjang rute karavan yang pernah menghubungkan Sahara dengan Marrakech, Maroko. Sebagian besar warga yang pernah tinggal di ksar ini kini tinggal di bangunan modern di desa terdekat, walaupun masih ada 4 keluarga yang tinggal di kota kuno in...

قاعة الاستقلالIndependence Hall (بالإنجليزية) معلومات عامةنوع المبنى legislative building (en) [1] موقع تراثي موقع أثري المنطقة الإدارية فيلادلفيا[2][1][3] البلد  الولايات المتحدة[4][1] أبرز الأحداثالتشييد 1732  إلى 1753 الصفة التُّراثيَّة موقع اليونيسكو للتراث العالمي�...

 

Disambiguazione – Se stai cercando altri significati, vedi Mosul (disambigua). Mosulcittà(KU) Mûsil‎(AR) الموصل‎ Mosul – Veduta LocalizzazioneStato Iraq GovernatoratoNinive DistrettoMosul TerritorioCoordinate36°02′N 43°07′E / 36.033333°N 43.116667°E36.033333; 43.116667 (Mosul)Coordinate: 36°02′N 43°07′E / 36.033333°N 43.116667°E36.033333; 43.116667 (Mosul) Altitudine223 m s.l.m. Superficie180 km² Ab...

 

Somjit JongjohorSomjit JongjohorInformasi pribadiNama lengkapสมจิตร จงจอหอKewarganegaraan ThailandLahir19 Januari 1975 (umur 49)Nakhon Ratchasima, ThailandPendidikanInstitut Jasmani SukhothaiTinggi167 m (547 ft 11 in)Berat51 kg (112 pon) OlahragaOlahragaTinjuKelas satuan beratKelas terbangKlubAngkatan Darat Kerajaan Thailand Rekam medali Permainan Olimpiade 2008 Beijing Kelas terbang Kejuaraan Amatir Dunia 2003 Bangkok Kelas terb...

Disambiguazione – Se stai cercando altri significati, vedi Bellissima (disambigua). BellissimaLa piccola Tina Apicella con Anna Magnani in una scena del filmLingua originaleitaliano Paese di produzioneItalia Anno1951 Durata113 min[1] Dati tecniciB/Nrapporto: 1,37:1 Generedrammatico RegiaLuchino Visconti SoggettoCesare Zavattini SceneggiaturaSuso Cecchi D'Amico, Francesco Rosi, Luchino Visconti ProduttoreSalvo D'Angelo Casa di produzioneBellissima Film Distribuzione in italianoCEI I...

 

Champ Bailey Bailey nel 2010. Nazionalità  Stati Uniti Altezza 183 cm Peso 87 kg Football americano Ruolo Cornerback Termine carriera 2014 Hall of fame Pro Football Hall of Fame (2019) CarrieraGiovanili 1996-1998 Georgia BulldogsSquadre di club 1999-2003 Washington Redskins2004-2013 Denver Broncos2014 New Orleans Saints Statistiche Partite 215 Partite da titolare 212 Tackle 931 Sack 3,0 Intercetti 52 Fumble forzati 7 Palmarès Trofeo Vittorie Selezioni al Pro B...

 

The Worcestershire and Sherwood Foresters Regiment (29th/45th Foot)(WFR)Cap badgeActive1970–2007Allegiance United KingdomBranch British ArmyTypeInfantryRoleLight InfantrySizeOne battalionPart ofPrince of Wales' DivisionGarrison/HQ1st Battalion - LondonNickname(s)WoofersMotto(s)FirmMarchQuick: Young May Moon & The Royal WindsorSlow: Duchess of KentMascot(s)Ram named Private DerbyEngagementsSee honours listCommandersLast Colonel-in-ChiefThe Princess Royal, KG, KT, GCVOColo...

  لمعانٍ أخرى، طالع سر (توضيح). سرمعلومات عامةصنف فرعي من اللطائف الستةما وراء الطبيعة جزء من فلسفة صوفيةعلم نفس البداية 631 الاستعمال  القائمة ... عبادة إسلامية ذكر دعاء تلاوة القرآن الكريم الأخلاق في الإسلام الأخلاق الحسنة في الإسلام الدِّين الإسلامصوفية سُمِّي باس...

 

Part of a flower Diagram showing the stigma-style-ovary system of the female reproductive organ of a plant. The stigma is fixed to the apex of the style, a narrow upward extension of the ovary. The stigma (pl.: stigmas or stigmata)[1] is the receptive tip of a carpel, or of several fused carpels, in the gynoecium of a flower. Description Stigma of a Tulipa species, with pollen Closeup of stigma surrounded by stamens of Lilium 'Stargazer') The stigma, together with the style and ovary ...

 

تحتاج هذه المقالة إلى تنسيق لتتناسب مع دليل الأسلوب في ويكيبيديا. فضلًا، ساهم بتنسيقها وفق دليل الأسلوب المعتمد في ويكيبيديا. (يوليو 2019) محفوظ بن محمد نحناح   أول رئيس لحركة مجتمع السلم في المنصب5 مايو 1991 – 8 مايو 2003 (12 سنةً و3 أيامٍ) تأسيس الحزب أبو جرة سلطاني معلومات شخصية ...

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. Cet article ne cite pas suffisamment ses sources (septembre 2023). Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ». En pratique : Quelles sources sont attendues ?...

 

Cet article est une ébauche concernant l’Allemagne et les Jeux olympiques. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Allemagne aux Jeux olympiques d'hiver de 1936 Code CIO GER Comité Comité national olympique allemand Lieu Garmisch-Partenkirchen Participation 3e aux Jeux d'hiver Athlètes 55 (48 hommes et 7 femmes) dans 8 disciplines Porte-drapeau Georg von Kaufmann (ski de fond) MédaillesRang :...

 

Dutch footballer (born 1996) Jesper Verlaat Verlaat playing for Waldhof Mannheim in 2022Personal informationDate of birth (1996-06-04) 4 June 1996 (age 28)Place of birth Zaanstad, NetherlandsHeight 1.92 m (6 ft 4 in)Position(s) Centre-backTeam informationCurrent team 1860 MunichNumber 4Youth career2001–2003 FC Oberneuland2003–2005 Admira Wacker2005–2007 Sturm Graz2007–2010 Ferreiras2010–2012 CD Odiáxere2012–2015 Werder BremenSenior career*Years Team Apps (Gls)...

SpVgg UnterhachingCalcio Haching Segni distintiviUniformi di gara Casa Trasferta Colori sociali Rosso, blu Dati societariCittàUnterhaching Nazione Germania ConfederazioneUEFA Federazione DFB Campionato3. Liga Fondazione1925 Presidente Manfred Schwabl Allenatore Marc Unterberger StadioSportpark Unterhaching(15 053 posti) Sito webwww.spvggunterhaching.de PalmarèsSi invita a seguire il modello di voce Lo SpVgg Unterhaching, comunemente Unterhaching, è una società calcistica tedesca con ...

 

Do Aur Do PyaarPoster rilis teatrikalSutradaraShirsha Guha ThakurtaProduser Sameer Nair Deepak Segal Tanuj Garg Atul Kasbekar Swati Iyer Chawla Ditulis oleh Suprotim Sengupta Amrita Bagchi Eisha Chopra Pemeran Vidya Balan Pratik Gandhi Ileana D'Cruz Sendhil Ramamurthy Penata musikLost Stories (DJs)The Local TrainSubhajit MukherjeeAbhishek–AnanyaWhen Chai Met ToastSinematograferKartik VijayPenyuntingBardroy BarrettoPerusahaanproduksi Applause Entertainment Ellipsis Entertainment Produc...

 

Grand Prince of Moscow from 1462 to 1505 Ivan III redirects here. For other uses, see Ivan III (disambiguation). In this name that follows Eastern Slavic naming customs, the patronymic is Vasilyevich. Ivan IIISovereign of all RussiaPortrait in the Tsarsky titulyarnik, 1672Grand Prince of Moscow and all RussiaReign28 March 1462 – 27 October 1505PredecessorVasily IISuccessorVasily IIICo-monarch Ivan Ivanovich (1471–1490) Dmitry Ivanovich (1498–1502) Vasily III (1502–1505) Born22 January...

State park in Arkansas, United States Mammoth Spring State ParkMammoth Spring near average flow conditionsLocation of Mammoth Spring State Park in ArkansasShow map of ArkansasMammoth Spring State Park (the United States)Show map of the United StatesLocationMammoth Spring, Arkansas, United StatesCoordinates36°29′43.7″N 91°32′7.5″W / 36.495472°N 91.535417°W / 36.495472; -91.535417Area62.5 acres (25.3 ha)[1]Established1957[1]Named forMammo...

 

Questa voce sull'argomento concetti fondamentali di chimica è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. La legge delle proporzioni multiple con le correlazioni tra ossigeno e 1 grammo di azoto La legge delle proporzioni multiple (legge ponderale) è una legge chimica ricavata sperimentalmente dal chimico, fisico e meteorologo inglese John Dalton. Essa enuncia: quando due elementi si combinano in modi diversi per formare diversi composti, posta fis...