Система перевірки орфографії

В обчислювальній техніці система перевірки орфографії (т. зв. спелчекер) — це допоміжна програма, яка шукає в тексті документа слова, написані неправильно. Знайдені помилки позначаються спеціальним чином — зазвичай для цього використовується червоне підкреслення. У деяких випадках користувачеві, окрім зазначення місць можливих помилок, надається можливість вибрати один із правильних варіантів написання.

Системи перевірки орфографії можуть бути автономні (як правильно, у такому разі передбачено можливість інтеграції з іншими програмами) або входити як окремий модуль до складу іншої програми, зокрема текстового процесора, поштового клієнта, електронного словника, пошукової системи тощо.

Принцип роботи

Зазвичай система перевірки орфографії виконує такі дії.

  • Зчитує текст і виокремлює слова, з яких він складається.
  • Порівнює кожне слово тексту зі списком правильно написаних слів (тобто словником). Такий список, окрім власне слів, може містити додаткову інформацію, як-от місця, де може бути знак переносу, лексичні й граматичні атрибути тощо.
  • Додаткова дія, особливості якої залежать від мови: алгоритм підтримки морфології. Система має враховувати не тільки початкову форму слова, а й усі можливі його словоформи — множину, відмінки, стягнення тощо. У мовах із розвинутою морфологією (як-от таких, яким притаманна аглютинація, відмінювання тощо) цей процес може бути вельми складним.

Користь від морфологічного аналізу — тобто перевірка чималої кількості словоформ — у простих мовах на кшталт англійської не очевидна, але користь для синтетичних мов, як-от німецька, угорська, українська, турецька — безсумнівна.

Як додаток до цих компонентів, інтерфейс програм дає користувачам змогу ухвалювати або відкидати запропоновані заміни і змінювати спосіб роботи програми.

Існують також альтернативні типи систем перевірки орфографії, у яких для виявлення помилок замість правильно написаних слів використовується виключно статистична інформація, як-от N-грами. Зазвичай такий підхід потребує чималих зусиль для отримання достатньої кількості статистичної інформації. Його основними перевагами є менша потреба в оперативній пам'яті та спроможність виправляти помилки в словах, яких немає у словнику[1] .

У деяких системах перевірки орфографії використовуються списки слів із неправильним написанням і пропозиції для таких слів. Такому підходу бракує гнучкості; найчастіше його використовують під час виправлень у паперових документах, як-от у розділах «Див. також» в енциклопедіях.

Для перевірки орфографії використовують також алгоритми кластерного аналізу[2] в поєднанні з фонетичною інформацією[3].

Історія

До появи комп'ютерів

Перші системи із функціями перевірки орфографії з'явилися в 1957 р. — зокрема системи перевірки орфографії для точкових зображень курсивного письма та спеціальні програми, які замість помилкових записів шукали записи в базах даних.

В 1961 р. Лестер Ернес[en]] (Les Earnest), який очолював дослідження цієї перспективної технології, вважав за потрібне створити першу систему перевірки орфографії, яка оперувала списком із 10 000 допустимих слів[4]. Ральф Горін (Ralph Gorin), у той час аспірант Ернеста, створив першу справжню програму-спелчекер, яку можна було застосувати до будь-якого англійського тексту взагалі, а не тільки в рамках дослідження, — SPELL для DEC PDP-10 у Лабораторії штучного розуму в Стенфордському університеті (лютий 1971 р.)[5]. Горін написав код SPELL на асемблері, аби пришвидшити її роботу. Він створив орфографічний коректор, який складав список слів, що відрізнялися від даного слова лише однією літерою або перестановкою літер; цей список демонструвався користувачеві.

Горін зробив програму SPELL загальнодоступною, як і більшість програм, створених у Лабораторії SAIL (Stanford Artificial Intelligence Laboratory). Невдовзі вона поширилася всім світом через мережу ARPAnet. Це сталося за 10 років до того, як на ринку з'явилися доступні персональні комп'ютери[6]. SPELL, використані в ній алгоритми й структури даних стимулювали розвиток програми Ispell в Unix.

Перші системи перевірки орфографії широко поширилися на обчислювальних машинах наприкінці 1970-х років. Команда із шести лінгвістів із Джорджтаунського університету розробили першу систему перевірки орфографії для корпорації IBM[7].

Після появи комп'ютерів

Перші системи перевірки орфографії  для персональних комп'ютерів з'явилися в 1980 р. на комп'ютерах CP/M та TRS-80. Невдовзі після цього, в 1981 р., було створено орфографічні пакети для IBM PC. Чимало розробників, зокрема Марія Маріані (Maria Mariani)[7], Random House[8], Soft-Art, Microlytics, Proximity, Circle Noetics та Reference Software, поширювали комплекти OEM-програм та продукти для кінцевих користувачів на ринку програмного забезпечення, який швидко зростав, — здебільшого для персональних комп'ютерів (PC), але також і для Apple Macintosh, VAX та UNIX. На персональних комп'ютерах ці системи перевірки орфографії працювали автономно; більшість із них за наявності достатньої пам'яті могли працювати як резидентні програми (TSR) в комплектах програм для обробки текстів на PC.

Утім, ці програми недовго залишалися на ринку окремими програмами: у середині 1980-х рр. розробники популярних текстових редакторів, як-от WordStar і WordPerfect, вбудували системи перевірки орфографії, здебільшого за ліцензіями описаних вище компаній, у розроблювані ними пакети програм. Невдовзі ці системи почали підтримувати не тільки англійську, а й інші європейські, а згодом навіть і азійські мови. Проте процес морфологічної обробки підвищив вимоги до програмного забезпечення, особливо в аглютинативних мовах на кшталт угорської й фінської. Хоча розмір ринку програмного забезпечення для обробки текстів у таких країнах, як, наприклад, Ісландія, не виправдовував інвестиції в розробку систем перевірки орфографії, маркетингова політика деяких компаній, як-от WordPerfect, утім, передбачала локалізацію програм для якнайбільшої кількості ринків.

Браузери

У веббраузері Firefox 2.0 передбачено підтримку перевірки орфографії для контенту, створюваного користувачем, як-от під час редагування й набирання тексту у вікі, у вебслужбах електронної пошти на багатьох сайтах, у блогах і на сайтах соціальних мереж. У веббраузерах Google Chrome, Konqueror та Opera, у поштовому клієнті Kmail та програмі для обміну миттєвими повідомленнями Pidgin також є підтримка перевірки орфографії, здійснювана засобами модуля GNU Aspell. В операційній системі Mac OS X перевірка орфографії здійснюється на рівні системи, практично в усіх вбудованих програмах і навіть у програмах сторонніх виробників. Існують також онлайн системи перевірки орфографії українських вебсайтів.

Функціональність

Перші спелчекери слугували радше для перевірки, ніж для виправлення: вони не пропонували варіантів замін для неправильно написаних слів. Вони вміли шукати друкарські помилки, але не вміли — логічні й фонетичні. Перед розробниками постало складне питання: як для неправильно написаного слова відібрати із множини можливих виправлень найімовірніші. Потрібно було виявляти структуру слова і застосовувати до неї алгоритми відповідності певним шаблонам.

Щодо розміру словника «дозволених», тобто граматично правильно написаних слів, у теорії здається логічним принцип «що більше, то краще»: що більше «правильних» слів, то менше правильно написаних слів система позначить як помилкові. На практиці ж виявилося, що оптимальним розміром словника (для англійської мови) є 90 000 слів. Якщо словник більше, система починала пропускати неправильно написані слова, оскільки ці «неправильні» слова часто виявлялися реально існуючими у специфічних областях. Наприклад, на основі аналізу корпусу мови виявилося, що слово BAHT — це, найімовірніше, неправильно написане слово BATH або BAT, і дуже рідко йдеться саме про валюту Таїланду — тайський бат (THAI BATH). Тобто, було б доречніше, щоб та невелика кількість людей, які пишуть про тайські бати, стикнулася з помилковими спрацьовуваннями, ніж щоб велика кількість людей, які допустили помилку в словах BATH та BAT, проґавили свої помилки.

Перші системи перевірки орфограми в MS-DOS використовувалися переважно в режимі перевірки текстових фрагментів. Підготувавши документ, користувач сканував текст, шукаючи помилки правопису. Пізніше в таких пакетах програм, як CoAuthor компанії Oracle, який недовго пробув на ринку, додали пакетну обробку. Це дало користувачеві змогу переглянути результати після того, як документ був оброблений, і виправити лише ті слова, які вважалися написаними помилково. Коли об'єм пам'яті та потужність процесорів збільшилися, перевірку правопису почали виконувати у фоновому режимі в інтерактивний спосіб, як-от у програмі Spellbound, випущеній в 1987 році, та Microsoft Word, починаючи з версії Word 95.

Останніми роками системи перевірки орфографії стають дедалі досконалішими; деякі здатні розпізнавати й прості граматичні помилки. Однак навіть у кращих випадках вони рідко вловлюють усі помилки в тексті (наприклад, помилки у словах-омофонах) і позначать неологізми та іноземні слова як написані неправильно. Утім, системи перевірки орфографії можна вважати різновидом допомоги для писання іноземною мовою, завдяки якому учні, які не є носіями мови, отримують змогу виявляти й виправляти неправильно написані слова цільовою мовою.

Перевірка орфографії для мов, відмінних від англійської

Англійська мова примітна тим, що більшість слів, які використовуються в офіційному письмі, мають єдине написання, яке можна знайти у звичайному словнику (за винятком хіба що деяких жаргонізмів і модифікованих слів). У багатьох інших мовах слова часто поєднуються, утворюючи нові слова. Приміром, у німецькій мові складні іменники часто утворюються з інших існуючих іменників.

У деяких системах писемносіт не вдається чітко відокремити одне слово від іншого. Така особливість вимагає додаткових алгоритмів розділення слів.

Кожна з цих проблем створює унікальні виклики для неангломовних систем перевірки орфографії.

Контекстно-чутливі системи перевірки орфографії

Проводилися дослідження з розробки алгоритмів, здатних розпізнавати неправильно написане слово на основі контексту — інших слів у тому ж реченні або абзаці. Такі алгоритми дають змогу не лише виловлювати слова з помилками, а й пом'якшують негативний ефект від розширення словників, дозволяючи розпізнавати більшу кількість слів. Наприклад, слово baht не розпізнаватиметься як неправильно написане bath, якщо в тому ж абзаці зустрічаєтються слова на кшталт Thai or Thailand.

Найпоширенішим прикладом помилок, виявлених такою системою, є помилки з омофонами, як-от виділені жирним шрифтом слова в такому реченні:

Their coming too sea if its reel.

Найуспішнішим алгоритмом на сьогоднішній день є «Алгоритм виправлення орфографії на основі Winnow»[9] Ендрю Голдінга (Andrew Golding) та Дена Рота (Dan Roth), опублікований у 1999 році, який здатен розпізнавати близько 96 % контекстно-залежних орфографічних помилок, на додаток до звичайних несловесних орфографічних помилок.

Контекстно-залежна перевірка орфографії з'явилася в Microsoft Office 2007[10], а також застосовувалася в неіснуючому нині Google Wave[11].

Існують також системи перевірки граматики, які намагаються знаходити проблеми з граматикою, що виходять за рамки орфографічних помилок, зокрема неправильний вибір слів.

Див. також

Примітки

  1. U.S. Patent 6618697, Method for rule-based correction of spelling and grammar errors
  2. de Amorim, R.C.; Zampieri, M. (2013) Effective Spell Checking Methods Using Clustering Algorithms. [Архівовано 17 серпня 2017 у Wayback Machine.] Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Hissar, Bulgaria. p. 172—178.
  3. Zampieri, M.; de Amorim, R.C. (2014) Between Sound and Spelling: Combining Phonetics and Clustering Algorithms to Improve Target Word Recovery. Proceedings of the 9th International Conference on Natural Language Processing (PolTAL). Lecture Notes in Computer Science (LNCS). Springer. p. 438—449.
  4. Earnest, Les. The First Three Spelling Checkers (PDF). Stanford University. Архів оригіналу (PDF) за 22 жовтня 2012. Процитовано 10 жовтня 2011. [Архівовано 2012-10-22 у Wayback Machine.]
  5. Peterson, James (Dec 1980). Computer Programs for Detecting and Correcting Spelling Errors (PDF). Процитовано 18 лютого 2011.
  6. Earnest, Les. Visible Legacies for Y3K (PDF). Архів оригіналу (PDF) за 20 липня 2011. Процитовано 18 лютого 2011. [Архівовано 2011-07-20 у Wayback Machine.]
  7. а б Georgetown U Faculty & Staff: The Center for Language, Education & Development. Архів оригіналу за 5 лютого 2009. Процитовано 18 грудня 2008., citation: «Maria Mariani… was one of a group of six linguists from Georgetown University who developed the first spell-check system for the IBM corporation.»
  8. Advertisement (November 1982). The Spelling Bee Is Over. PC Magazine. с. 165. Процитовано 21 October 2013.
  9. Golding, Andrew R.; Roth, Dan (1999). Journal Article. Machine Learning. SpringerLink. 34: 107—130. doi:10.1023/A:1007545901558.
  10. Walt Mossberg (4 січня 2007). Review. Wall Street Journal. Процитовано 24 вересня 2010.
  11. Google Operating System. googlesystem.blogspot.com. 29 травня 2009. Процитовано 25 вересня 2010. Google's Context-Sensitive Spell Checker. 29 травня 2009. Процитовано 25 вересня 2010.

Read other articles:

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada November 2022. Dra.Emilia Lun Hadaitullah Anggota DPR RIMasa jabatan1992–1997Anggota DPR RIMasa jabatan1987–1992Anggota DPR RIMasa jabatan1982–1987Anggota DPR RI (PAW)Masa jabatan1977–1982 Informasi pribadiLahir(1935-05-29)29 Mei 1935Tering[1]Meningg...

 

Indian association football club based in Kolkata Football clubUnitedFull nameUnited Sports ClubNickname(s)The PeafowlsShort nameUSCFounded1927; 97 years ago (1927) (as EverReady Association)GroundKalyani StadiumCapacity20,000ChairmanNabab BhattacharyaHead coachSteve HerbotsLeagueI-League 2Calcutta Premier Division Home colours Away colours Third colours United Sports Club (formerly known as both Prayag United and Chirag United)[1][2][3][4] is...

 

Chris EvertEvert in the 1980s[1]Nama lengkapChristine Marie EvertKebangsaan Amerika SerikatTempat tinggalBoca Raton, FloridaLahir21 Desember 1954 (umur 69)Fort Lauderdale, FloridaTinggi168 cm (5 ft 6 in)Memulai pro1972Pensiun5 September 1989Tipe pemainTangan kanan (two-handed backhand)PelatihJimmy EvertDennis Ralston[2]Total hadiah$8,895,195Int. Tennis HoF1995 (member page)TunggalRekor (M–K)1309–146 (90.0%)Gelar157Peringkat tertinggiNo. 1 (3 Novemb...

Kayu jabukKayu jabukNama lainKue Kayu lapuk, Kue Batang jabuk, Kue Batang lapukTempat asalIndonesia dan MalaysiaDaerahKalimantan Selatan, Kepulauan RiauSunting kotak info • L • BBantuan penggunaan templat ini Kayu jabuk adalah salah satu kue kering yang berasal dari Indonesia, Brunei Darussalam dan Malaysia. Sesuai dengan namanya, kue ini memiliki teksturnya renyah dan mudah jabuk atau rapuh. Kue kayu jabuk memiliki cita rasa manis dan gurih yang berasal dari taburan gula halus ...

 

The PlayhouseThe PlayhouseLocation within GloucestershireCoordinates51°53′48″N 2°04′27″W / 51.896805°N 2.074265°W / 51.896805; -2.074265TypeTheatreCapacity186Opened1945Websitecheltplayhouse.org.uk/CheltPlayhouse.dll/Home Cheltenham Playhouse is a community theatre in Cheltenham, England, UK. It opened in 1945 as the Civic Playhouse and was run by the Corporation of Cheltenham; it was taken over by volunteers in 1958 who continue to run the operation as a r...

 

Human settlement in ScotlandDounbyThe Smithfield Hotel stands at the crossroads where the A986 and B9057 meetDounbyLocation within OrkneyOS grid referenceHY290207Civil parish Council areaOrkney IslandsLieutenancy areaOrkney IslandsCountryScotlandSovereign stateUnited KingdomPost townORKNEYPostcode districtKW17Dialling code01856PoliceScotlandFireScottishAmbulanceScottish UK ParliamentOrkney and ShetlandScottish ParliamentOrkney List of places UK Sc...

Pour l’article homonyme, voir Hofburg (Innsbruck). HofburgLa façade de la Neue Burg sur la Heldenplatz.PrésentationType PalaisDestination initiale Résidence d'hiver des HabsbourgDestination actuelle Musée, lieu d'expositionSiège de la présidence fédérale d'AutricheFondation 1279Style Nombreux styles architecturaux au fil des sièclesArchitecte Filippo Luchese (d)Début de construction 1220Ouverture 1913Site web www.hofburg-wien.atLocalisationPays AutricheCommune VienneCoordonnées ...

 

Questa voce o sezione sull'argomento banche non cita le fonti necessarie o quelle presenti sono insufficienti. Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili secondo le linee guida sull'uso delle fonti. ING Bank N.V.Logo Stato Paesi Bassi Fondazione1991 a Amsterdam Fondata daNMB Postbank Groep, Nationale Nederlanden Sede principaleAmsterdam GruppoING Persone chiave Steven van Rijswijk (CEO) Roel Louwhoff (COO) Alessio Miranda (Country Manager Italia) Set...

 

追晉陸軍二級上將趙家驤將軍个人资料出生1910年 大清河南省衛輝府汲縣逝世1958年8月23日(1958歲—08—23)(47—48歲) † 中華民國福建省金門縣国籍 中華民國政党 中國國民黨获奖 青天白日勳章(追贈)军事背景效忠 中華民國服役 國民革命軍 中華民國陸軍服役时间1924年-1958年军衔 二級上將 (追晉)部队四十七師指挥東北剿匪總司令部參謀長陸軍�...

US Supreme Court justice from 1851 to 1857 Justice Curtis redirects here. For other uses, see Justice Curtis (disambiguation). Benjamin Robbins CurtisAssociate Justice of the Supreme Court of the United StatesIn officeOctober 10, 1851 – September 30, 1857Nominated byMillard FillmorePreceded byLevi WoodburySucceeded byNathan Clifford Personal detailsBorn(1809-11-04)November 4, 1809Watertown, Massachusetts, U.S.DiedSeptember 15, 1874(1874-09-15) (aged 64)Newport, Rhode Island, U...

 

This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article or section possibly contains synthesis of material which does not verifiably mention or relate to the main topic. Relevant discussion may be found on the talk page. (January 2008) (Learn how and when to remove this message) This article has an unclear citation style. The references used may be made clearer with a different or co...

 

Sex and the CityPembuatDarren StarPemeranSarah Jessica Parker Kristin Davis Cynthia Nixon Kim CattrallNegara asal Amerika SerikatJmlh. musim6Jmlh. episode94 (daftar episode)ProduksiProduser eksekutifMichael Patrick KingDarren StarSarah Jessica ParkerLokasi produksiNew York City, New YorkPengaturan kameraSingle camerasexDurasi29 menitRilis asliJaringanHBOFormat gambar480i SDTVFormat audioStereoRilis6 Juni 1998 –22 Februari 2004 Sex and the City merupakan sebuah acara televisi yang...

Terme BerzieriFacciataLocalizzazioneStato Italia RegioneEmilia-Romagna LocalitàSalsomaggiore Terme Indirizzopiazza Berzieri Coordinate44°48′57.37″N 9°58′45.54″E / 44.815937°N 9.979317°E44.815937; 9.979317Coordinate: 44°48′57.37″N 9°58′45.54″E / 44.815937°N 9.979317°E44.815937; 9.979317 Informazioni generaliCondizioniIn uso Costruzione1914 - 1923 Inaugurazione27 maggio 1923 Stilemodernista e déco Usostabilimento termale Realizzazio...

 

Phase of matter This article may be too technical for most readers to understand. Please help improve it to make it understandable to non-experts, without removing the technical details. (December 2012) (Learn how and when to remove this message) In condensed matter physics, a quantum spin liquid is a phase of matter that can be formed by interacting quantum spins in certain magnetic materials. Quantum spin liquids (QSL) are generally characterized by their long-range quantum entanglement, fr...

 

Katedral Metropolitan Santo David di CardiffCardiff Metropolitan Cathedral of St David51°28′51″N 3°10′26″W / 51.4809°N 3.1740°W / 51.4809; -3.1740Koordinat: 51°28′51″N 3°10′26″W / 51.4809°N 3.1740°W / 51.4809; -3.1740Referensi grid OS318569_176430LokasiCardiffNegaraWalesDenominasiGereja Katolik RomaSitus webcardiffcathedral.org.ukSejarahTanggal konsekrasi1842ArsitekturDibangun1839–1842SpesifikasiJumlah puncak menara1Adm...

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Oktober 2022. Jabon putih adalah salah satu jenis tanaman endemik Asia Selatan dan Asia Tenggara.[1] Tekstur kayu Jabon putih berwarna putih kekuningan dan sangat halus serta pola seratnya tidak terlihat. Pengerjaan kayu Jabon putih lebih mudah dilakukan kar...

 

American astronomer (1863–1941) Annie Jump CannonCannon in 1922Born(1863-12-11)December 11, 1863Dover, Delaware, U.S.[1]DiedApril 13, 1941(1941-04-13) (aged 77)Cambridge, Massachusetts, U.S.Alma materWellesley College, Wilmington Conference Academy, Radcliffe CollegeKnown forStellar classificationAwardsHenry Draper Medal (1931)Scientific careerFieldsAstronomyInstitutionsHarvard College Observatory Annie Jump Cannon (/ˈkænən/; December 11, 1863 – April 13, 1941) w...

 

Defunct flying squadron of the Royal Air Force No. V (AC) Squadron RAFSquadron badgeActive26 July 1913 – 1 April 1918 (RFC) 1 April 1918 – 20 January 1920 (RAF) 1 April 1920 – 1 August 1947 11 February 1949 – 25 September 1951 1 March 1952 – 12 October 1957 20 January 1959 – 7 October 1965 8 October 1965 – 30 September 2002 1 April 2004 – 31 March 2021Country United KingdomBranch Royal Air ForceTypeFlying squadronMotto(s)Frangas non flectas(Latin for 'Thou mayst break, but...

Army School of Bagpipe Music and Highland DrummingActive1910–PresentCountry United KingdomBranch British ArmyTypeTrainingRoleBagpipe Music and Highland DrummingGarrison/HQInchdrewer House, EdinburghMilitary unit The Army School of Bagpipe Music and Highland Drumming is a British Army training establishment that provides instruction on Scottish pipe band music to military pipers and drummers. History Founded in 1910 as the Army School of Piping (later renamed the Army School of Ba...

 

Homología de varios huesos (mostrados en distintos colores) de las extremidades delanteras de cuatro vertebrados. Carl Gegenbaur: Homología entre miembros anteriores (1870). En el estudio comparativo de los seres vivos, la homología es la relación que existe entre dos partes orgánicas diferentes de dos organismos distintos cuando sus determinantes genéticos tienen el mismo origen evolutivo. Existe homología entre órganos dados de dos especies diferentes, cuando ambos derivan del órga...