Грамматический вывод

Индукция грамматики (или грамматический вывод[1]) — процедура машинного обучения, которая восстанавливает формальную грамматику языка на основе набора наблюдений (примеров) с известной принадлежностью этому языку. В результате процедуры строится модель наблюдаемых объектов в виде набора правил вывода или порождающих правил[англ.], конечного автомата или автомата другого вида. В более общем смысле, грамматический вывод — это одно из направлений машинного обучения, в котором пространство примеров состоит из дискретных комбинаторных объектов, таких как строки, деревья, графы.

Классы грамматик

Грамматический вывод часто фокусируется на задаче обучения конечных автоматов различного типа (см. статью Индукция регулярных языков[англ.] о деталях этих подходов), поскольку существуют эффективные алгоритмы решения этой задачи с 1980-х годов.

С начала 2000-х эти подходы были распространены на задачу вывода контекстно-свободных грамматик и более богатых формализмов, таких как множественных контекстно-свободных грамматик и параллельных множественных контекстно-свободных грамматик. Другие классы грамматик, для которых изучался грамматический вывод изучался и для других классов грамматик — контекстуальных грамматик и языков образцов (англ. pattern language).

Модели обучения

Простейший вид обучения — это когда алгоритм обучения получает лишь набор примеров, а иногда и контрпримеров, слов рассматриваемого языка. Существуют и другие модели обучения. Одной из часто изучаемых альтернатив является случай, когда обучающийся может спрашивать о принадлежности слова языку как, например, в модели точного обучения или минимальной адекватной модели учителя (англ. minimally adequate teacher model), которую ввела Англуин[2].

Методологии

Разработано большое разнообразие методов для грамматического вывода. Два классических источника — статьи Фу 1977 года[3] и 1982 года[4]. Дуда, Харт и Сторк[5] также посвятили небольшой раздел этой проблеме и цитируют много источников. Базовый метод проб и ошибок, который они представили, обсуждается ниже. Для подходов по выводу подклассов регулярных языков, в частности, см. Индукция регулярных языков[англ.]. Более свежей книгой является книга де ла Хигеры (2010)[1], в которой освещается теория грамматического вывода регулярных языков и конечных автоматов. Д’Улизия, Ферри и Грифони[6] дали обзор исследований по методам грамматического вывода для естественных языков.

Грамматический вывод методом проб и ошибок

Метод, предложенный в разделе 8.7 статьи Дауда, Харта и Сторка[5], предлагает последовательное угадывание грамматических правил и проверки их на положительных и отрицательных наблюдениях. Набор правил расширяется так, чтобы можно было сгенерировать каждый положительный пример, но если данный набор правил генерирует отрицательный пример, он должен быть отброшен. Этот конкретный подход можно охарактеризовать, как «проверка гипотезы», представляет собой некоторое подобие алгоритма Митчела версионного пространства[англ.]. Текст статьи Дауда, Харта и Сторка[5] даёт простой пример, который хорошо иллюстрирует процесс, но выполнимость такого неуправляемого подхода проб и ошибок для более крупных задач сомнительна.

Грамматический вывод с помощью генетических алгоритмов

Грамматический вывод с помощью эволюционных алгоритмов является процессом эволюции представления грамматики целевого языка посредством некоторого эволюционного процесса. Формальные грамматики могут легко быть представлены как деревья правил вывода, к которым могут быть применены эволюционные операторы. Алгоритмы этого вида берут начало от генетического программирования, начало которому положил Джон Коза. Другие ранние работы по простым формальным языкам использовали бинарное строковое представление генетических алгоритмов, но внутренняя иерархическая структура грамматик, лежащая в основе языка расширенной формы Бэкуса — Наура, делает деревья более гибким подходом.

Коза представил программы языка Lisp как деревья. Он сумел найти аналогии среди генетических операторов стандартным операторам на деревьях. Например, обмен поддеревьев эквивалентен соответствующему процессу генетического кроссинговера, где подстроки генетического кода преобразуются в индивидуальность следующего поколения. Годность измеряется путём оценки выходного кода функции[англ.] Lisp. Похожие аналогии между древесными структурами представлений языка Lisp и представлениями грамматик в виде деревьев, делают технику применения генетического программирования возможной для индукции грамматики.

В случае индукции грамматики, перенесение поддеревьев соответствует обмену правил вывода, что даёт возможность разбора фраз некоторого языка. Оператор годности для грамматики основывается на некоторой мере, как хорошо она разбирает некоторую группу предложений из целевого языка. В представлении грамматики в виде дерева терминальный символ производящего правила соответствует листу дерева. Его родительский узел соответствует нетерминальному символу (например, именной группе или глагольной группе) в наборе правил. В конце концов, корневой узел может соответствовать последовательности нетерминальных.

Грамматический вывод с помощью жадных алгоритмов

Подобно всем жадным алгоритмам, жадные алгоритмы грамматического вывода принимают в итеративной манере решение, которое кажется лучшим на данном этапе. Под решением обычно понимают создание нового правила, удаление существующего правила, выбор применяемого правила, слияние существующих правил. Поскольку понятия «этап» и «лучший» можно определить по-разному, создано несколько алгоритмов жадного грамматического вывода.

Следующие алгоритмы порождения контекстно-свободных грамматик принимают решение после каждого прочитанного символа:

Следующие алгоритмы генерации контекстно-свободных грамматик сначала читают всю последовательность символов, а затем начинают принимать решения:

Дистрибутивное обучение

Более свежие подходы основываются на дистрибутивном обучении[англ.]. Алгоритмы, использующие эти подходы, были применены к обучению контекстно-свободным грамматикам и слегка контекстно-зависимым языкам[англ.], и была доказана их корректность и эффективность для больших подклассов этих грамматик[7][8]

Англуин определила образец как «строку постоянных символов из алфавита Σ и переменных символов из непересекающегося множества». Язык таких образцов является набором всех непустых основных примеров, то есть всех строк, получающихся соответствующей заменой переменных символов непустыми строками постоянных символов[note 1]. Образец называется описательным для конечного набора строк, если его язык минимален (учитывая включение множеств) среди всех языков образцов, включая входное множество.

Англуин дала полиномиальный алгоритм для вычисления из заданного входного множества строк всех описательных образцов от одной переменной x[note 2]. С этой целью она строит автомат, представляющий все возможные относящиеся к делу образцы. Используя изощрённые аргументы о длинах слов, которые зависят только от единственной переменной x, число состояний может быть значительно сокращено[9].

Эрлебах с сотрудниками дал более эффективную версию алгоритма Англуин обучения образцам, а также параллельную версию алгоритма[10].

Аримура и др. показали, что класс языков, полученный из ограниченного объединения образцов, может быть обучен за полиномиальное время[11].

Теория образцов

Теория образцов[англ.] (англ. pattern theory), сформулированная Ульфом Гренандером[12], является математическим формализмом для описания знаний о мире в виде образцов. Отличием предложенного подхода к искусственному интеллекту от других состоит в том, что он начинается не с определения алгоритмов и машин для распознавания и классификации образов. Скорее, метод предписывает словарь для формулирования и переписывания образцов на точном языке.

Вдобавок к новому алгебраическому языку, новый статистический подход был введён с целью:

  • Распознавания скрытых переменных набора данных, используя данные реального мира, а не искусственных воздействий.
  • Определения априорного распределения скрытых переменных и модели для наблюдаемых переменных, которые образуют вершины графа, подобного графу Гиббса.
  • Изучения случайности и вариативности этих графов.
  • Создания базовых классы стохастических моделей, применяемых путём перечисления деформаций[неизвестный термин] образцов.
  • Осуществления синтеза (сэмплирования) с помощью моделей, а не только изучение сигналов

Приложения

Принципы индукции грамматики были применены у другим аспектам обработки естественного языка, и (среди многих других задач) к восприятию естественного языка[англ.][13], машинному переводу на основе примеров [14], анализе морфем и вывода происхождения названий мест. Индукция грамматики использовалась также для сжатия без потерь[15] и статистического вывода через принципы сообщений минимальной длины и описаний минимальной длины. Индукция грамматики использовалась также в некоторых вероятностных моделях освоения языка[англ.][16].

См. также

Примечания

  1. Язык образов с по меньшей мере двумя вхождениями той же самой переменной не является регулярным вследствие леммы о накачке.
  2. x может встретиться несколько раз, но не должно быть какой-либо другой переменной y

Литература

  • Colin de la Higuera. Grammatical Inference: Learning Automata and Grammars. — Cambridge: Cambridge University Press, 2010.
  • Ulf Grenander, Michael I. Miller. Pattern theory: from representation to inference. — Oxford university press, 2007. — ISBN 0–19–850570–1.
  • Alexander Clark, Rémi Eyraud. Polynomial Identification in the Limit of Substitutable Context-free Languages // Journal of Machine Learning Research. — 2007.
  • Ryo Yoshinaka. Efficient learning of multiple context-free languages with multidimensional substitutability from positive data // Theoretical Computer Science. — 2011. — Т. 412, вып. 19. — С. 1821—1831.
  • Scott Miller, Robert J. Bobrow, Richard M. Schwartz. Hidden understanding models of natural language // Proceedings of the 32nd annual meeting on Association for Computational Linguistics.. — Association for Computational Linguistics, 1994.
  • Ralf D. Brown. Transfer-rule induction for example-based translation // Proceedings of the MT Summit VIII Workshop on Example-Based Machine Translation. — 2001.
  • Neva Cherniavsky, Richard Ladner. Grammar-based compression of DNA sequences // DIMACS Working Group on The Burrows-Wheeler Transform. — 2004.
  • Nick Chater, Christopher D. Manning. Probabilistic models of language processing and acquisition // Trends in cognitive sciences. — 2006.
  • Dana Angluin. Learning Regular Sets from Queries and Counter-Examples // Information and Control. — 1987. — Т. 75. — С. 87–106. — doi:10.1016/0890-5401(87)90052-6. Архивировано 2 декабря 2013 года.
  • D’Ulizia A., Ferri F., Grifoni P. A Survey of Grammatical Inference Methods for Natural Language Learning // Artificial Intelligence Review. — 2011. — Т. 36, № 1.
  • Dana Angluin. Finding Patterns Common to a Set of Strings // Journal of Computer and System Sciences. — 1980. — Т. 21. — doi:10.1016/0022-0000(80)90041-0.
  • Erlebach T., Rossmanith P., Stadtherr H., Steger A., Zeugmann T. Learning One-Variable Pattern Languages Very Efficiently on Average, in Parallel, and by Asking Queries // Proc. 8th International Workshop on Algorithmic Learning Theory — ALT'97 / M. Li, A. Maruoka. — Springer, 1997. — Т. 1316. — (LNAI).
  • Hiroki Arimura, Takeshi Shinohara, Setsuko Otsuki. Finding Minimal Generalizations for Unions of Pattern Languages and Its Application to Inductive Inference from Positive Data // Proc. STACS 11. — Springer, 1994. — Т. 775. — (LNCS).
  • Richard O. Duda, Peter E. Hart, David G. Stork. Pattern Classification. — 2. — New York: John Wiley & Sons, 2001.
  • King Sun Fu. Syntactic Pattern Recognition and Applications. — Englewood Cliffs, NJ: Prentice-Hall, 1982.
  • King Sun Fu. Syntactic Pattern Recognition, Applications. — Berlin: Springer-Verlag, 1977.
  • James Jay Horning. A Study of Grammatical Inference. — Stanford: Stanford University Computer Science Department, 1969. — (Ph.D. Thesis).
  • E. Mark Gold. Language Identification in the Limit. — Information and Control, 1967. — Т. 10. — С. 447–474. Архивировано 28 августа 2016 года.

Read other articles:

English medium education school in behala This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Meghmala Roy Education Centre – news · newspapers · books · scholar · JSTOR (December 2023) (Learn how and when to remove this template message) Meghmala Roy Education CentreLocationRishi Bankim Road, Behala, West Beng...

 

360360 di acara tanda tangan CD Falling & Flying, Februari 2012Informasi latar belakangNama lahirMatthew James ColwellLahir12 Juli 1986 (umur 37)AsalMelbourne, AustraliaGenreHip hopPekerjaanRapperpenulis laguTahun aktif2006–sekarangLabelInertiaEMI Music AustraliaSoulmateForthwriteArtis terkaitForthwriteDiafrixJosh PykeGosslingN'faPezSitus web360music.com.au Matthew James Colwell (lahir 12 Juli 1986), atau yang dikenal dengan 360, adalah musisi hip hop asal Australia. Ia telah meril...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Gender musik – berita · surat kabar · buku · cendekiawan · JSTOR Artikel ini membutuhkan rujukan tambahan agar kualitasnya dapat dipastikan. Mohon bantu kami mengembangkan artikel ini dengan cara me...

Alejandro Garnacho Informasi pribadiNama lengkap Alejandro Garnacho[1]Tanggal lahir 1 Juli 2004 (umur 19)Tempat lahir Madrid, SpanyolTinggi 180 m (590 ft 7 in)[1]Posisi bermain WingerInformasi klubKlub saat ini Manchester UnitedNomor 17Karier junior2015–2020 Atlético Madrid2020–2022 Manchester UnitedKarier senior*Tahun Tim Tampil (Gol)2022– Manchester United 37 (11)Tim nasional‡2021 Spanyol U18 3 (0)2022 Argentina U20 5 (4)2023– Argentina 2 (0) ...

 

Oliver MasucciOliver Masucci, 2014Lahir6 Desember 1968 (umur 55)Stuttgart, Jerman BaratTahun aktif1992–sekarang Oliver Masucci (lahir 6 Desember 1968)[1] adalah seorang aktor asal Jerman. Ia dikenal karena perannya sebagai Adolf Hitler di adaptasi film sebuah novel satir berjudul Er Ist Wieder Da dan menggambarkan Ulrich Nielsen di seri aslinya produkso Netflix berjudul Dark.[2] Referensi ^ Masucci, Oliver. Oliver MASUCCI – personal Portfolio. www.masucci.actor....

 

Artikel utama: Ganjar Pranowo Ganjar Pranowo sebagai Gubernur Jawa Tengah Periode kedua (2018) Selama karier politiknya sebagai DPR RI dan Gubernur Jawa Tengah, Ganjar Pranowo telah menuai sejumlah kontroversi. Diantara yang paling menonjol dari sederet kontroversinya adalah isu pornografi dan Konflik Wadas. Kasus aliran dana BI Pada periode pertamanya di DPR, Ganjar menarik pemberitaan media karena namanya tercantum dalam salinan dokumen yang mengungkap aliran dana Bank Indonesia kepada para...

Men's team pursuit at the 2018 UEC European Track ChampionshipsVenueSir Chris Hoy Velodrome, GlasgowDate2–3 AugustCompetitors53 from 12 nationsWinning time3:55.401Medalists  Elia VivianiMichele ScartezziniFilippo GannaFrancesco LamonLiam Bertazzo   Italy Cyrille ThièryFrank PascheStefan BisseggerThéry SchirClaudio Imhof    Switzerland Ethan HayterKian EmadiCharlie TanfieldSteven BurkeOliver Wood   Great Britain...

 

Open-pit mining for the extraction of clay minerals This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Clay pit – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this message) Clay pit in Britain A clay pit is a quarry or mine for the extraction of clay, which is genera...

 

Boundary around the ancient city of Rome For the musical group, see Pomerium (early music group). Map of Rome in the time of the Roman Republic. The pomerium at that time is marked in pink; the Capitoline and Aventine are extra pomerium, 'beyond the wall', with their boundaries in yellow. The pomerium or pomoerium was a religious boundary around the city of Rome and cities controlled by Rome. In legal terms, Rome existed only within its pomerium; everything beyond it was simply territory (age...

Pour les articles homonymes, voir Giraud. Joël Giraud Joël Giraud en 2017. Fonctions Député français En fonction depuis le 21 juin 2022(1 an, 10 mois et 12 jours) Réélection 19 juin 2022 Circonscription 2e des Hautes-Alpes Législature XVe et XVIe (Cinquième République) Groupe politique RE Prédécesseur Claire Bouchet 18 juin 2002 – 26 août 2020(18 ans, 2 mois et 8 jours) Élection 16 juin 2002 Réélection 17 juin 200717 juin 201218 juin 2017 Circo...

 

Tualatin Hills Nature ParkAn aerial view of the park, 1998Location of the nature park in BeavertonTypePublicLocationBeaverton, Washington County, Oregon, United StatesCoordinates45°30′00″N 122°50′40″W / 45.5°N 122.8445°W / 45.5; -122.8445Area222 acres (90 hectares)Createdc. 1984Operated byTualatin Hills Park & Recreation DistrictStatusOpenWebsiteTualatin Hills Nature Park The office at the entrance to the park The Tualatin Hills Nature Park is a 22...

 

此條目可参照英語維基百科相應條目来扩充。 (2022年1月31日)若您熟悉来源语言和主题,请协助参考外语维基百科扩充条目。请勿直接提交机械翻译,也不要翻译不可靠、低品质内容。依版权协议,译文需在编辑摘要注明来源,或于讨论页顶部标记{{Translated page}}标签。 艾哈迈德·哈桑·贝克尔أحمد حسن البكر第4任伊拉克总统任期1968年7月17日—1979年7月16日副总统萨达姆·侯...

His Excellency赫瓦贾·纳齐姆丁爵士খাজা নাজিমুদ্দীন خواجہ ناظِمُ الدّین‬‎CIE, KCIE摄于1948年第2任巴基斯坦總理任期1951年10月17日—1953年4月17日君主佐治六世伊莉沙白二世总督古拉姆·穆罕默德前任利雅卡特·阿里·汗继任Mohammad Ali Bogra(英语:Mohammad Ali Bogra)第2任巴基斯坦總督(英语:Governor-General of Pakistan)任期1948年9月14日—1951年10月17日君�...

 

Pour les articles homonymes, voir Vert. Vert-Saint-Denis La mairie. Blason Logo Administration Pays France Région Île-de-France Département Seine-et-Marne Arrondissement Melun Intercommunalité Grand Paris Sud Seine Essonne Sénart Maire Mandat Éric Bareille 2020-2026 Code postal 77240 Code commune 77495 Démographie Gentilé Verdionysiens Populationmunicipale 8 822 hab. (2021 ) Densité 547 hab./km2 Géographie Coordonnées 48° 33′ 54″ nord, 2° 3...

 

Lambang Peta Data dasar Negara bagian: Baden-Württemberg Regierungsbezirk: Stuttgart Region: Heilbronn-Franken Ibu kota: Heilbronn Wilayah: 1.099,95 km² Penduduk: 329.331 (30 Juni 2005) Kepadatan penduduk: 299 jiwa/km² Pelat nomor kendaraan bermotor: HN Pembagian administratif: 46 Gemeinden Alamat kantor bupati: Lerchenstraße 4074072 Heilbronn Situs web resmi: www.landkreis-heilbronn.de Diarsipkan 2017-05-14 di Wayback Machine. Politik Bupati: Detlef Piepenburg Peta Heilbronn adalah sebu...

متطلبات الحصول على تأشيرة لمواطني ليسوتو، هي قيود الدخول الإدارية من قبل سلطات الدول الأخرى المفروضة على المواطنين الليسوتوين. يحصل الليسوتويون على تأشيرات مجانية أو تأشيرات عند الوصول لما لا يقل عن 69 بلداً وإقليماً حول العالم لحاملي جوازات السفر العادية. الدول والأقالي�...

 

Cet article est une ébauche concernant une localité italienne et la Sardaigne. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Cheremule Vue d'ensemble de la ville Administration Pays Italie Région Sardaigne  Province Sassari  Code postal 07040 Code ISTAT 090024 Code cadastral C600 Préfixe tel. 079 Démographie Population 469 hab. (31-12-2010[1]) Densité 19 hab./km2 Géographie Coordonn�...

 

South African Internet entrepreneur (born 1979) Vinny LinghamBorn (1979-02-07) 7 February 1979 (age 45)East London, Eastern Cape, South AfricaNationalityAmericanEducationUniversity of South AfricaGordon Institute of Business ScienceDamelinOccupationInternet entrepreneurTitleFounder and CEO of Civic (2015–present)Term2007 – PresentBoard member ofBitcoin Foundation (the foundation dissolved in 2015)AwardsWorld Economic Forum Young Global Leaders (2009), Top Young ICT Entrepreneur ...

For broader coverage of this topic, see Bar (landform). Elevated region of sediment in a river that has been deposited by the flow Point bar at a river meander: the Cirque de la Madeleine in the Gorges de l'Ardèche, France. Gravel bar in the American River, Washington, United States. A bar in a river is an elevated region of sediment (such as sand or gravel) that has been deposited by the flow. Types of bars include mid-channel bars (also called braid bars and common in braided rivers), poin...

 

Emir of Aleppo Sa'id al-DawlaEmir of AleppoReign991–1002PredecessorSa'd al-DawlaSuccessorLu'lu' al-KabirDiedJanuary 1002Aleppo, SyriaNamesAbu'l-Fada'il Sa'id al-DawlaDynastyHamdanidFatherSa'd al-DawlaReligionShia Islam Abu'l-Fada'il Sa'id al-Dawla (Arabic: أبو الفضائل سعيد الدولة) was the third Hamdanid ruler of the Emirate of Aleppo. He succeeded his father Sa'd al-Dawla in 991, but throughout his reign real power rested in the hands of Sa'd al-Dawla's former chamberlai...