Chart-Parser

Ein Chart-Parser, auch Chartparser geschrieben, ist als Computerprogramm ein Parser für kontextfreie Grammatiken, der sich Teilanalysen (Teilkonstituenten) in einer Tabelle (Chart) merkt. Diese Zwischenspeicherung und Wiederverwendung von Teilanalysen verbessert die Effizienz erheblich und macht das Parsen von kontextfreien Sprachen zu einem in polynomieller Zeit lösbaren Problem.

Chartparsing ist ein Überbegriff für alle Parsverfahren, die eine solche Tabelle benutzen. Nach dem verwendeten Parsalgorithmus unterscheidet man verschiedene Subtypen:

  • Top-Down-Chart-Parser (Earley-Parser)
  • Left-Corner-Chart-Parser
  • Insel-Chart-Parser

Chart

Der Chart ist eine n x n-Matrix, wobei n die Länge des zu analysierenden Satzes ist. Die Zwischenräume zwischen den Wörtern dieses Satzes sind von 0 bis n durchnummeriert. In den einzelnen Chartzellen befinden sich sog. gepunktete Regeln (dotted rules, vgl. LR-Parser).

Formal lässt sich ein Chart als eine Menge von 3-Tupeln < i,j, A → α. β > beschreiben, wobei gilt:

  • i (0 ≤ i ≤ n) ist die Position, ab der eine Konstituente der Kategorie A erwartet wird.
  • j (>= i) ist Position, bis zu der α erkannt ist.
  • A → α . β ist eine gepunktete Regel, von der β noch erkannt werden muss; β heißt daher auch der offene Teil dieser Regel, α ist der geschlossene Teil. α und β bestehen aus einer beliebigen Folge von Terminal- und Nichtterminalsymbolen der kontextfreien Grammatik. α und/oder β können auch leer, d. h. gleich ε, sein.

Beispiel

Ein einzelner Charteintrag kann beispielsweise so aussehen:

< 2, 5, VP → V NP . NP >

Dies bedeutet:

  • ab der Satzposition 2 wird eine Verbalphrase (VP) erwartet.
  • die Analyse der VP ist bis zur Satzposition 5 vorangeschritten. Zwischen den Positionen 2 und 5 befindet sich der geschlossene Teil V NP der VP-Regel.
  • eine weitere NP wird ab der Position 5 erwartet, falls die betreffende VP-Regel überhaupt angewendet werden kann.

Parseroperationen

Chart-Parser verwenden während der Analyse im Normalfall drei verschiedene Operationen:

  1. Hüllenbildung (predict)
  2. Integration eines Terminalsymbols (scan)
  3. Kombination zweier Teilkonstituenten (complete)

Hüllenbildung

Ist < i, j, A → α . B β > ∈ Chart und

ist B → γ eine Regel der Grammatik,

dann füge

< j, j, B → . γ >

in den Chart ein, falls dieses Tupel noch nicht vorhanden ist.

Ab der Satzposition j wird also eine Konstituente der Kategorie B erwartet. Zur Expansion von B existiert eine Regel mit rechter Seite γ. Man generiert also eine neue Erwartung, γ beginnend ab der Position j zu finden.

Integration eines Terminalsymbols

Ist < i, j, A → α . w β > ∈ Chart (w ist ein Terminalsymbol bzw. Präterminal) und

ist w das j-te Wort des zu analysierenden Satzes s = w0w1 ... wn,

dann füge

< i, j+1, A → α w . β >

in den Chart ein, falls dieses Tupel noch nicht vorhanden ist.

Die Analyse ist somit so weit vorangeschritten, dass nach der Position j ein Terminalsymbol bzw. eine Wortkategorie (wie Verb) erwartet wird. Ist das j-te Wort tatsächlich gleich w (bzw. von der Wortart w), dann kann dieses Wort in die Analyse integriert werden. Der Punkt wird dann über das erkannte Wort verschoben.

Kombination zweier Teilkonstituenten

Hinweis: die hier beschriebene Kombinationsoperation ist diejenige des Top-Down-Chart-Parsers. Andere Methoden des Chart-Parsings gehen hier etwas anders vor.

Ist < i, j, A → α . B β > ∈ Chart (B ist ein Nichtterminalsymbol) und

ist auch < j, k, B → γ . > ∈ Chart

dann füge

< i, k, A → α B . β >

in den Chart ein, falls dieses Tupel noch nicht vorhanden ist.

Während der Analyse wurde eine vollständige Konstituente B zwischen den Positionen j und k gefunden. Im Chart existiert ein weiteres Tupel, das die Erwartung einer Konstituente B ab Position j reflektiert. Also können beide zu einem neuen Tupel kombiniert werden, welches die Positionen i bis k überdeckt. Der Punkt wurde dabei über die erkannte Konstituente B weitergesetzt.

Parsalgorithmus

Eingabe: Ein Satz s = w0w1 ... wn.

  1. Füge <0,0, S' → . S > in den Chart ein (S ist das Startsymbol der Grammatik, S' ein bisher nicht vorhandenes Nichtterminalsymbol).
  2. Wende die oben beschriebenen Schritte Predict, Scan und Complete solange an, bis keine weiteren Charteinträge mehr erzeugt werden können.

Ausgabe: yes, falls <0, n, S' → S . > ∈ Chart, andernfalls no.

Hinweis: Eigentlich ist das lediglich ein Erkennungsverfahren. Die tatsächlichen Satzstrukturen können aber mit etwas zusätzlicher Verwaltungsinformation aus dem Chart rekonstruiert werden (sog. shared packed parse forest).

Die Schritte unter 2. sind in ihrer Reihenfolge nicht geordnet. Ihre Reihenfolge kann mit Hilfe verschiedener Suchverfahren (Tiefensuche, Breitensuche, Bestensuche) systematisiert werden.

Beispiel

Gegeben sei eine kontextfreie Grammatik mit folgenden Produktionsregeln:

  1. SNP VP
  2. SS PP
  3. VPV NP
  4. NPNP PP
  5. NPArt N
  6. PPP NP

Lexikonregeln

  1. NP → Donald
  2. NP → Daisy
  3. V → beobachtet
  4. N → Fernglas
  5. P → mit
  6. Art → dem

Der zu parsende Satz sei „Donald beobachtet Daisy mit dem Fernglas“

Nr Eingefügter Charteintrag Begründung
1 < 0, 0, S' → . S > Initialisierung
2 < 0, 0, S → . NP VP > P 1, 1
3 < 0, 0, S → . S PP > P 1, 2
4 < 0, 0, NP → . NP PP > P 2, 4
5 < 0, 0, NP → . Art N > P 2, 5
6 < 0, 1, NP → Donald . > S 2, L1
7 < 0, 1, S → NP . VP > C 2, 6
8 < 0, 1, NP → NP . PP > C 4,6
9 < 1, 1, VP → . V NP > P 7, 3
10 < 1, 1, PP → . P NP > P 8, 6
11 < 1, 2, V → beobachtet . > S 9, L3
12 < 1, 2, VP → V . NP > C, 9, 11
13 < 2, 2, NP → . NP PP > P 12, 4
14 < 2, 2, NP → . Art N > P 12, 5
15 < 2, 3, NP → Daisy . > S 12, L2
16 < 1, 3, VP → V NP . > C 12, 15
17 < 2, 3, NP → NP . PP > C 13, 15
18 < 0, 3, S → NP VP . > C 7, 16
19 < 3, 3, PP → . P NP > P 17, 6
20 < 3, 4, PP → mit . NP > S 19, L5
21 < 4, 4, NP → . NP PP > P 20, 4
22 < 4, 4, NP → . Art N > P 20, 5
23 < 4, 5, Art → dem . > S 22, L6
24 < 0, 3, S → S . PP > C 3, 18
25 < 4, 5, NP → Art . N > C 22, 23
26 < 5, 6, N → Fernglas . > S 25, L4
27 < 4, 6, NP → Art N . > C, 25, 26
28 < 3, 6, PP → mit NP . > C 20, 27
29 < 2, 6, NP → NP PP . > C 17, 28
30 < 1, 6, VP → V NP . > C, 12, 29
31 < 0, 6, S → NP VP . > C 7, 30
32 < 0, 6, S → S PP . > C 24, 28
33 < 0, 0, S' → S . > C 1,31

Erläuterung:

  • Pn,m=Hüllenbildung (predict) von Eintrag n mit Produktionsregel m,
  • Sn,Lm=Integration (scan) von der Hüllenbildung von Eintrag n mit Lexikonregel m,
  • Cn,m=Kombination (complete) der beiden Einträge n und m

Die Tatsache, dass Eintrag 33 auch durch Kombination von Eintrag 1 mit Eintrag 32 hätte gebildet werden können, zeigt, dass der Satz auf zwei Arten geparst werden kann (also zweideutig ist).

Erweiterungen

Tilgungsregeln

Tilgungsregeln sind u. a. Produktionsregeln der Form A → ε. Solche Regeln werden meist durch spezielle Verarbeitungsstrategien in den Chartparser integriert.

Vorausschau (Lookahead)

Das Erzeugen von überflüssigen Charteinträgen kann durch Integration von k Lookahead-Symbolen in die Charttupel verhindert werden. Diese Technik wird auch bei LR(k)-Parsern verwendet.

Separierte Grammatik

Zur Parsen von natürlichen Sprachen werden in der Regel sog. separierte Grammatiken verwendet, bei denen Lexikon und Phrasenstrukturregeln voneinander getrennt sind. Die rechten Regelseiten der kontextfreien Grammatik enthalten somit entweder nur Terminalsymbole (Alphabetsymbole) oder Nichtterminalsymbole. Dies macht den Predict- und Scan-Vorgang effizienter, da sie nur bis zur Ebene der Präterminale (Wortarten) voranschreiten.

Robustheit

Da die Eingaben des Parsers nicht immer im Sinne der Grammatik wohlgeformt sind (vgl. die Anwendung der Grammatikprüfung), ist es nützlich, den Parser robust, d. h. unanfällig für Grammatikfehler zu machen. Dies betrifft beispielsweise unbekannte Wörter, für die dann im Scan-Schritt alle wahrscheinlichen Wortarten eingetragen werden, oder fehlende oder überzählige Wörter, die mit speziellen Fehlerproduktionen erkannt werden.

Komplexität

O(n3) für beliebige kontextfreie Grammatiken, O(n2) für nicht-ambige kontextfreie Grammatiken.

Anwendungen

Chart-Parser werden meist im Zusammenhang mit der syntaktischen Analyse natürlicher Sprachen eingesetzt, da sie – neben dem Tomita-Parser – die beste Zeitkomplexität für beliebige (d. h. auch ambige) kontextfreie Grammatiken aufweisen. Beispielsweise verwendet die Grammatikprüfung von Microsoft Word einen Chartparser. Für Programmiersprachen, deren Syntax spezielle Eigenschaften aufweist, werden meist effizientere Parser wie LR(k)- bzw. LL(k)-Parser eingesetzt.

Siehe auch

Literatur

  • Jay Earley: An Efficient Context-Free Parsing Algorithm. In: Communications of the ACM 13, 1970, ISSN 0001-0782, S. 94–102.
  • Gerald Gazdar, Chris Mellish: Natural Language Processing in Prolog. An Introduction to computational Linguistics. Addison-Wesley, Wokingham u. a. 1989, ISBN 0-201-18053-7.

Read other articles:

Indian Land For Sale (Tanah Indian Dijual) oleh Departemen Dalam Negeri Amerika Serikat (1911) Kolonialisme pemukim terjadi ketika penjajah menyerbu dan menduduki wilayah untuk secara permanen menggantikan masyarakat yang ada dengan masyarakat penjajah.[1][2][3] Kolonialisme pemukim adalah bentuk dominasi eksogen yang biasanya diorganisir atau didukung oleh otoritas kekaisaran. Kolonialisme pemukim berbeda dengan kolonialisme eksploitasi, yang mencakup kebijakan ekonom...

 

U-505 yang dipajang di Museum of Science and Industry, Chicago Amerika Serikat U-Boot (dalam bahasa Inggris disebut sebagai U-boat) singkatan dari Unterseeboot adalah sebutan dari kapal selam Jerman yang menjadi lawan mematikan bagi kapal-kapal sekutu selama Perang Dunia I dan II. Pada PD II tercatat pertempuran laut antara U-Boot melawan kapal-kapal sekutu banyak terjadi di Samudra Atlantik. Dalam bahasa Jerman sendiri, istilah U-Boot berlaku pada semua kapal selam militer, tidak terbatas pa...

 

Symbole du système général harmonisé de classification et d'étiquetage des produits chimiques indiquant un produit chimique inflammable. Diagramme d'inflammabilité du méthane. Zone en orange : compositions inflammables. Ligne en bleu : mélanges méthane-air. Ligne en rouge : oxygène et méthane dans les proportions stœchiométriques de la combustion. Ligne en brun : 12 % d'oxygène. L'inflammabilité est la capacité d'un combustible à s'enflammer et à mai...

2010 single by EstelleFall in LoveSingle by Estellefrom the album All of Me Released1 August 2010GenrePost-discohip hopdance-popLength3:29LabelAtlanticSongwriter(s)Estelle, DJ Frank E, Nas, John Legend, Tiyon TC Mack, Le'Che Martin, Chad C-Note Roper, Amir WindomProducer(s)DJ Frank EEstelle singles chronology Freak (2010) Fall in Love (2010) Break My Heart (2011) Nas singles chronology As We Enter(2010) Fall in Love(2010) Ghetto Dreams(2011) DJ Frank E singles chronology Dang-A-L...

 

Province of Indonesia Province in IndonesiaWest Sulawesi Sulawesi BaratProvinceProvince of West Sulawesi Coat of armsMotto(s): Mellete Diatonganan (Mandar)Stick to the TruthLocation of West Sulawesi in IndonesiaOpenStreetMapCoordinates: 2°41′S 118°54′E / 2.683°S 118.900°E / -2.683; 118.900CountryIndonesiaEstablished22 September 2004[1]CapitalMamujuGovernment • BodyWest Sulawesi Provincial Government • Acting GovernorZud...

 

Voce principale: Calcio Como. Associazione Calcio ComoStagione 1956-1957Sport calcio Squadra Como Allenatore Hugo Lamanna Presidente Francesco Ambrosoli Serie B7º posto Maggiori presenzeCampionato: Bellini, Cuttica, Marsili (32) Miglior marcatoreCampionato: Baldini (11) 1955-1956 1957-1958 Si invita a seguire il modello di voce Questa pagina raccoglie le informazioni riguardanti l'Associazione Calcio Como nelle competizioni ufficiali della stagione 1956-1957. Indice 1 Stagione 2 Divise...

L'illusione anatra-coniglio. L'illusione anatra-coniglio (in inglese: duck-rabbit illusion) è una rappresentazione figurativa proposta nel 1892 dallo psicologo statunitense Joseph Jastrow, per illustrare una forma di illusione ottica[1]. La figura è composta da un'unica immagine che, alternativamente, può essere interpretata percettivamente come la testa di un'anatra (che guarda verso sinistra) oppure di un coniglio (che guarda verso destra). Questa illusione ottica è stata oggett...

 

County in Washington, United States County in WashingtonSpokane CountyCountySpokane County Courthouse FlagLogoLocation within the U.S. state of WashingtonWashington's location within the U.S.Coordinates: 47°37′N 117°24′W / 47.62°N 117.4°W / 47.62; -117.4Country United StatesState WashingtonFoundedJanuary 29, 1858 (created)January 19, 1864 (annexed to Stevens Co.)October 30, 1879 (separated from Stevens Co.)Named forSpokane peopleSeatSpokaneLargest cit...

 

Arena in Lincoln, Nebraska Pinnacle Bank ArenaPBAThe VaultPinnacle Bank Arena in September 2013Former namesWest Haymarket ArenaLocation400 Pinnacle Arena DriveLincoln, Nebraska, 68508 United States.Coordinates40°49′4″N 96°42′48″W / 40.81778°N 96.71333°W / 40.81778; -96.71333OwnerCity of LincolnOperatorASM GlobalExecutive suites36[1]Capacity15,500 (Basketball)[1]14,620 (End Stage)[1]16,130 (Center Stage)[1]15,290 (Volleyball)&...

Parka worn by some Inuit women Rear of amauti, bearded seal fur. Indigenous peoplesin Canada First Nations Inuit Métis History Timeline Paleo-Indians Pre-colonization Genetics Residential schools gravesites Indian hospitals Conflicts First Nations Inuit Truth and Reconciliation Commission Politics Indigenous law British Columbia Treaty Process Crown and Indigenous peoples Health Policy Idle No More Indian Act Indigenous and Northern Affairs Canada Land Back Land claims Land defender Land tit...

 

Town in New York, United States This article is about the town. For the village, see Colonie (village), New York. For the original municipality named Colonie, see Arbor Hill, Albany, New York. Town in New York, United StatesColonieTownTown of ColonieColonie Memorial Town Hall, Newtonville, NY SealEtymology: From Dutch Colonie meaning a colony, referring to the Colony of Rensselaerswyck surrounding AlbanyLocation in Albany County and the state of New York.Location of New York in the United Sta...

 

Pour les articles homonymes, voir Ixion (homonymie). (28978) Ixion Ixion prise par le télescope spatial Hubble en février 2006.Caractéristiques orbitalesÉpoque 22 octobre 2004 (JJ 2453300,5)Établi sur 172 observ. couvrant 11665 jours (U = 3) Demi-grand axe (a) 5,910 896 × 109 km(39,419 ua) Périhélie (q) 4,483 896 × 109 km(29,85 ua) Aphélie (Q) 7,337 896 × 109 km(48,98 ua) Excentricité (e) 0,242 Période de révolution (Prév) 90 401 ± 7 j(247,5 a) Vitess...

Boomerang FamilyNama lainHangul고령화 가족 Alih Aksara yang DisempurnakanGoryeonghwa GajokMcCune–ReischauerKoryŏnghwa Kachok SutradaraSong Hae-sungProduserNa Gyeong-chan Kim Dong-hyunSkenarioKim Hae-gon Kim Jae-hwan Song Hae-sungBerdasarkanAging Familyoleh Cheon Myeong-kwanPemeranPark Hae-il Yoon Je-moon Gong Hyo-jin Yoon Yeo-jeong Jin Ji-heePenata musikLee Jae-jinSinematograferHong Kyung-pyoPenyuntingPark Gok-jiPerusahaanproduksiInvent Stone Corp.DistributorCJ Entertainme...

 

Artikel ini bukan mengenai Zion. Xion, Chion, Khion, Chionitae (bahasa Persia Pertengahan: Xiyon; bahasa Avesta: Xiiaona; bahasa Sogdiana: Xwn; bahasa Pahlavi: Huna), Hunni, Yun, atau Xūn (獯), adalah sekelompok masyarakat berbahasa Iran[1] yang mendominasi wilayah Transoxania dan Baktria dahulu. Benua Asia tahun 400 M memperlihatkan Xion dan negara-negara di sekitarnya. Xion Hanzi: 狁 Alih aksara Mandarin - Hanyu Pinyin: Yǔn Bangsa Xion (Chionitae) pertama kali disebutkan bersama...

 

Principato di BrandeburgoHohenzollern Federico I Figli Giovanni Federico Alberto Achille Federico Elisabetta Cecilia Margherita Maddalena Dorotea Nipoti Barbara Rodolfo Elisabetta Dorotea Federico, figlio naturale Federico II Figli Dorotea Margherita Alberto III Figli Giovanni Ursula Elisabetta Federico Amalia Barbara Sibilla Sigismondo Elisabetta Anastasia Giovanni I Figli Gioacchino Alberto Anna Ursula Gioacchino I Figli Gioacchino Elisabetta Giovanni Anna Margherita Gioacchino II Figli Gi...

Swedish ice hockey player (1934–2021) Gert BloméGert Blomé in the early 1960sPersonal informationBorn(1934-08-28)28 August 1934Gävle, SwedenDied27 January 2021(2021-01-27) (aged 86)Göteborg, SwedenHeight1.72 m (5 ft 8 in)Weight80 kg (176 lb)SportSportIce hockeyClubGävle IK (1956–1961)Västra Frölunda IF (1961–1972)Retired1972 Medal record Representing  Sweden Olympic Games 1964 Innsbruck Team World Championships 1958 Oslo Team 1962 Colorado Sprin...

 

Artikel ini perlu diwikifikasi agar memenuhi standar kualitas Wikipedia. Anda dapat memberikan bantuan berupa penambahan pranala dalam, atau dengan merapikan tata letak dari artikel ini. Untuk keterangan lebih lanjut, klik [tampil] di bagian kanan. Mengganti markah HTML dengan markah wiki bila dimungkinkan. Tambahkan pranala wiki. Bila dirasa perlu, buatlah pautan ke artikel wiki lainnya dengan cara menambahkan [[ dan ]] pada kata yang bersangkutan (lihat WP:LINK untuk keterangan lebih lanjut...

 

この記事には参考文献や外部リンクの一覧が含まれていますが、脚注による参照が不十分であるため、情報源が依然不明確です。 適切な位置に脚注を追加して、記事の信頼性向上にご協力ください。(2018年6月) ハンガリー動乱 首都ブダペストを制圧するソ連軍 戦争:冷戦 年月日:1956年10月23日 - 11月10日 場所:ハンガリー人民共和国 結果:ソビエト連邦の勝利 革命�...

عائلة الأسد قبل عام 1994. الأمام: حافظ الأسد وزوجته أنيسة مخلوف. الخلف، من اليسار إلى اليمين: ماهر وبشار وباسل ومجد وبشرى الأسد عائلة الأسد حكمت سوريا منذ أن أصبح حافظ الأسد رئيسا لسورية في عام 1971، وأنشأ منظومة حكم استبدادية شمولية، في توليفة تشبه إلى حد كبير توليفة نظام الحزب...

 

كارليسل-روكليدج   الإحداثيات 34°06′52″N 86°07′27″W / 34.1144°N 86.1242°W / 34.1144; -86.1242   [1] تقسيم إداري  البلد الولايات المتحدة[2]  التقسيم الأعلى مقاطعة إيتوا  خصائص جغرافية  المساحة 41.942394 كيلومتر مربع41.942388 كيلومتر مربع (1 أبريل 2010)  ارتفاع 1073 قدم  ع...