العمارة العامة لهندسة النصوص

العمارة العامة لهندسة النصوص أو GATE هي مجموعة أدوات جافا تم تطويرها في جامعة شيفيلد بداية من عام 1995 م لـمعالجة اللغات الطبيعية، وتستخدم الآن من قبل مجتمع واسع من العلماء، الشركات، المعلمين والطلاب للقيام بالعديد من مهام معالجة اللغات الطبيعية، بما في ذلك استخراج المعلومات بلغات متعددة.[1]

تمت مقارنة GATE بـ NLTK ،R و RapidMiner .[2] بالإضافة إلى استخدامه على نطاق واسع، يشكل GATE أساس لمنصة KIM الدلالية.[3]

شارك مجتمع GATE في العديد من المشاريع البحثية الأوروبية بما في ذلك TAO ،SEKT ،NeOn ،Media-Campaign ،Musing ، Service-Finder ،LIRICS ،KnowledgeWeb، بالإضافة إلى العديد من المشاريع الأخرى.

في 28 مايو 2011 ، بلغ عدد الأشخاص على القائمة البريدية لمستخدمي gate ما يقارب 881 شخصًا، وتم تسجيل 111,932 تنزيلًا من SourceForge منذ نقل المشروع إليه في 2005.[4] تلقت الورقة البحثية GATE: A framework and graphical development environment for robust NLP tools and applications" [5] أكثر من 2000 استشهاد منذ نشرها (وفقًا لـ Google Scholar). تشمل الكتب التي تغطي استخدام GATE ، بالإضافة إلى دليل مستخدم GATE ، [6] "Building Search Applications: Lucene, LingPipe, and Gate" بقلم Manu Konchady [7] و "Introduction to Linguistic Annotation and Text Analytics" ، بواسطة Graham Wilcock.[8]

المميزات

يتضمن GATE نظامًا لاستخراج المعلومات يسمى ANNIE (نظام استخراج المعلومات الجديد تقريبًا) وهو عبارة عن مجموعة من الوحدات التي تشتمل على محلل الرموز، ومعجم، ومقسم جمل، ومصنف لأجزاء النص، ومميز الكيانات، ومكتشف العلامات المرجعية. يمكن استخدام ANNIE كما هو لـاستخراج المعلومات الأساسية أو لتوفير نقطة انطلاق لمهام أكثر تحديدًا.

تشمل اللغات التي يمكن معالجتها من خلال GATE الإنجليزية ، الصينية، العربية، البلغارية، الفرنسية، الألمانية، الهندية، الإيطالية، السيبيونو، الرومانية، الروسية، الدنماركية.

ويشمل GATE على إضافات لـ تعلم الآلة مثل WEKA ، RASP، MAXENT، SVM Light ، فضلا عن LIBSVM. كما يشمل إضافات لإدارة الانتولوجي مثل وردنت، لاستعلام محركات البحث مثل جوجل أو ياهو، لـتصنيف أقسام الكلام مثل Brill أو TreeTagger، وغير ذلك الكثير. تتوفر أيضًا العديد من الإضافات الخارجية للتعامل مع التغريدات على سبيل المثال.[9]

يقبل GATE المدخلات بإمتدادات مختلفة، مثل TXT وHTML وXML و Doc و PDF و Java Serial و PostgreSQL و Lucene وقواعد بيانات Oracle بمساعدة تخزين RDBMS عبر JDBC .

تستخدم قواعد JAPE داخل GATE لمعالجة التعليقات على النصوص. طريقة استخدام هذه القواعد موضحة في دليل مستخدم GATE.[10] كما تمت كتابة دروس بواسطة Press Association Images.[11]

مطورو GATE

النافذة الرئيسية لـ GATE 5

تُظهر لقطة الشاشة عارض المستندات المستخدم لعرض مستند والتعليقات عليه. القائمة اليمنى هي قائمة مجموعات التعليقات، والجدول السفلي هو قائمة التعليقات. في الوسط نجذ نافذة محرر التعليقات. تظهر التعليقات التوضيحية المختارة من القائمة اليمنى باللون الوردي على المستند.

GATE Mímir

يولد GATE كميات هائلة من المعلومات تشمل على: نصوص باللغات الطبيعية، تعليقات دلالية ومعلومات أنتولوجية. في بعض الأحيان، تكون البيانات هي المنتج النهائي للتطبيق ولكن غالبًا ما تكون المعلومات أكثر فائدة إذا أمكن البحث عنها بكفاءة. يوفر GATE Mimir الدعم للفهرسة والبحث عن المعلومات اللغوية والدلالية التي تم إنشاؤها بواسطة تطبيقات GATE. كما يدعم الاستعلام عن المعلومات باستخدام النص، المعلومات الهيكلية وإستعلامات سباركل .

انظر أيضًا

  • هندسة إدارة المعلومات غير المهيكلة (UIMA)
  • OpenNLP
  • Pheme ، مشروع كبير في الاتحاد الأوروبي تديره مجموعة GATE للكشف المبكر عن المعلومات الخاطئة في وسائل التواصل الاجتماعي

المراجع

  1. ^ Languages mentioned on http://gate.ac.uk/gate/plugins/ include Arabic, Bulgarian, Cebuano, Chinese, French, German, Hindi, Italian, Romanian and Russian. نسخة محفوظة 15 ديسمبر 2020 على موقع واي باك مشين.
  2. ^ "Open Source Text Analytics by Seth Grimes - BeyeNETWORK". مؤرشف من الأصل في 2018-06-25. اطلع عليه بتاريخ 2016-12-17.
  3. ^ Popov، Borislav؛ Kiryakov، Atanas؛ Ognyanoff، Damyan؛ Manov، Dimitar؛ Kirilov، Angel (1 سبتمبر 2004). "KIM – a semantic platform for information extraction and retrieval". Natural Language Engineering. ج. 10 ع. 3–4: 375–392. DOI:10.1017/S135132490400347X. مؤرشف من الأصل في 2016-12-20. اطلع عليه بتاريخ 2016-12-17 – عبر Cambridge Core.
  4. ^ "GATE". مؤرشف من الأصل في 2019-09-18. اطلع عليه بتاريخ 2016-12-17.
  5. ^ "GATE: A framework and graphical development environment for robust NLP tools and applications", by Cunningham H., Maynard D.  [لغات أخرى]‏, Bontcheva K. and Tablan V. (In proc. of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002) نسخة محفوظة 15 ديسمبر 2020 على موقع واي باك مشين.
  6. ^ "GATE.ac.uk - sale/tao/split.html". مؤرشف من الأصل في 2021-01-03. اطلع عليه بتاريخ 2016-12-17.
  7. ^ Konchady, Manu.
  8. ^ Wilcock، Graham (1 يناير 2009). Introduction to Linguistic Annotation and Text Analytics. Morgan & Claypool Publishers. ISBN:9781598297386. مؤرشف من الأصل في 2020-12-15. اطلع عليه بتاريخ 2016-12-17 – عبر Google Books.
  9. ^ "GATE.ac.uk - wiki/twitie.html". مؤرشف من الأصل في 2020-05-12. اطلع عليه بتاريخ 2016-12-17.
  10. ^ "GATE.ac.uk - sale/tao/splitch8.html". مؤرشف من الأصل في 2020-12-15. اطلع عليه بتاريخ 2016-12-17.
  11. ^ Thakker، Dhavalkumar (17 يوليو 2009). "Realizing Semantic Web: JAPE grammar tutorial". مؤرشف من الأصل في 2020-10-25. اطلع عليه بتاريخ 2016-12-17.

روابط خارجية