تصنيف أقسام الكلام

في علم معالجة اللغات الطبيعية تصنيف أقسام الكلام هي عملية تعليم أو تدليل الكلمات في نص أو متن نصي إلى نوع محدد من أجزاء الكلام المقابل لهذه الكلمة مثل (يأكل: فعل)، بناء على تعريف الكلمة وسياقها.[1][2][3] كان هذا التصنيف يعمل يدويا وألان يتم في سياق اللغويات الحاسوبية باستخدام بعض الخوارزميات المتخصصة في ذلك. هناك نوعان من تصنيف أجزاء الكلام: الأول يعتمد على القواعد والثاني على الاحتمالات الإحصائية. في العملية تصنيف أجزاء الكلام ليست سهلة كما تبدو لأن هناك كثير من الغموض واللبس في كثير من الحالات. مثل لو افترضنا كلمة ذهب في العربية هل تعني الفعل ذهب أي غادر ام الاسم ذهب وهو نوع من المعادن؟ من السهل معرفة نوع الكلمة من سياق الكلام بالنسبة للإنسان لكن بالنسبة للكمبيوتر العملية أكثر تعقيد. أيضا من المشكلات التي تواجه تصنيف الأقسام إذا كان النص يحتوي على كلمتين بنهم شرطة تمثل ككلمة واحدة وغيرها من المشاكل العديدة.

المبدأ

يعد تمييز أقسام الكلام أصعب من مجرد التعامل مع قائمة من الكلمات ومن أقسام الكلام الخاصة بها، لأن بعض الكلمات يمكن أن تمثل أكثر من من قسم بحسب سياق الجملة. في اللغات الطبيعية (بخلاف العديد من اللغات الاصطناعية)، هناك نسبة كبيرة الغموض. على سبيل المثال كلمة لعب قد تأتي كمصدر أو قد تأتي كفعل ماضي:

توقفوا عن لعب الكرة الآن
لعب الفتى مع أصدقاءه

مجاميع العلامات

تدرس المناهج اللغوية والحاسوبية عادة 9 أقسام من الكلام باللغة الإنجليزية (العدد مقارب باللغة العربية): الاسم، الفعل، المادة، الصفة، حرف الجر، الضمير، الظرف، الاقتران، والتداخل. ومع ذلك، فهناك العديد من الفئات والفئات الفرعية. بالنسبة للأسماء، يمكن تمييز الجمع والمفرد، التملك، وأسماء الأعلام. وفي العديد من اللغات ومنها العربية، يتم تمييز الكلمات أيضًا وفق حالاتها " مثل الجنس، أو الأزمنة للأفعال وما إلى ذلك. في بعض أنظمة العلامات، قد يعطى للتصاريف المختلفة لجذر معين، علامات لأقسام كلام مختلفة، مما ينتج عدداً كبيراً من العلامات. على سبيل المثال، الرمز الشائع للأسماء المفردة (NN)، أو الرمز (NNS) للأسماء بصيغة الجمع، أو الرمز (NP) لأسماء العلم. غير أن كثيراً من أنظمة العلامات تستخدم عدداً أقل من العلامات وتتجاهل الفروق الدقيقة أو تقوم بنمذجتهم بشكل مستقل عن أقسام الكلام.[4]

قد تكون مجموعة العلامات الأكثر شيوعًا للغة الإنجليزية الأمريكية هي مجموعة علامات بين (Penn)، التي تم تطويرها في مشروع (Penn Treebank). وهي تشبه إلى حد كبير مجموعات علامات ما يُعرف بمتن براون (Brown Corpus) ومتن لوب (LOB Corpus) السابقين، على الرغم من أنها أصغر بكثير منهما. أما في أوروبا، فإن مجموعات العلامات الاوسع استخداماً هي المقدمة من ارشادات ايغلز (Eagles Guidelines) وتتضمن إصدارات بلغات متعددة. أما للغة العربية فإن أشهر مجموعة علامات هي ستانفورد، كما أن هناك مجاميع أخرى أيضاً[5].

اقترح بيتروف وزملاءه [6] مجموعة علامات «شاملة» للعمل مع اللغات المختلفة بشكل موحد، والمجموعة تحتوي على 12 فئة وهي تفتقر للكثير من التحديدات بين الأحرف أو الأسماء أو الأفعال. قد يبدو ذلك غير مفيداً لكن ولبعض الأغراض، قد يبدو ضرورياً وجود مجموعة علامات أصغر وأشمل.

مراجع

  1. ^ Eugene Charniak نسخة محفوظة 11 يوليو 2017 على موقع واي باك مشين.
  2. ^ Kenneth Ward Church (1988). "A stochastic parts program and noun phrase parser for unrestricted text". ANLC '88: Proceedings of the second conference on Applied natural language processing. Association for Computational Linguistics Stroudsburg, PA. DOI:10.3115/974235.974260.
  3. ^ Xu Sun (2014). "Structure Regularization for Structured Prediction" (PDF). Neural Information Processing Systems (NIPS). ص. 2402–2410. مؤرشف من الأصل (PDF) في 3 أبريل 2016. اطلع عليه بتاريخ أغسطس 2020. {{استشهاد بمنشورات مؤتمر}}: تحقق من التاريخ في: |تاريخ الوصول= (مساعدة)
  4. ^ Universal POS tags نسخة محفوظة 17 أكتوبر 2018 على موقع واي باك مشين.
  5. ^ Arabic part-of-speech tagsets, sketchengine.eu نسخة محفوظة 03 مايو 2019 على موقع واي باك مشين.
  6. ^ Petrov. "A Universal Part-of-Speech Tagset". arXiv:1104.2086. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

انظر أيضًا