تعرف الكلام

التعرف على الكلام أو تمييز الكلام (ويعرف أيضا بتمييز الكلام التلقائي أو تمييز الكلام أو حاسب تمييز الكلام) وهو عبارة عن تحويل الكلمات المنطوقة إلى نص.[1][2][3] إن مصطلح «تمييز الصوت» في بعض الأحيان يطلق على أنظمة التمييز التي يجب أن تدرب على متحدث معين، كما هو الحال بالنسبة لمعظم برامج تمييز سطح المكتب. التعرف على المتحدث يستطيع تبسيط مهمة ترجمة الكلام. تمييز الكلام يعتبر حل أوسع يشير إلى تكنولوجيا بإمكانها التعرف على الكلام بدون أن تستهدف متحدث واحد – مثل نظام الاتصال الذي يستطيع التعرف على جميع الأصوات. تطبيقات تمييز الكلام تتضمن: واجهة المستخدم الصوتية مثل الطلب الصوتي (على سبيل المثال: اتصل بالمنزل)؛ توجيه المكالمات (على سبيل المثال: أريد عمل مكالمة تليفونية على حساب المتلقي)، التحكم بتطبيق أتمتة المنزل، البحث (على سبيل المثال: أوجد البودكاست حيث الكلمات كانت منطوقة) إدخال بيانات بسيطة (على سبيل المثال: ادخل رقم البطاقة الائتمانية)، إعداد وثائق منظمة (مثل: تقرير الأشعة)، خطاب معالجة النصوص (مثل: معالج الكلمات " Word " أو رسائل البريد الإلكتروني) والمركبة الجوية (مثل: أجهزة الإدخال المباشر).

نبذة تاريخيه

أول جهاز يعرف على الصوت ظهر عام 1952 م، يتكون من جهاز يتعرف على الأرقام المنطوقة. كما ظهر مبكرا جهاز آخر يدعى IBM Shoebox، وقد عرضت في معرض عالم نيويورك عام 1964م. واحدة من أهم المجالات التي استخدمت تطبيقات التمييز الكلامي بشكل ملحوظ هي الرعاية الصحية والنسخ الطبي في الولايات المتحدة الأمريكية. من خلال ما قاله خبراء الصناعة في بدايتها، أن تمييز الكلام يباع كوسيلة للقضاء على النسخ بدلا من جعل النسخ خطوة أكثر فاعلية، والتالي لم يكن مقبولا، ولذلك السبب أيضا كان التمييز الصوتي في ذلك الوقت ناقص من الناحية الفنية. وكما أن استخدامه بفاعلية يتطلب تغييرات إلى طرق لعمل الأطباء وتوثيق اللقاء الإكلينيكي، وهذا يجعل العديد بل الكل يترددون في استخدامه. إن أكبر مقيد للتمييز الصوتي كان النسخ الآلي، ومع ذلك كان يعد برنامجا. إن طبيعة السرد الإملائي يحتاج تفسير عالي وأحيانا يتطلب رأي مستمد من كائن بشري وهذا لم يوفر حتى الآن في الأنظمة الآلية. كما أن كمية الوقت الذي يحتاجه المستخدم أو مزود النظام لتدريب الجهاز كبيرة وهذا يعتبر مقيد ثاني للتمييز الصوتي. كثيرا ما ينشأ التمييز في ASR بين أنظمة صناعة الجملة التي عادة ما تكون محددة المجال، ومعالجة طبيعة الجمل والتي عادة ما تكون لغة معينة. كل نوع من هذه التطبيقات يعرض أهدافه وتحدياته الخاصة.

التطبيقات

الرعاية الصحية

في مجال الرعاية الصحية، وحتى بعد تحسين تقنيات تمييز الكلام، النسخ الطبي لم يتقادم حاليا، فالخدمات المقدمة يتم إعادة توزيعها بدلا من استبدالها. يمكن تطبيق التعرف على الكلام في الواجهة الأمامية أو الخلفية لعملية التوثيق الطبي. في واجهة جهاز تمييز الكلام الأمامية يقوم المزود بالتملية إلى محرك تمييز الكلام، ثم يتم عرض الكلمات المنطوقة ويكون المملي مسؤول عن التعديل والتوقيع على المستند، لا تمر على محرر النسخ الطبي أبدا. جهة جهاز تمييز الكلام الأمامية أو مؤجل تمييز الكلام، يملي المزود إلى نظام إملاء رقمي، ويتم توجيه الصوت من خلال جهاز يميز الكلام ويوجه مسودة وثيقة معترف بها جنبا إلى جنب مع ملف الصوت الأصلي إلى محرر النسخ الطبي، الذي يعدل المسودة وينهي التقرير. جهاز مؤجل تمييز الكلام أصبح يستخدم حاليا على نطاق واسع في الصناعة. كثير من تطبيقات السجلات الصحية الالكترونية (EMR)، يمكن أن تكون أكثر فعالية ويتم أداؤها بسهولة أكبر عندما يتم نشرها بالاقتران مع محرك يميز الحديث. كل من عمليات البحث والاستعلامات، وملء الاستمارة تكون أسرع إذا تمت بالصوت بدلا من لوحة المفاتيح. حلول الرعاية الصحية عادة ما تكون حالة محددة، لكن بعض الشركات تعدل حلولها لتلبية احتياجات الأسواق (على سبيل المثال: مركز تكنولوجيا الكلام في روسيا مع شريك فنلندي يدعى فيتيم أوي في مشروع Terve Elama).

الحروب

الطائرات المقاتلة ذات الأداء العالي

في العقد الماضي كرست جهود كبيرة لاختبار وتقييم التعرف على الكلام في الطائرات المقاتلة، وتجدر الإشارة إلى برنامج الولايات المتحدة في التعرف على الكلام لإدماج التكنولوجيا المقاتلة المتقدمة ويرمز له (AFTI)/طائرة (F -16(F-16 VISTA، وبرنامج في فرنسا لتركيب أنظمة التعرف على الكلام على طائرات ميراج، وأيضا برامج في المملكة المتحدة في التعامل مع تشكيلة من الأنظمة الأساسية للطائرة.

الهيليكوبتر

المشاكل لتحقيق المميز درجة عالية من الدقة تحت الضغط والضوضاء تتعلق بقوة على بيئة الهليكوبتر كما في بيئة الطائرة المقاتلة، مشكلة الضجيج هي في الواقع أكثر حدة في بيئة الهليكوبتر، ليس فقط بسبب ارتفاع مستويات الضوضاء ولكن أيضا لأن قائد المروحية لا يرتدي قناع؛ ليقلل الضجيج في الميكروفون.وقد أجريت تجارب كثيرة وبرامج تقييم خلال العقد الماضي على التعرف على الكلام في تطبيقات نظم طائرات الهليكوبتر، لا سيما من قبل أنشطة الولايات المتحدة لبحث وتطوير الكترونيات الطائرات الحربية (AVRADA)، ومؤسسة علم الفضاء الملكي (RAE) في المملكة المتحدة، وكما أن العمل في فرنسا أضاف جهاز التعرف على الكلام في الهليكوبتر من طراز بوما، بالإضافة إلى أن هناك الكثير من الأعمال المفيدة في كندا. نظرا لأن النتائج كانت مشجعة. شملت تطبيقات الصوت: السيطرة على أجهزة الاتصالات اللاسلكية، ووضع نظم الملاحة، والسيطرة على النظام بهدف التسليم الآلي.

إدارة الحروب

مراكز أوامر إدارة المعارك بشكل عام تتطلب الوصول السريع إلى مراقبة واسعة، وتغيير قواعد المعلومات بسرعة، فالقادة العسكريون ومشغلي نظام الاستعلام بحاجة إلى قواعد البيانات هذه بشكل ملائم قدر الإمكان، في بيئة العين- المشغولة يتم تقديم الكثير من المعلومات في شكل العرض، غلإنسالة آلة يتفاعل بالصوت لديه القدرة على أن يكون مفيد في هذه البيئات. وقد كان هناك الكثير من الجهود لإضافة جهاز التعرف على الكلام إلى إدارة بيئات الحروب، ففي أحد دراسة جدوى التعرف على الكلام قد تم اختبار المعدات بالاقتران مع عرض معلومات متكاملة لتطبيقات إدارة المعركة البحرية. المستخدمين كانوا متفائلين جدا حول إمكانيات النظام، على الرغم من محدودية قدراته.

تدريب وحدات تحكم الحركة الجوية

تدريب مراقبي الحركة الجوية (برج المراقبة) يمثل تطبيق ممتاز لأنظمة التعرف على الكلام. كثير من نظم التدريب على المراقبة الجوية حاليا تتطلب شخص ليكون بمثابة «شبه قائد»، والانخراط في حوار مع وحدة تحكم التدريب، الذي يحاكي حوار وحدة التحكم مع القادة من برج المراقبة في الحقيقية.التعرف على الكلام وتوليف تقنيات تتيح إمكانية القضاء على الحاجة لشخص للعمل كطيار زائف، وبالتالي يحد من تدريب ودعم الأفراد. من الناحية النظرية، تتميز مهام المراقب الجوي بالتنظيم العالي للكلام كمخرجات تحكم أساسية، الذي بدوره يقوم بالحد من صعوبة مهام تمميز الكلام ولكن حقيقة هذا نادرا ما يحدث. ففي وثيقة القوات المسلحة الأنغولية 7110,65 تفاصيل العبارات التي يجب استخدامها من قبل مراقبي الحركة الجوية. بينما هذه الوثيقة تعطي أقل من 150 من أمثلة هذه العبارات، وعدد من العبارات التي يدعمها أحد أنظمة محاكاة أجهزة التعرف على الكلام ما يزيد على 500,000.

الاتصالات الهاتفية وغيرها من المجالات

أصبح شائعا الآن استخدامه في مجال الاتصالات الهاتفية في ألعاب الكمبيوتر والمحاكاة، على الرغم من المستوى العالي في معالجة النصوص في الحوسبة التي وصل إليها إلا أنه لم ير الزيادات المتوقعة في استخدامه. .

مزيد من التطبيقات

  • الترجمة الآلية.
  • سيارات التعرف على الكلام (على سبيل المثال، فورد سينك).
  • تقارير المحاكم (كتابة الصوت الحقيقي).
  • الحوسبة حرة اليدين: تمييز آوامر طلب مستخدم الكمبيوتر الصوتي، التشغيل الآلي للصفحة الرئيسية.
  • الرد الصوتي التفاعلي.
  • الهواتف النقالة، بما في ذلك البريد الإلكتروني الصوتي.
  • التفاعل لمتعدد الوسائط.
  • تقييم النطق في اللغة بمساعدة الحاسوب، الروبوتات.
  • خطاب إلى النص.
  • التليماتية (مثل نظم الملاحة المركبة).
  • النسخ الرقمي (خطاب إلى النص).
  • ألعاب الفيديو.

مراجع

  1. ^ Assael، Yannis؛ Shillingford، Brendan؛ Whiteson، Shimon؛ de Freitas، Nando (5 نوفمبر 2016). "LipNet: End-to-End Sentence-level Lipreading". arXiv:1611.01599 [cs.CV]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
  2. ^ Mohri، M. (2002). "Edit-Distance of Weighted Automata: General Definitions and Algorithms" (PDF). International Journal of Foundations of Computer Science. ج. 14 ع. 6: 957–982. DOI:10.1142/S0129054103002114. مؤرشف من الأصل (PDF) في 2017-08-10. اطلع عليه بتاريخ 2011-03-28.
  3. ^ An application of recurrent neural networks to discriminative keyword spotting[وصلة مكسورة]. Proceedings of ICANN (2), pp. 220–229. "نسخة مؤرشفة" (PDF). مؤرشف من الأصل في 2020-04-26. اطلع عليه بتاريخ 2020-05-26.{{استشهاد ويب}}: صيانة الاستشهاد: BOT: original URL status unknown (link)