מערכת זיהוי דיבור

מערכת זיהוי דיבוראנגלית: Speech To Text (STT) או Automatic Speech Recognition (ASR)) היא מערכת ממוחשבת המסוגלת לפענח דיבור אנושי ולתרגמו לטקסט. הקלט למערכת מגיע ממיקרופון שאליו מדבר המשתמש, משיחת טלפון הנקלטת במערכת וכיוצא בזה. זהו תחום משולב של מדעי המחשב ובלשנות חישובית, הכולל בתוכו מספר מתודולוגיות, מודלים וטכנולוגיות שונות.

בחלק מהמערכות דרוש תהליך "אימון" לפני שהמערכת מסוגלת לפעול, בו אדם קורא טקסט או אוצר מילים קבוע, ולאחר מכן נעשית אנליזה על הקול הספציפי של האדם כדי לזהות אותו בצורה מדויקת יותר. מערכות שלא דורשות אימון הן בדרך כלל לא תלויות בזהות הדובר.

נהוג להבחין בין זיהוי דיבור שמטרתו לזהות את תוכן הדיבור (לצורך ביצוע פקודה או רישום טקסט) לבין זיהוי קול שמטרתו לזהות דובר לא ידוע, לאמת זהות דובר ידוע או לאפיין את הדיבור שלו (למשל, בעבר ניסיון להעריך האם אדם מסוים דובר שקר או אמת לפי הקול שלו).

מבחינת הטכנולוגיה, למערכות זיהוי דיבור יש היסטוריה ארוכה שכללה מספר גלים בהם נעשה שימוש במספר שיטות שונות. לאחרונה, התחום התפתח במיוחד מהתקדמות בענפי הלמידה עמוקה וה-Big data. ההתפתחות באה לידי ביטוי לא רק במספר המאמרים המדעיים המתפרסמים בתחום, אלא גם באימוץ הנרחב יותר ברחבי העולם של שיטות למידה עמוקה שונות בתכנון ומימוש של מערכות זיהוי דובר.

תוכנות מובילות בתחום ההכתבה מאז שנות השמונים היו: ViaVoice של חברת IBM‏, Dragon NaturallySpeaking של חברת "דרגון דיקטייט" ו-MacSpeech Dictate. בחלק מגרסאות Windows Vista ו-Windows 7 יש מערכת זיהוי דיבור מובנת.

שימושים

שימושים נפוצים במערכות זיהוי דיבור:

  • תפעול מחשב תוך הפחתת או ביטול הצורך לגעת בו בעזרת הידיים, כאשר למשתמש המחשב יש לקות תנועה בגפיים העליונות[1], או כאשר הוא במצב בו ידיו עסוקות (כגון נהיגה[2] או מתן טיפול רפואי[3]). תפעול זה כולל, בחלק מהמקרים, הכתבת מסמכים (Speech To Text).
  • ברוב מכשירי הטלפון הסלולרי יש מערכת זיהוי דיבור, שמאפשרת לחייג למספר טלפון לפי חתימת קול שיצר המשתמש.
  • מרכזת טלפונים הפועלת באמצעות זיהוי דיבור מאפשרת למתקשר לומר את שם האדם שאיתו הוא מבקש לדבר, ולקשר אותו לאדם המבוקש.
  • זיהוי ביומטרי במערכות אבטחה, למשל זיהוי הפונים למוקד טלפוני של בנק. בשימוש זה לא נדרש זיהוי דיבור, אלא זיהוי של תבנית הקול של הדובר.

שימושים פחות מקובלים של מערכות אלה:

  • סיוע בהפעלת מחשב לאנשים עם מגוון לקויות שאינן לקויות תנועה[4].
  • נתינת אשליה למשתמש מציאות מדומה שהוא מדבר אל דמויות בדיוניות ולא אל מחשב.
  • תזמון אוטומטי של כתוביות נגישות לחירשים בסרטים. דהיינו, את הכתוביות אומנם כותב אדם, אך מערכת זיהוי קולי יכולה לפתור את האדם מאיתור הקטע הנכון בסרט להדבקה של כל הכתובית[5].

שימושים שעשויים להיות למערכות אלה בעתיד:

  • הפעלת מחשב והכתבת מסמכים (Speech To Text).
  • סיוע בקלינאות תקשורת.
  • ייצור אוטומטי של כתוביות נגישות לחירשים בסרטי וידאו.

יעילות של זיהוי דיבור

מערכות זיהוי דיבור כקלט להפעלת המחשב נמצאות בשימוש הציבור מאז סוף שנות השמונים. נכון לסוף העשור הראשון של המאה ה-21, אדם בעל תפקוד ידיים תקין הנמצא במצב שבו ידיו פנויות להקלדה, יחבר תמליל מהר יותר בהקלדה מאשר בדיבור אל המחשב. זאת משום שתיקון שגיאות הקלט הרבות של מערכות אלה גוזל זמן רב. מקליד זריז עשוי להגיע לקצב הקלדה של 100 מילים בדקה, בעוד שאדם מיומן בחיבור תמליל בעזרת מערכת לזיהוי דיבור יגיע לפחות מחמישים מילים לדקה וגם זאת אחרי שהמחשב כוונן לקולו ואחרי שהשגיאות הטיפוסיות לקלט מהדיבור שלו הוזנו בפונקציית תיקון השגיאות האוטומטית[6].

מעבר לזאת, במשימות הקלדה קצרות (שני משפטים ומטה), נכה שכיוון את מערכת זיהוי הקול שלו על ידי מומחה יכול להשיג תוצאות דומות לאלה של אדם חסר לקות[7].

יש אנשים שההקלדה על מקלדת גרמה להם פציעות מאמץ חוזרני, כגון תסמונת תעלת שורש היד. חלק מהאנשים האלה עוברים לשימוש במערכת זיהוי דיבור במקום במקלדת כלשהי. אצל חלק מהאנשים העוברים למערכות זיהוי קולי בשל פציעת מאמץ חוזרני שהתפחתה מהקלדה מתפתחות פגיעות תנועות חוזרניות בגרון[8]. ההנחה היא שפציעות אלה מתפתחות בשל העובדה שמערכת זיהוי דיבור של מחשב מאלצת את המשתמש לדבר באופן לא טבעי ומשום שפגיעות תנועות חוזרניות מופיעות אצל מי שיש לו נטייה לחזרתיות תנועתית מדויקת[9]. לכן מומלץ, למי שחש שמקלדת מונעת פציעה לא מועילה לו מספיק, לחלק את עבודת חיבור התמליל בין מקלדת מונעת פציעה לבין מערכת זיהוי דיבור.

ראו גם

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא מערכת זיהוי דיבור בוויקישיתוף

הערות שוליים

  1. ^ Koester, H.H.: Usage, performance, and satisfaction outcomes for experienced users of automatic speech recognition. Journal of Rehabilitation Research and Development 41 (5) 739-754, 2004
  2. ^ Tsimhoni, O. Smith, D. and Green, P.: Address entry while driving: speech recognition versus a touch-screen keyboard. Human factors 46 (4) 600-10, 2004
  3. ^ Nagy, M., Hanzlicek, P., Zvarova, J., Dostalova, T., Seydlova, M., Hippman, R., Smidl, L., Trmal, J., Psutka, J.: Voice-controlled data entry in dental electronic health record. Studies in Health Technology and Informatics, 136 529-34, 2008[1]
  4. ^ Wade, J., Petheram, B., and Cain, R.: Voice recognition and aphasia: can computers understand aphasic speech? Disability and Rehabilitation 23(14) 604-13, 2001
  5. ^ Archived Webinars | Google, Adobe Share Their Video Accessibility Strategies סמינר של אנשי הנגישות של חברת אדולבי וחברת גוגל בנושא נגישות סרטים באינטרנט
  6. ^ Mitchard, H. and Winkles, J.: Experimental comparisons of data entry by automated speech recognition, keyboard, and mouse. Human factors 44 (2) 198-209, 2002
  7. ^ דומן ומזר, מדריך לבדיקת יעילות הקלדה ACPT, עמוד 9 [2]
  8. ^ Muscle tension dysphonia in patients who use computerized speech recognition systems. Olson DE, Cruz RM, Izdebski K, Baldwin T. Ear Nose Throat J. 2004 Mar;83(3):195-8
  9. ^ הופעת פציעות התנועה החוזרנית בגרון אצל מי שהתנזר מהקלדה עקב פציעות תנועה חוזרניות בידיים דורשת מחקר נוסף.