ניתוח סנטימנט (באנגלית: Sentiment analysis) לעיתים נקרא גם כריית דעות או בינה מלאכותית רגשית, הוא השימוש בעיבוד שפה טבעית, כריית טקסט, בלשנות חישובית וביומטריה כדי לזהות, לחלץ, לכמת ולחקור מצבים רגשיים ומידע סובייקטיבי בשיטתיות. ניתוח סנטימנט מיושם באופן נרחב על ביקורות ותגובות לסקרים, רשתות מקוונת וחברתית, ועוד. התחום משתמש במודלי שפה עמוקה כדי לנתח גם תחומי נתונים מורכבים יותר, כגון טקסטים חדשותיים שנכתבים לרוב בשפה בה הדובר נמנע מהבעת דעה או רגש בצורה מפורשת.[1]
ניתוח סנטימנט הוכח כטכניקה בעלת ערך רב עבור מערכות המלצה (מערכות מספקות המלצות למשתמשים על פריטים שעשויים לעניין אותם).
דוגמאות
הדוגמאות הבאות ממחישות את מטרת ניתוח הסנטימנט ואת האתגרים הכרוכים בביצועו.
אני אוהב את הנייד שלי אבל לא הייתי ממליץ עליו לקולגות שלי (סנטימנט חיובי מותנה)
סוגי משימות
זיהוי קוטביות
אחת המשימות המרכזיות בניתוח סנטימנט היא סיווג הקוטביות של טקסט נתון. כלומר, זיהוי האם הטקסט הוא חיובי, שלילי או נייטרלי. סיווג סנטימנט מתקדם יותר יזהה מצבים רגשיים נוספים, כמו הנאה, כעס, גועל, עצב, פחד והפתעה.[2]
זיהוי סובייקטיביות/אובייקטיביות
משימה נפוצה נוספת היא סיווג טקסט נתון, בדרך כלל משפט, לאחד מהשניים: אובייקטיבי או סובייקטיבי.[3] משימה זו עלולה להיות מאתגרת, מאחר שהסובייקטיביות של מילים וביטויים היא לעיתים תלוית הקשר, ומסמך אובייקטיבי עשוי להכיל משפטים סובייקטיביים (למשל, מאמר חדשותי המצטט דעות של אנשים). בו פאנג, חוקרת מרכזית בענף ניתוח הסנטימנט, הראתה כי הסרת משפטים אובייקטיביים ממסמך בטרם סיווג הקוטביות שלו עזרה לשפר את הביצועים.
המונח 'אובייקטיבי' מתייחס לאירוע הנושא מידע עובדתי.[4] למשל, המשפט 'כדי להיבחר לנשיא ארצות הברית, מועמד חייב להיות בן שלושים וחמש לפחות'. המונח 'סובייקטיבי' מתאר אירוע באמצעות דעות אישיות ושיפוטיות, למשל המשפט 'אנחנו האמריקאים צריכים לבחור נשיא שהוא בוגר ומסוגל לקבל החלטות נבונות'.
זיהוי תכונה/היבט
משימה זו מתייחסת לזיהוי דעות או רגשות המובעים ביחס לתכונות או היבטים מסוימים של ישות כלשהי, למשל מסך של טלפון סלולרי, שירות של מסעדה או איכות צילום של מצלמה.[5] מאפיינים שונים של אותה ישות יכולים ליצור תגובות רגשיות שונות, למשל למלון יכול להיות מיקום נוח, אבל אוכל בינוני.[6] בעיה זו כוללת מספר בעיות משנה, למשל, זיהוי ישויות רלוונטיות, חילוץ התכונות/ההיבטים של אותן ישויות, וקביעה אם דעה המובעת על כל תכונה/היבט היא חיובית, שלילית או נייטרלית.[7]
דירוג אינטנסיביות
זיהוי עוצמת הרגשות המובעים בטקסט נתון. עוצמה זו היא לעיתים בעלת חשיבות מכרעת בהבנת התחושה המדויקת הנובעת מהטקסט (למשל, 'טוב' לעומת 'מדהים').
שיטות ותכונות
הגישות הקיימות לניתוח סנטימנט מתחלקות לשלוש קטגוריות עיקריות: טכניקות מבוססות ידע, שיטות סטטיסטיות וגישות היברידיות.[8] טכניקות מבוססות ידע מסווגות טקסט לפי קטגוריות השפעה בהתבסס על נוכחותן של מילות השפעה חד משמעיות כמו שמח, עצוב, מפחד או משועמם.[9] שיטות סטטיסטיות כוללות אלמנטים מתחום למידת המכונה, כמו LSA (ניתוח סמנטי סמוי - צורה של עיבוד שפה טבעית המבוססת על הרעיון שמילים המשמשות בהקשרים דומים נוטים להיות בעלי משמעויות דומות), מכונת וקטורים תומכים, "Bag-of-words", למידה עמוקה ועוד. השיטות לוקחות בחשבון, מעבר למילים עצמן, את ההקשר בו הן נאמרות או נכתבות, את סביבתן, ואת משמעותן. גישות היברידיות משתמשות הן בשיטות למידת מכונה והן באלמנטים מענף ייצוג ידע כגון אונטולוגיות ורשתות סמנטיות, על מנת לזהות סמנטיקה המתבטאת בצורה עדינה. זאת, למשל, באמצעות ניתוח מושגים שאינם מעבירים מידע רלוונטי במפורש, אך מקושרים באופן מרומז למושגים אחרים שעושים זאת.[10]
^Vong Anh Ho, Duong Huynh-Cong Nguyen, Danh Hoang Nguyen, Linh Thi-Van Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen. "Emotion Recognition
for Vietnamese Social Media Text". In Proceedings of the 2019 International Conference of the Pacific Association for Computational Linguistics (PACLING 2019), Hanoi, Vietnam (2019).