כריית טקסט (באנגלית: Text Mining) המכונה גם כריית נתונים של טקסט, היא תהליך של הפקת מידע איכותי מטקסט. התהליך, המתבצע על ידי מחשב, הוא למעשה גילוי של מידע חדש באמצעות על ידי חילוץ אוטומטי של מידע ממשאבים כתובים שונים.[1] משאבים כתובים הם, למשל, אתרי אינטרנט, ספרים, מיילים, ביקורות ומאמרים, והליך הגילוי מתבצע, לרוב, באמצעות למידה סטטיסטית של דפוסים ומגמות. כריית טקסט כוללת בדרך כלל תהליך של בניית (structuring) משאבי טקסט (בדרך כלל ניתוח, יחד עם הוספת כמה תכונות לשוניות נגזרות והסרה של אחרות, והכנסה למסד נתונים), לאחר מכן מציאת דפוסים בתוך המידע המובנה (structured data), ולבסוף הערכה ופרשנות של התוצאות. משימות כריית טקסטים אופייניות כוללות סיווג טקסט לפי קטגוריות, חלוקת טקסט לאשכולות שונים, סיכום מסמכים, ניתוח סנטימנט (למשל, האם טקסט מסוים מעורר רגשות שליליים או חיוביים) ועוד.
ניתוח טקסט כולל תהליכים כמו אחזור מידע, ניתוח מילוני ללימוד התפלגות תדירות מילים, זיהוי תבניות (פאטרנים), טכניקות כריית נתונים (כולל ניתוח קישורים ואסוציאציות), ו-ויזואליזציה. מטרת העל של ההליך היא בסופו של דבר להפוך טקסט לנתונים אשר ניתן לנתח, באמצעות יישום של עיבוד שפה טבעית (NLP), סוגים שונים של אלגוריתמים ושיטות אנליטיות.
יש המכנים את הליך כריית הטקסט כניתוח טקסט, ואלו לרוב מתייחסים למספר טכניקות לשוניות, סטטיסטיות וכאלו מעולם למידת המכונה, המבנות (structuring) את תוכן המידע של מקורות טקסטואליים, ובונות מודלים על מנת להסיק מסקנות הנדרשות למחקרים שונים ולבינה עסקית.[2] המונח "כריית טקסט" הוטבע על ידי רונן פלדמן, במאמר שכתב על נושא זה בתחילת שנות האלפיים.[3] המונח "ניתוח טקסט" משמש כיום בתדירות גבוהה יותר בהקשרים עסקיים בעוד ש-״כריית טקסט״ משמשת בעיקר במחקרים מודיעיניים ובמחקר מדעי החיים.
אופן התהליך
אופן התהליך, באופן טיפוסי, מתבצע באמצעות סריקת קבוצה של מסמכים הכתובים בשפה טבעית ואכלוס מסד נתונים או אינדקס חיפוש עם המידע שחולץ. המסמך הוא האלמנט הבסיסי בכריית הטקסט, והוא מוגדר במסגרת ההליך כיחידה של נתונים טקסטואליים.[4]
התהליך מורכב ממספר תתי משימות, לרוב:
הפחתת ממדים (המשמשת גם בעיבוד נתונים). טכניקת זיהוי מילת השורש של מילים בפועל והקטנת גודל נתוני הטקסט.[5]
מציאת הקורפוס (מאגר טקסט רחב) הרלוונטי. כלומר, איסוף או זיהוי קבוצת חומרים טקסטואליים, ברשת, במערכת קבצים, או במסד נתונים, לצורך ניתוח.
זיהוי שם ישות (NER - Named Entity Recognition), כלומר זיהוי מאפייני טקסט בעלי שם: אנשים, ארגונים, מקומות, סמלי מניות, קיצורים מסוימים וכו'.
חלוקת מונח למשמעות הנכונה. כלומר, שימוש ברמזים הקשריים כדי להחליט היכן, למשל, המילה "פורד" מתייחסת לנשיא ארצות הברית לשעבר, מתי לחברת הרכבים, מתי לכוכב הקולנוע או לישות אחרת.[6]
זיהוי תבניות כמו מספרי טלפון, כתובות דואר אלקטרוני, כמויות (עם יחידות) באמצעות ביטוי רגולרי ועוד.
אִשְׁכּוּל מסמכים: זיהוי וחלוקה לקבוצות של מסמכי טקסט דומים.[7]
זיהוי של שמות עצם ומונחים המתייחסים אליהם. למשל, מהביטוי "יוסי אמר לשרגא שהוא יקבל העלאה בדרגה" לא ניתן לדעת מי מהשניים יקבל את ההעלאה. לשם כך נדרש ניתוח טקסט של יתר המסמך כדי להבין מההקשר במי מדובר.
חילוץ קשרים, עובדות ואירועים: זיהוי של אסוציאציות בין ישויות ומידע אחר בטקסט.
ניתוח סנטימנט: הפקת צורות שונות של מידע בנוגע לסנטימנט, דעה, מצב רוח ורגש. טכניקות ניתוח טקסט מועילות בניתוח סנטימנט ברמת הישות, המושג או הנושא.[8]
יישומים
כיום, טכנולוגיות כריית טקסט מיושמות באופן נרחב למגוון רחב של צרכים ממשלתיים, מחקריים ועסקיים. כך למשל, ממשלות וגופים ביטחוניים משתמשים בכריית טקסט למטרות ביטחון לאומי ומודיעין (למשל, על מנת לזהות טקסט המעיד על כוונה לבצע פיגוע טרור) ובפענוח או הצפנה של טקסט.[9] בעסקים, יישומים משמשים לתמיכה במודיעין עסקי ובמציאת מיקום אידיאלי למודעות פרסומיות, ועוד.
יישומים ביו-רפואיים
יישומי כריית טקסט משמשים בספרות הביו-רפואית, ומסייעים בחישובים שונים הנדרשים למחקרי כולל גישות חישוביות לסיוע במחקרים הנוגעים, למשל, לאינטראקציות חלבון,[10] ומחלות הקשורות בחלבון.[11] בנוסף, כריית טקסט מסייעת במחקרים קליניים של אוכלוסיות מסוימות בהן המטופלים מדווחים על תופעות לוואי מסוימות, באמצעות ניתוחים על מערכי נתונים של מידע דמוגרפי.[12]
יישומי תוכנה
נכון לסוף 2022, ענף כריית הטקסט עודנו בצמיחה, והדבר מתבטא בפיתוח תוכנות המשתמשות בטכנולוגיות ושיטות שונות של טכנולוגיה זו, בין היתר על ידי חברות ענק כמו IBM ומיקרוסופט. דוגמה לתוכנה פופולרית למטרות לימוד, שפותחה על ידי אוניברסיטת וואיקאטו בניו זילנד, היא תוכנת Weka, המשמשת גם כנקודת כניסה מצוינת למתחילים. בפייתון קיימות ספריות שונות לכריית טקסט, בין הפופולריות שבהן נמצאות SpaCy, NLTK ו-Gensim.
יישומי מדיה
כריית טקסט נמצאת בשימוש על ידי חברות מדיה גדולות, על מנת לשפר את בהירות המידע ולשפר את יעילות חיפוש המסמכים.
יישומים עסקיים ושיווקיים
כריית טקסט נמצאת בשימושים שונים בענף השיווק, בין היתר באמצעות מודלים המאפשרים לחזות נטישת לקוחות,[13] ומודלים המאפשרים לחזות תשואות מניות.[14]
ניתוח סנטימנט
ניתוח סנטימנט עשוי לשמש בניתוח ביקורות. כך למשל, התהליך יכול להעריך עד כמה ביקורת טובה לסרט, ובכך לאתר מבקרים שליליים במיוחד.[15] הדבר גם מאפשר לחזות האם לסיפור ילדים מסוים תהיה השפעה חיובית או שלילית על ילדים.
השלכות
עד לאחרונה, מנועי חיפוש אינטרנטיים, כמו גוגל, השתמשו לרוב בחיפושים מבוססי טקסט, שמצאו רק מסמכים המכילים מילים או ביטויים ספציפיים שהוגדרו על ידי המשתמש. כיום, באמצעות שימוש ברשת סמנטית (בסיס נתונים רשתי המבוסס על הקשרים סמנטיים בין הפריטים ברשת), כריית טקסט יכולה למצוא תוכן בהתבסס על משמעות והקשר. כריית טקסט משמשת גם בשירותי סינון דואר זבל, באמצעות זיהוי המאפיינים של הודעות שסביר להניח שהם פרסומות או חומר לא רצוי אחר.
^Zanasi, Alessandro (2009). "Virtual Weapons for Real Wars: Text Mining for National Security". Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN978-3-540-88180-3.
^Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Protein–protein interaction predictions using text mining methods". Methods. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. ISSN1046-2023. PMID25448298.
^Ramiro H. Gálvez; Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
^Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up?". Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol. 10. pp. 79–86. doi:10.3115/1118693.1118704.