התאמת יתר

הקו הירוק מייצג מודל עם התאמת יתר, הקו השחור מייצג מודל מוסדר (regularized - מודל שפשטותו מאולצת במפורש). הקו הירוק מתאים יותר לנתוני האימון, אך הוא תלוי בהם יותר מדי ולכן הוא צפוי להיות בעל שגיאה גדולה יותר בסווג נתונים חדשים מאשר המודל השחור.
נתונים ליניארים עם רעש (נקודות) ממודלים על ידי ישר (שחור) ועל ידי פולינום (כחול). אף על פי שהפולינום מותאם לנתונים במידה מושלמת, המודל הליניארי צפוי להצליח יותר באקסטרפולציה מעבר לאזור הנתונים הקיימים.

התאמת יתר (Overfitting) היא בעיה יסודית בסטטיסטיקה ובלמידת מכונה שבה המודל מותאם יתר על המידה לאוסף מסוים של נתונים (למשל האוסף שהיה זמין לשם אימונו) ועל כן מצליח פחות בביצוע תחזיות. התאמת יתר מתרחשת כאשר המודל נקבע על ידי יותר פרמטרים מאשר הנתונים מצדיקים. עודף הפרמטרים מאפשר למודל ללמוד את הרעש הסטטיסטי כאילו הוא מייצג התנהגות אמיתית.

תת התאמה (Underfitting) לעומת זאת מתרחשת כאשר המודל הסטטיסטי פשוט מדי מכדי לייצג כראוי את המבנה הבסיסי של הנתונים, למשל בעקבות מיעוט בפרמטרים המגדירים את המודל. דוגמה לכך היא למשל ניסיון להשתמש במודל ליניארי לתיאור התנהגות לא ליניארית.

מקרים של התאמת יתר

בתור דוגמה קיצונית להתאמת יתר, אם מספר הפרמטרים המשמשים להגדרת המודל זהה או גדול יותר מאשר מספר התצפיות, אזי המודל יוכל לחזות באופן מדויק את התצפיות פשוט על ידי זכירתן במלואן. מודל כזה בדרך כלל ייכשל קשות בעת ביצוע תחזיות. כדוגמה נוספת לבעייתיות של "מודל זוכר" שכזה - קחו בסיס נתונים של מכירות בחנות הכולל תאריכי רכישה, שם פריט וסכום. מודל עם מספיק פרמטרים יוכל פשוט לזכור את כל בסיס הנתונים וכך "לחזות" במדויק את סכומי הרכישה שבו על סמך התאריך. ברור אבל שמודל כזה לא יצליח לחזות סכומי רכישה של רכישות עתידיות.

התאמת יתר מתרחשת במקרים בהם חסרה תאוריה להנחיית האנליזה של הנתונים. במצב כזה יש צורך לבחון מספר רב של מודלים אפשריים ונדרשים יותר פרמטרים כדי להגדירם[1].

התאמת יתר מתרחשת לעיתים קרובות בביצוע רגרסיה ליניארית מרובה. במקרה הקיצוני אם מספר המשתנים המסבירים שווה למספר הדגימות אזי המודל יעבור במדויק בכל הנקודות. בדיקות הראו שמספיקות שתי דגימות לכל משתנה מסביר ברגרסיה ליניארית. עבור רגרסיה לוגיסטית או מודל קוקס (Cox proportional hazard models) קיימים מספר כללי אצבע - כמו כלל ה"אחד לעשר"[2]. בתהליך בחירת מודל הרגרסיה, ניתן להיעזר בשקלול הטיה-שונות (Bias-variance tradeoff) בו השגיאה של המודל מפוצלת למרכיב הטיה (המרחק של המודל "הממוצע" מפונקציית המטרה) והשונות (הפיזור של המודלים הבאים בחשבון).

התאמת יתר בלמידה מונחית כמו ברשת עצבית מלאכותית (Artificial neural network). מספר השגיאות בקבוצת האימון מוצג בכחול, ומספר השגיאות בקבוצת האימות מוצג באדום, שניהם כפונקציה של מספר מחזורי האימון. התאמת יתר מאובחנת כאשר מספר שגיאות האימות עולה ומספר שגיאות האימון יורד. המודל האופטימלי במקרה זה הוא בנקודת המינימום של שגיאות האימות.

טיפול בהתאמת יתר

ישנן כמה שיטות מקובלות להפחתת הסכנה בהתאמת יתר. אלה כוללות למשל אימות צולב (Cross-validation), רגולריזציה (Regularization), עצירה מוקדמת (Early stopping) וכן, גיזום (Pruning). הבסיס לשיטות אלה הוא:

  • מחיר מפורש למורכבות המודל (למשל ברגולריזציה) ובכך לתת לתהליך האופטימיזציה להעדיף פתרונות פשוטים. שיטה זו נקראת גם מבחן תערו של אוקאם, שעל פיו מודל מורכב הוא מראש סביר פחות ממודל פשוט. מורכבות המודל אינה נבחנת רק לפי מספר הפרמטרים אלא גם לפי מידת הביטוי של הפרמטרים.
  • לבדוק באופן ישיר את יכולת המודל לבצע תחזיות על נתונים חדשים שלא שימשו בעת אימונו המקורי (למשל באימות צולב).

ראו גם

לקריאה נוספת

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא התאמת יתר בוויקישיתוף

הערות שוליים

  1. ^ Claeskens, G.; Hjort, N.L. (2008), Model Selection and Model Averaging, Cambridge University Press
  2. ^ Draper, Norman R.; Smith, Harry (1998). Applied Regression Analysis. John Wiley & Sons. ISBN 978-0471170822.