ממד ה-VC של מחלקת מסווגים (מחלקת היפותזות) כלשהי , מוגדר כגודל הקבוצה הגדולה ביותר של דוגמאות ש- מנפצת (shatter), כאשר ההגדרה היא ש- מנפצת קבוצת דוגמאות C סופית כלשהי, אם לכל סיווג אפשרי של C, קיים מסווג h מתוך המחלקה שמחזיר את הסיווג הנ"ל.
הגדרה פורמלית
נניח כי היא מחלקת מסווגים ממרחב כלשהו לקבוצה בגודל 2 ( מקובל , לעיתים גם ) . לכל סופית, נגדיר את
גודלה המרבי של קבוצה כזאת, כקבוצת פונקציות בין שתי קבוצות סופיות, הוא לכל היותר (תלוי באילו היפותזות מחלקת ההיפותזות שלנו כוללת). כאשר גודלה הוא בדיוק , אנו אומרים כי מנתצת את . במילים אחרות, כאשר מנתצת קבוצה כלשהי, פירוש הדבר הוא שהיא מכילה את כל התיוגים האפשריים על האיברים שלה (כאשר התיוגים נלקחים מ ).
ממד VC הוא גודלה של הקבוצה הגדולה ביותר ש מנתצת, כלומר
כאשר מנתצת כל קבוצה סופית, נאמר כי ממד VC הוא אינסופי ונסמן
דוגמאות
ממד ה-VC של מחלקה המכילה מסווג יחיד הוא 0, וזאת מכיוון שהיא איננה מנפצת אפילו נקודה אחת. באופן כללי ממד ה-VC של מחלקה חסום מלמעלה על ידי לוג (בבסיס 2) של גודל המחלקה.
ממד ה-VC של מחלקת מפרידים ליניאריים (linear predictors) במרחב d-ממדי הוא d+1.
לדוגמה, ממד ה-VC של מחלקת מפרידים ליניאריים במרחב דו־ממדי הוא 3. לא ניתן לפזר במרחב הווקטורי 4 נקודות אשר קו ישר יכול לנפץ תמיד. מאידך, קיים סידור של 3 נקודות שאותן מפריד ליניארי יכול לסווג בהצלחה, עבור כל סיווג.
ממד ה-VC של מחלקת כל המסווגים האפשריים, מעל קבוצה אינסופית, הוא אינסופי, וזאת מכיוון שהיא מנפצת כל קבוצה סופית של דוגמאות.
משפטים ומסקנות נוספים
קיים קשר הדוק בין ממד ה VC של מחלקת היפותזות לבין learnability של מחלקת היפותזות במודל הסטטיסטי (ראה למידת PAC). בפרט, ממד VC סופי הוא המדד לבחינה האם מחלקה של מסווגים בינארים היא נלמדת (learnable) במודל הזה בהסתברות גבוהה בלי תלות בהתפלגות הנתונים (Agnostic). למעשה נכונה תוצאה רחבה יותר, המכונה המשפט היסודי של למידה סטטיסטית ( The fundamental theorem of statistical learning) עבור סיווג בינארי
ניסוח המשפט
יהי מרחב ותהא מחלקת מסווגים, ונניח שפונקציית ההפסד (loss function) היא 0/1, כלומר סופרת את מספר הטעויות .