המונח "contingency table" הופיע לראשונה במאמר של קרל פירסון מ-1900[1]. באותה שנה פירסון הציג את גם מבחן כי בריבוע לבדיקת השערת אי התלות בין שני משתנים איכותיים[2].
דוגמאות
לוח שכיחות חד־ממדי
לקראת סוף מלחמת העולם השנייה, בין יוני 1944 למרץ 1945, גרמניה שיגרה יותר מ-9000 טילי V1 לכיוון בריטניה[3]. 535 טילים נחתו בדרום לונדון. לצורך ניתוח סטטיסטי לבדיקת רמת הדיוק של הטילים, חולק האזור בו נחתו הטילים ל-576 אזורים שווי שטח, ונספרו מספר הפגיעות בכל אזור. הנתונים מרוכזים בלוח השכיחות החד־ממדי הבא:
מספר הפגיעות
מספר האזורים
0
229
1
211
2
93
3
75
4 או יותר
8
סך הכל
535
המשתנה הוא מספר הפגיעות. מספר הפגיעות הוא אמנם משתנה ספירה, אך עדיין ניתן להציג את הערכים בלוח שכיחות. קיבוץ הערכים שערכם גדול או שווה מ-4 לקטגוריה אחת הופך את המשתנה למשתנה סודר. השכיחות של הערך 0 היא 229, השכיחות של הערך 1 היא 211, וכן הלאה.
תהליך יצירת הנתונים הוא פואסוני.
לוח שכיחות דו־ממדי
בניסוי קליני שנערך בשוודיה השתתפו 1360 חולים שעברו שבץ מוחי. כל חולה טופל באופן מקרי באספירין או בפלצבו[4]. אחד הנתונים שנאספו בניסוי הוא ציון מוות כתוצאה מאוטם שריר הלב במהלך תקופת המעקב שארכה שלוש שנים. הנתונים מוצגים בלוח השכיחות הדו־ממדי הבא:
טיפול
מוות כתוצאה מאוטם שריר הלב
סך הכל
כן
לא
אספירין
18
658
676
פלסבו
28
656
684
סך הכל
46
1314
1360
בלוח זה יש שני משתנים: הטיפול, ומוות כתוצאה מאוטם שריר הלב. השכיחות של מספר החולים שטופלו באספירין ומתו כתוצאה מאוטם שריר הלב היא 18, השכיחות של מספר החולים שטופלו בפלסבו ולא מתו כתוצאה מאוטם שריר הלב היא 656, וכולי.
בלוח יש גם שורה ועמודה בהן נרשם סך הכל של כל שורה וכל עמודה. בשורה התחתונה אנו יכולים לראות כי השכיחות של סך החולים (ללא קשר לטיפול) שמתו כתוצאה מאוטם שריר הלב היא 46, והשכיחות של סך החולים שלא מתו כתוצאה מאוטם שריר הלב היא 1346. זהו למעשה לוח שכיחות חד־ממדי המציג את ההתפלגות של המשתנה "מוות כתוצאה מאוטם שריר הלב". התפלגות זו מכונה ההתפלגות השולית של המשתנה. באופן דומה, עמודת סך הכל של הלוח (העמודה השמאלית ביותר) מציגה את ההתפלגות השולית של משתנה הטיפול.
תהליך יצירת הנתונים כאן הוא מולטינומי.
לוח שכיחות תלת־ממדי
מחקר שנערך בארצות הברית בדק נתונים של 674 משפטי רצח. מטרת המחקר הייתה לבדוק את השפעת צבעי העור של הרוצח והנרצח על גזר הדין – עונש מוות או תוצאה אחרת[5]. במחקר זה יש שלושה משתנים איכותיים: צבע העור של הרוצח, צבע העור של הנרצח, וגזר הדין, ולכן הנתונים יוצרים לוח שכיחות תלת־ממדי:
צבע העור של הנרצח
צבע העור של הרוצח
עונש מוות
כן
לא
לבן
לבן
53
414
שחור
11
37
שחור
לבן
0
16
שחור
139
4
בלוח כזה קשה יותר להציג את ההתפלגויות השוליות, אך ניתן לחשב אותן. כך למשל ההתפלגות השולית של צבע העור של הנרצח היא
קיים מבחר גדול של מדדי קשר למדידת עוצמת הקשר בין שני משתנים בלוח שכיחות דו־ממדי[6]. חלקם ניתנים להכללה עבור לוחות שכיחות ממימד גבוה יותר. כן קיימים מבחנים לבדיקת השערת אי התלות בין שני משתנים, הנפוץ שבהם הוא מבחן כי בריבוע. חלק ממבחנים אלה ניתנים גם הם להכללה ללוחות שכיחות ממימד גבוה יותר.
ההסקה הסטטיסטית על לוחות שכיחות מתחלקת לשני תחומים עיקריים. באחד מהם המיקוד הוא על מבנה הקשר בין המשתנים, והשני מציג את אחד המשתנים כמשתנה מוסבר ואת שאר המשתנים כמשתנים מסבירים, במסגרת ניתוח רגרסיה.
Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN978-0-262-02113-5. MR0381130.
Agresti, Alan (2007). An introduction to categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN978-0-471-22618-5.
Agresti, Alan (2002). Categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN0-471-36093-7.
^Karl Pearson, I. Mathematical contributions to the theory of evolution.—VII. On the correlation of characters not quantitatively measurable., Philosophical Transactions of the Royal Society of Series A 195, 1900, עמ' 1-47
^Agresti Alan, Categorical Data Analysis, 2nd edition, John Wiley & Sons, Inc., Hoboken, New Jersey, 2002, עמ' 71-72, ISBN 0-471-36093-7
^Alan Agresti, An introduction to categorical data analysis, 2nd Edition, John Wiley & Sons, Inc., Hoboken, New Jersey, 2002, עמ' 49-50, ISBN 978-0-471-22618-5