PROFILPELAJAR.COM

מודל לוג ליניארי משמש בסטטיסטיקה לבחינת מבנה הקשר בין מספר משתנים איכותיים. המודל הוצג לראשונה בשנות ה-60 של המאה העשרים על ידי איבון בישופ.

מוטיבציה ומודל ללוח שכיחות דו־ממדי

יהיו $X$ ו- $Y$ שני משתנים מקריים איכותיים כאשר ללא הגבלת הכלליות המשתנה $X$ יכול לקבל את הערכים $1,2,...,I$ והמשתנה $Y$ יכול לקבל את הערכים $1,2,...,J$ .

נתבונן במדגם בגודל $n$ מתוך אוכלוסייה כלשהי, ונסמן ב- $n_{ij}$ את מספר הפרטים במדגם עבורם $X=i$ ו- $Y=j$ . נאמר כי $n_{ij}$ היא השכיחות של התצפיות במדגם עבורן $X=i$ ו- $Y=j$ . הטבלה שבה יש $I$ שורות ו- $J$ עמודות, ובהצטלבות השורה ה- $i$ והעמודה ה- $j$ נמצא המספר $n_{ij}$ נקראת לוח השכיחות של המשתנים $X$ ו- $Y$ . מכיוון שלטבלה יש שני ממדים (אורך ורוחב) לוח השכיחות הוא דו-ממדי. לוח השכיחות הוא למעשה הנתונים שיש לנתח.

כן נסמן ב- $n_{i.}$ את מספר הפרטים במדגם עבורם $X=i$ , וב- $n_{.j}$ נסמן את מספר הפרטים במדגם עבורם $Y=j$ .

אם אין לנו שום ידיעה על ההתפלגות המשותפת של $X$ ושל - $Y$ , אז $m_{ij}$ , תוחלת מספר הפרטים במדגם שעבורם $X=1$ ו- $Y=2$ היא $m_{ij}=n\cdot P(x=i,Y=j)$ .

אם לעומת זאת נניח כי $X$ ו- $Y$ הם משתנים מקריים בלתי תלויים, אז $P(X=i,Y=j)=P(X=i)\cdot P(Y=j)$ לכל $i$ ולכל $j$ , ולכן $m_{ij}=n\cdot P(X=i)\cdot P(Y=j)$ .

אמדים להסתברויות אלה הם ${\hat {P}}(X=i)={\frac {n_{i.}}{n}}$ ו- ${\hat {P}}(Y=j)={\frac {n_{.j}}{n}}$ , ולכן, תחת הנחת אי התלות: ${\hat {m}}_{ij}=n\cdot {\hat {P}}(X=i)\cdot {\hat {P}}(Y=j)=n\cdot {\frac {n_{i.}}{n}}\cdot {\frac {n_{.j}}{n}}={\frac {n_{i.}\cdot n_{.j}}{n}}$

על ידי הפעלת פונקציית הלוגריתם נקבל כי $\log {\hat {m}}_{ij}=\log n_{i.}+\log n_{.j}-\log n$ .

באגף ימין יש שלושה מחוברים, אחד מהם תלוי ב- $X$ וב- $i$ , השני תלוי ב- $Y$ וב- $j$ , והשלישי אינו תלוי במשתנים או בערכים אלא רק בגודל המדגם.

לכן, מודל מתקבל על הדעת עבור אי התלות בין $X$ ו- $Y$ (בהנחה כי היא מתקיימת) הוא: $\log m_{ij}=\lambda +\lambda _{i}^{X}+\lambda _{j}^{Y}$ לכל $i$ ולכל $j$ .

אם לעומת זאת המשתנים אינם בלתי תלויים אז השוויון האחרון אינו נכון, והמודל המתאים הוא $\log m_{ij}=\lambda +\lambda _{i}^{X}+\lambda _{j}^{Y}+\lambda _{ij}^{XY}$ כאשר $\lambda _{ij}^{XY}\neq 0$ לפחות עבור זוג $ij$ אחד. מודל זה מכונה "המודל הרווי", מכיוון שהוא תמיד מתאים לנתונים התאמה מלאה. הביטוי $\lambda _{ij}^{XY}$ מבטא את האינטראקציה (יחסי הגומלין) בין $X$ ו- $Y$ .

מכאן ש- $X$ ו- $Y$ הם בלתי תלויים אם ורק אם $\lambda _{ij}^{XY}=0$ לכל $i$ ולכל $j$ .

אמידת הפרמטרים וטיב ההתאמה

קל לראות כי כפי שהמודל הרווי הוגדר עבור לוח השכיחות הדו־ממדי, מספר הפרמטרים $\lambda$ גדול באופן משמעותי ממספר הנתונים. יתרה מזו, הערכים הנאמדים של $\lambda$ אינם יכולים לקבל כל ערך אפשרי מכיוון שניתן לבטא בעזרתם את ההסתברויות $P(X=i,Y=j)$ והסתברויות אלה חייבות להסתכם ל-1. גם ההסתברויות $P(X=i)$ חייבות להסתכם ל-1 וכן ההסתברויות $P(Y=j)$ .

לכן יש להשית אילוצים מתאימים על הערכים של ה- $\lambda$ -ות.

מערכת אילוצים אפשרית עבור מודל אי תלות ללוח שכיחות דו־ממדי היא: $\sum _{i}\lambda _{i}^{X}=0$ ו- $\sum _{j}\lambda _{j}^{Y}=0$ . אילוצים אלה הם אנלוגיים לאילוצים $\sum _{i}P(X=i)=1$ ו- $\sum _{j}P(Y=j)=1$ . בהינתן אילוצים אלו, למודל יש $(I-1)(J-1)$ דרגות חופש.

כדי לאמוד את הפרמטרים של המודל הרווי יש צורף באילוצים נוספים: $\sum _{i}\lambda _{ij}^{XY}=0$ לכל $j$ ו- $\sum _{j}\lambda _{ij}^{XY}=0$ לכל $i$ . בהינתן אילוצים אלה, למודל הרווי יש 0 דרגות חופש. מאילוצים אלה נובע כי השערת אי התלות בין המשתנים ניתנת לניסוח כ- $H_{0}\!:\;\;\lambda _{11}^{XY}=0$ .

אמידת הפרמטרים נעשית בשיטת הנראות המרבית^[1]. לאחר מכן ניתן לבחון את טיב ההתאמה של המודל לנתונים בעזרת מבחן חי בריבוע.

בתוכנת R ניתן לאמוד את הפרמטרים של המודלים הלוג ליניאריים בעזרת הפונקציה loglin הזמינה בחבילת הבסיס של התוכנה.

מודלים ללוח שכיחות תלת־ממדי

באופן דומה להגדרת לוח השכיחות הדו־ממדי, נוכל להגדיר את לוח השכיחות התלת־ממדי על ידי האוסף $n_{ijk}$ , כאשר זהו מספר התצפיות במדגם עבורן $Z=k$ $Y=j$ , $X=i$ , וכאשר $X,Y,Z$ הם משתנים מקריים המקבלים $I,J,K$ ערכים בהתאמה.

המודל הרווי ללוח שכיחות תלת־ממדי הוא:

${\begin{aligned}\log m_{ijk}&=\lambda \;+\\&\;\;\;\;\;\lambda _{i}^{X}+\lambda _{j}^{Y}+\lambda _{k}^{Z}+\\&\;\;\;\;\;\lambda _{ij}^{XY}+\lambda _{ik}^{XZ}+\lambda _{jk}^{YZ}+\\&\;\;\;\;\;\lambda _{ijk}^{XYZ}\end{aligned}}$

ניתן לגזור מודלים שונים עבור ההתפלגות המשותפת של $Y$ , $X$ ו- $Z$ על ידי איפוס גורמי אינטראקציה.

מודל אי תלות

מודל אי תלות מתקבל על ידי איפוס כל האינטראקציות:

$\log m_{ijk}=\lambda +\lambda _{i}^{X}+\lambda _{j}^{Y}+\lambda _{k}^{Z}$

מודל אי תלות בין Y ו-Z בהינתן X

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3 $\lambda _{ijk}^{XYZ}$ , וכן על ידי איפוס $\lambda _{jk}^{YZ}$ , האינטראקציה בין $Y$ ו- $Z$ .

המודל הוא

${\begin{aligned}\log m_{ijk}&=\lambda \;+\\&\;\;\;\;\;\lambda _{i}^{X}+\lambda _{j}^{Y}+\lambda _{k}^{Z}+\\&\;\;\;\;\;\lambda _{ij}^{XY}+\lambda _{ik}^{XZ}\end{aligned}}$

מודל בו X בלתי תלוי ב-(Y,Z)

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3 $\lambda _{ijk}^{XYZ}$ , וכן על ידי איפוס האינטראקציה בין $X$ ל- $Y$ - $\lambda _{ij}^{XY}$ והאינטראקציה בין $X$ ל- $Z$ - $\lambda _{ik}^{XZ}$ .

המודל הוא

${\begin{aligned}\log m_{ijk}&=\lambda \;+\\&\;\;\;\;\;\lambda _{i}^{X}+\lambda _{j}^{Y}+\lambda _{k}^{Z}+\\&\;\;\;\;\;\ \lambda _{jk}^{YZ}\end{aligned}}$

אי תלות בזוגות

על פי מודל זה $X$ ו- $Y$ בלתי תלויים, $X$ ו- $Z$ בלתי תלויים, וגם $Y$ ו- $Z$ בלתי תלויים, אבל $Y$ , $X$ ו- $Z$ יחדיו אינם בלתי תלויים.

מודל זה מתקבל על ידי איפוס האינטראקציות מסדר 2 אך מותיר את האינטראקציה מסדר 3. המודל הוא

${\begin{aligned}\log m_{ijk}&=\lambda \;+\\&\;\;\;\;\;\lambda _{i}^{X}+\lambda _{j}^{Y}+\lambda _{k}^{Z}+\\&\;\\&\;\;\;\;\;\lambda _{ijk}^{XYZ}\end{aligned}}$

מודל עם כל האינטראקציות מסדר 2

מודל זה מתקבל על ידי איפוס האינטראקציה מסדר 3. למודל אין אינטרפרטציה הסתברותית ברורה. המודל הוא

${\begin{aligned}\log m_{ijk}&=\lambda \;+\\&\;\;\;\;\;\lambda _{i}^{X}+\lambda _{j}^{Y}+\lambda _{k}^{Z}+\\&\;\;\;\;\;\lambda _{ij}^{XY}+\lambda _{ik}^{XZ}+\lambda _{jk}^{YZ}\end{aligned}}$

הקשר בין המודל הלוג ליניארי ומודל הרגרסיה הלוגיסטית

קיימת חפיפה בין המודל הלוג ליניארי ומודל הרגרסיה הלוגיסטית במובן שבמקרים מסוימים שני המודלים שקולים. נדגים זאת בעזרת לוח שכיחות דו־ממדי מסדר $2\times J$ , כלומר המשתנה $X$ מקבל שני ערכים והמשתנה $Y$ מקבל $J$ ערכים.

בהנחה כי $X$ ו- $Y$ בלתי תלויים, מתקיים כי $P(X=i|Y=j)=P(X=i)$ לכל $i$ ולכל $j$ , ובפרט יחס הסיכויים של $X$ בהינתן $Y$ הוא קבוע, כלומר $\log {\frac {P(X=2|Y=j)}{P(X=1|Y=j)}}=\beta _{0}$ .

על פי המודל הלוג ליניארי לאי תלות:

${\begin{aligned}\log {\frac {P(X=2|Y=j)}{P(X=1|Y=j)}}&=\log {\frac {P(X=2,Y=j)}{P(X=1,Y=j)}}\\&=\log {\frac {p_{2j}}{p_{1j}}}\\&=\log {\frac {m_{2j}}{m_{1j}}}\\&=\log m_{2j}-\log m_{1j}\\&=(\lambda +\lambda _{2}^{X}+\lambda _{j}^{Y})-(\lambda +\lambda _{1}^{X}+\lambda _{j}^{Y})\\&=\lambda _{2}^{X}-\lambda _{1}^{X}\end{aligned}}$

ואכן, קיבלנו כי לוג יחס הסיכויים אינו תלוי ב- $Y$ . יתרה מזאת, מצאנו כי ניתן לבטא את פרמטר הרגרסיה הלוגיסטית $\beta _{0}$ בעזרת הפרמטרים של המודל הלוג ליניארי: $\beta _{0}=\lambda _{2}^{X}-\lambda _{1}^{X}$ .

כאשר $X$ ו- $Y$ אינם בלתי תלויים, מודל הרגרסיה הלוגיסטית הוא $log{\frac {P(X=2|Y)}{P(X=1|Y)}}=\beta _{0}+\beta _{1}Y$ כלומר לוג יחס הסיכויים תלוי ב- $Y$ .

באופן דומה לפיתוח שנעשה עבור מודל אי התלות, נוכל למצוא כי עבור המודל הרווי:

$\log {\frac {P(X=2|Y=j)}{P(X=1|Y=j)}}=(\lambda _{2}^{X}-\lambda _{1}^{X})+(\lambda _{2j}^{XY}-\lambda _{1j}^{XY})$

כלומר לוג יחס הסיכויים הוא סכום של שני מחוברים, אחד מהם אינו תלוי ב- $Y$ והשני תלוי ב- $Y$ .

לקריאה נוספת

Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 0381130.

Agresti, Alan (2007). An introduction to categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 978-0-471-22618-5.

Agresti, Alan (2002). Categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 0-471-36093-7.

הערות שוליים

^ Stephen E. Fienberg and Alessandro Rinaldo, Maximum likelihood estimation in log-linear models, Annals of Statistics, 2 40, Institute of Mathematical Statistics, 2012, עמ' 996-1023 doi: 10.1214/12-AOS986

[1] Stephen E. Fienberg and Alessandro Rinaldo, Maximum likelihood estimation in log-linear models, Annals of Statistics, 2 40, Institute of Mathematical Statistics, 2012, עמ' 996-1023 doi: 10.1214/12-AOS986

[1]

מודל לוג-ליניארי