מתאם פירסון

תרשימי פיזור, מתאם פירסון מצוין בצבע כחול, קו הרגרסיה מצויר בירוק.

מִתְאָם פירסון, או בשמו המלא מְקַדֵּם הַמִּתְאָם של פירסוןאנגלית: Pearson correlation coefficient), על שם קרל פירסון, הוא מדד לקשר ליניארי בין שני משתנים כמותיים שערכיהם מתקבלים במדגם.

היסטוריה

הרעיון הבסיסי למקדם המתאם הוצע על ידי פרנסיס גאלטון בשנות השמונים של המאה ה-19, שניסה למדוד קשרים בין משתנים תצפיתיים. החישוב של גאלטון היה ויזואלי, והסתמך על שרטוט הנתונים במערכת צירים ומדידה פיזית של שיפוע קו הרגרסיה. קרל פירסון גיבש את רעיונותיו של גאלטון והציג את הנוסחה המקובלת כיום. רונלד פישר חישב את התפלגותו של מקדם המתאם כאשר מקור התצפיות בהתפלגות נורמלית, ואיפשר בכך הסקה סטטיסטית על ערכו התאורטי של המקדם.

הגדרה

יהיו נתונים על שני משתנים ו- שהתקבלו במדגם. מקדם המתאם של פירסון, r מוגדר כ-:

כאשר הוא ממוצע ערכי ו- ממוצע ערכי , והסכימה היא על כל ערכי הנתונים מהמדגם.

מההגדרה ניתן לראות כי מקדם המתאם הוא סימטרי, כלומר מקדם המתאם בין X ל-Y שווה בערכו למקדם המתאם בין Y ל-X

יש להדגיש כי אף על פי שהחישוב על פי הנוסחא מתאפשר כאשר X ו-Y מקבלים ערכים מספריים כלשהם, אין משמעות לערכו של מקדם המתאם אם X ו-Y אינם משתנים כמותיים, כלומר נמדדים בסולם מנה או סולם רווח (ראו: סולמות מדידה).

ניתן להוכיח כי:

  • ערכו של r נע בין 1- ל-1 (בעזרת אי שוויון קושי-שוורץ).
  • הערך 1 יתקבל כאשר יש קשר ליניארי חיובי מלא בין המשתנים
  • הערך 1- יתקבל כאשר יש קשר ליניארי שלילי מלא בין המשתנים.

עם זאת, ברוב המקרים r יקבל ערכי ביניים בין שני ערכי הקיצון, וערכים אלה נתונים לפרשנות. לדוגמה: אם ערכו של r שווה ל-0.8, הפרשנות המקובלת היא כי בין שני המשתנים קיים קשר ליניארי חיובי בעוצמה גבוהה. מקובל לפרש את ערכי מקדם המתאם באופן הבא:

  1. עוצמת הקשר הליניארי בין המשתנים: ככל שהערך קרוב יותר ל־1+ או ל־1- אזי עוצמת הקשר חזקה יותר.
  2. כיוון הקשר הליניארי בין המשתנים: ערך חיובי פירושו קשר ליניארי חיובי. ערך שלילי פירושו קשר ליניארי שלילי (הפוך).
  3. כאשר ערכו של מקדם המתאם קרוב לאפס הקשר הליניארי בין שני המקדמים חלש.

יש להדגיש כי גם כאשר ערכו של מקדם המתאם קרוב לאפס או אפילו שווה לאפס, אין להסיק מכך כי אין קשר בין שני המשתנים, כיוון שייתכן כי בין המשתנים קיים קשר אחר שאינו ליניארי. לדוגמה: אם ערכי X שווים לערכים השלמים שבין 10- ל-10 (כלומר ערכי X הם 10-, 9-, 8-, וכן הלאה עד 8, 9, 10) ואילו Y שווה ל-, ערכו של מקדם המתאם יהיה שווה ל-0 למרות שברור כי יש קשר בין שני המשתנים. כמו כן, אין להסיק מערכים הקרובים ל-1 או 1- כי קיים קשר סיבתי בין שני המשתנים X ו-Y.

אנלוגיה מתמטית הסתברותית

מבחינה מתמטית, המתאם ההסתברותי בין שני משתנים מקריים X ו-Y עם תוחלות μX ו-μY וסטיות תקן σX ו-σY מוגדר על פי הנוסחה הבאה:

כאשר E מציין תוחלת ו-cov מציין שונות משותפת. מכיוון שלפי ההגדרה במכנה הנוסחה מופיעות סטיות התקן של המשתנים X ו-Y עולה כי המקדם מוגדר אך ורק אם לכל אחד מהמשתנים ו- קיימת שונות סופית וחיובית.

אם מקדם המתאם ההסתברותי שווה ל-0 נאמר כי המשתנים ו- הם "בלתי מתואמים".

התכונות של מקדם המתאם ההסתברותי דומות לתכונות של מקדם המתאם של פירסון. בנוסף, קל להוכיח כי אם המשתנים ו- הם בלתי תלויים, הרי שהם בלתי מתואמים. הטענה ההפוכה אינה נכונה: קיימים משתנים מקריים בלתי מתואמים שאינם בלתי תלויים. דוגמה טריוויאלית היא כאשר הוא משתנה מקרי המפולג אחיד בקטע , ו-.

הרחבות

קיימות מספר הרחבות למקדם המתאם של פירסון. הידועה שבהם היא מקדם המתאם של ספירמן, בו מקדם המתאם מחושב על פי הדרגות של המשתנים, כלומר הערך הנמוך ביותר של X מקבל דרגה השווה ל-1, הערך השני הנמוך ביותר מקבל דרגה 2 וכן הלאה. מקדם זה מתאים לאמידת עוצמת הקשר בין שני משתנים הנמדדים בסולם סודר. הפרשנות של ערכי מקדם המתאם של ספירמן דומה לזו של מקדם פירסון. עם זאת, אין להסיק כי כאשר ערך מקדם המתאם של ספירמן שווה ל-1 אזי קיים קשר ליניארי מלא בין המשתנים, אך ניתן להסיק כי קיים ביניהם קשר מונוטוני.

כן קיימות הרחבות למתאם חלקי, מתאם מתוקן, מתאם ממושקל, מתאם כאשר המשתנים אינם סימטריים סביב הממוצע שלהם ועוד.

פירסון עצמו ניסה להרחיב את מקדם המתאם כך שיוכל למדוד את הקשר בין שני משתנים קטגוריים (כלומר משתנים המקבלים מספר סופי של ערכים) הנמדדים בסולם סדר. הוא פיתח שני מדדים: מקדם המתאם הטטרכורי ומקדם המתאם הפוליכורי. השימוש במדדים אילו מצומצם, אם כי יש תוכנות מחשב המאפשרות את חישוב המדדים האלה.

ראו גם

קישורים חיצוניים