חוק בנפורד

ההסתברות המצטברת עבור הספרה המשמעותית ביותר של משתנה מקרי X בעל התפלגות מעריכית עם פרמטר . הגרף התחתון מתאר את הסיכוי שהספרה הראשונה תהיה 1, זה שאחריו את הסיכוי שהיא תהיה 1 או 2, וכן הלאה. סדר השכיחויות קבוע (k יותר שכיח מ-k+1), אבל עוצמת האפקט תלויה בהתפלגות ממנה נדגם X.
ההתפלגות על פי חוק בנפורד. משמאל - ההסתברות באחוזים לקבלת הספרה הראשונה

חוק בנפורד, או חוק הספרה הראשונה, הוא כלל היוריסטי ואמפירי אודות ההסתברות של הופעת ספרות בנתונים של אוכלוסיות טבעיות גדולות. החוק נתגלה ב-1881 על ידי המתמטיקאי והאסטרונום סיימון ניוקום. הוא נקרא על שמו של הפיזיקאי פרנק אלפרד בנפורד, שגילה אותו מחדש ב-1938.

חוק בנפורד תקף, אמפירית, עבור ערכים המפוזרים על-פני כמה סדרי גודל. הוא חל על אוכלוסיות מגוונות - גובהי בניינים, אורכי כבישים, חשבונות חשמל, מחירי מניות, הוצאות בחברות גדולות ועוד.

לפי הגרסה החלשה של החוק, השכיחות של הספרה 1, כספרה המובילה, גבוהה מזו של 2, וכן הלאה, עד לספרה 9 שהיא הנדירה ביותר. לדוגמה, אם רשימת גודלי האוכלוסייה ביישובים בישראל הייתה: 31,000, 48,000, 112,000, 2,500, מהתמקדות בספרות הראשונות בכל מספר - ספרות נמוכות (1 או 2) מופיעות בשכיחות גבוהה יותר מאשר ספרות גבוהות (8 או 9).

גם ניוקום וגם בנפורד הגיעו להשערה מתוך בחינת אותה ראיה: ההתבלות הלא-אחידה של הדפים בטבלאות לוגריתמים.

בדברים בהם המספרים גדלים באופן יחסי, קל להבין את הסיבה להתפלגות כזו, כדי שיישוב יעבור מ-100 תושבים ל-200, עליו לגדול ב-100%, אך המעבר מ-500 ל-600 דורש צמיחה של 20% בלבד.[1]

התפלגות בנפורד נובעת מהנחה שכאשר כותבים את המשתנה בבסיס b, ההסתברות של ספרה מסוימת להופיע אינה תלויה במיקום שלה בתוך המספר.[2] מההנחות האלה נובעת גרסה חזקה של החוק, שלפיה ההסתברות לכך שמספר כלשהו באוכלוסייה יתחיל בספרה ניתנת לחישוב, ושווה ל- . החוק חל על הספרה הראשונה של המספרים, וכן, במידה פחותה והולכת, גם על שתי הספרות הראשונות, השלוש הראשונות, וכן הלאה.

הסבר תאורטי

נסמן ב- את הפונקציה שמחזירה את הספרה המשמעותית המובילה של מספר, ונסמן ב- את הסיגמא-אלגברה על החלק החיובי של הממשיים, הנוצרת על ידי הפונקציה S. לכל מתקיים . נוסף על כך, לכל מתקיים ש- לכל , ו- לכל טבעי וחיובי.

התפלגות של משתנה מקרי חיובי X היא מטיפוס בנפורד אם לכל [3] כל משתנה מקרי ביחס ל- המקיים את התנאי שלכל יש ל- אותה התפלגות כמו של , הוא מטיפוס בנפורד. אם X,Y משתנים מקריים ביחס ל- ובלתי תלויים, ואחד מהם הוא מטיפוס בנפורד, אז כך גם המכפלה XY. המכפלה של משתנים בלתי תלויים רבים , בעלי אותה התפלגות רציפה, מתפלגת מטיפוס בנפורד.

לדוגמה, משתנה מקרי חיובי המקיים , הוא מטיפוס בנפורד. התכונה הנ"ל מתקיימת בקירוב אם מתפלג לוג-נורמלי או לוג-יוניפורמי עם סטיית תקן. התפלגות לוג-נורמלית מופיעה בצורה טבעית במקרים רבים כאשר יש הצטברות כפלית של גורמים. לדוגמה - מחירי מנייות, גודל אוכלוסייה, מספר הנדבקים במגפה וכו'.

שימושים

ניתן להשתמש בחוק בנפורד לצורך זיהוי הונאה באוכלוסיות מספרים שהחוק חל עליהן. לדוגמה, כדי לבצע בדיקת אמינות של דיווחי מס. בדומה, כדי לבדוק האם תוצאות הבחירות 2009 באיראן זויפו או לא, נבדקה התאמתן לצפי מחוק בנפורד.[4] במחלת נגיף קורונה 2019 חוקרים השתמשו בחוק כדי לזהות מדינות שזייפו נתוני תחלואה ותמותה.[5] בימים שלאחר בחירות 2020 לנשיאות ארצות הברית עלו טענות שחוק בנפורד מאותת על כך שייתכן ובוצעו שינויים, טעויות או זיופים בתוצאות הבחירות[6].

ראו גם

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא חוק בנפורד בוויקישיתוף

הערות שוליים

  1. ^ חוק בנפורד ומלחמה בהונאות, באתר מדע גדול, בקטנה
  2. ^ Theodore Hill, Base-Invariance Implies Benford's law, Proc AMS, 123(3), 1995
  3. ^ בניסוח שקול, ההתפלגות של "חלקה במדרגות" .
  4. ^ Does the Iranian election stand up to statistics?, מגזין פלוס (באנגלית)
  5. ^ National COVID numbers — Benford’s law looks for errors Malcolm Sambridge & Andrew Jackson, 26 May 2020, Nature
  6. ^ כלל בנפורד: האינדיקטור שהראה זיופים בבחירות באיראן ומראה, לכאורה, זיופים למען ביידן, באתר רוטר, ‏08.11.20