רגרסיה לוגיסטית

דוגמה לרגרסיה לוגיסטית, שמטרתה להבין כיצד מספר השעות שתלמיד משקיע בלמידה תורמת לסיכוייו לעבור את המבחן. במקרה זה נדגמו 20 תלמידים (הנקודות השחורות), והתוצאה היא העקומה הכחולה (שמייצגת את הסיכוי כפונקציה של השעות)

רגרסיה לוגיסטית היא מודל סטטיסטי המתאר קשר בין משתנה שמי (כלומר, כזה שאינו נמדד באופן כמותי) בעל שתי רמות, המכונה "המשתנה המוסבר", ובין משתנים אחרים המכונים "משתנים מסבירים". המשתנים המסבירים יכולים להיות שמיים, מסוג סדר או רציפים.

שימוש נפוץ במודל הוא כאשר המשתנים המסבירים הם בעלי ערך רציף כלשהו (למשל - טמפרטורה). במקרים אלו הגרף שנוצר מתאר את ההסתברות להתרחשות של מאורע כלשהו, כתלות במשתנים הרציפים. המודל לבדו אינו מספיק כדי לקבוע קשר סיבתי בין המשתנים המסבירים והמשתנה המוסבר.

מודל הרגרסיה הלוגיסטית הוא מקרה פרטי של המודל הליניארי המוכלל (GLM).

היסטוריה

מקורותיה של ההתפלגות הלוגיסטית, המהווה את הבסיס למודל הרגרסיה הלוגיסטית הם במאה ה-19. מקורה במשוואה דיפרנציאלית שתיארה מודל לגידול באוכלוסייה, וגם מודלים של ריאקציות כימיות. הסטטיסטיקאי הבלגי אדולף קטלה הבחין כי הפתרון שנמצא למשוואה הנ"ל מוביל לערכים בלתי אפשריים והציע משוואה מתוקנת שכללה פונקציית התפלגות. פונקציית ההתפלגות שהתגלתה בפתרון המשוואה המתוקנת נקראה בשם ההתפלגות הלוגיסטית.

הרעיון הבסיסי של מודל הרגרסיה הלוגיסטית הוא כי בהינתן משתנה איכותי (הנמדד בסולם מדידה שמי) המקבל שני ערכים, הערך של משתנה זה נקבע על ידי משתנה נסתר שהתפלגותו היא התפלגות לוגיסטית. מקורו של רעיון זה הוא בניסיונות של קרל פירסון לפתח מקדם מתאם למשתנים איכותיים, כאשר הנחתו הייתה כי ערכם של המשתנים האיכותיים נקבע על ידי משתנה נסתר בעל התפלגות נורמלית. סיר דויד קוקס אימץ את הרעיון הזה ופיתח על פיו את מודל הרגרסיה הלוגיסטית שהציג ב-[1]1958.

מוטיבציה

יהי משתנה איכותי המקבל ללא הגבלת הכלליות שני ערכים: 1 ו-0, ויהי משתנה מסביר כלשהו.

כדי לבנות מודל לקשר אפשרי בין ובין נניח מספר הנחות:

  1. קיים משתנה רציף , כך שערכו של שווה ל-0 אם ערכו של קטן מסף כלשהו, וערכו של שווה ל-1 אם ערכו של גדול מסף זה. יש לשים לב כי אינו חלק מהנתונים אלא חלק מהמודל. ללא הגבלת הכלליות נניח כי ערך הסף שווה ל-0, כלומר אם ורק אם .
  2. קיים קשר ליניארי בין ובין המבוטא על ידי המודל
  3. התפלגותו של היא התפלגות לוגיסטית: לכל ממשי.

כן נניח למען הפשטות כי הוא משתנה בדיד.

נסמן ולכן .

על פי ההנחה הראשונה אודות הקשר בין ובין נקבל כי

על פי ההנחה השנייה אודות הקשר בין ובין נקבל כי

על פי ההנחה השלישית אודות ההתפלגות של נקבל כי

ולכן

תאוריה

הגדרה פורמלית

יהי Y משתנה מקרי בינארי המקבל ללא הגבלת הכלליות את הערכים 0 ו-1, ויהי משתנה מקרי רב ממדי . נסמן: ו- .

מודל הרגרסיה הלוגיסטית הוא

הטרנספורמציה מכונה טרנספורמציית לוגיט.

אמידה

בהינתן מדגם בגודל , יהיו ו- הערכים הנצפים של התצפית ה-.

נסמן את הפרמטרים של המודל ב-. מאחר שההתפלגות של היא התפלגות ברנולי עם הסתברות להצלחה , נקבל כי הנראות (likelihood) של התצפית ה- היא ,

ולכן .

מכאן נקבל כי לוג פונקציית הנראות הוא ,

ולכן אומד הנראות המקסימלית ל- הוא .

בדרך כלל לא ניתן למצוא את המקסימום של לוג פונקציית הנראות באופן אנליטי ויש להשתמש בשיטות נומריות כדי לחשב את ערכו של .

פרשנות

למען הנוחות, נתייחס למודל עם משתנה מסביר אחד:

.

  1. אם אז גידול בערכו של יביא לגידול בערכו של . באופן דומה, אם אז גידול בערכו של יביא להקטנת ערכו של .
  2. הוא יחס הסיכויים (odds ratio) של בהינתן .

יישומים

לרגרסיה לוגיסטית יש מספר יישומים אפשריים.

  1. זיהוי קשר בין משתנים: יחס הסיכויים הוא למעשה מקדם קשר בין משתנים. בעזרת רגרסיה לוגיסטית אפשר לזהות משתנים מסבירים שלהם יש קשר חזק עם המשתנה המוסבר. לדוגמה, חוקר המעוניין לזהות גורמי סיכון למחלה מסוימת, יכול לאסוף נתונים אודות גורמי סיכון פוטנציאליים למחלה כגון משקל, לחץ דם גיל, חשיפה למפגע סביבתי וכדומה ונתונים אלה יהיו המשתנים המסבירים. משתנה התגובה יציין לכל אדם במדגם האם הוא חולה במחלה או בריא. משתנים מסבירים עבורם יחס הסיכויים הוא גבוה וגדול מ-1 באופן משמעותי הם גורמי סיכון פוטנציאליים למחלה. משתנים מסבירים עבור יחס הסיכויים נמוך וקטן מ-1 באופן משמעותי הם גורמים המפחיתים את הסיכון לחלות במחלה.
  2. סיווג וחיזוי: לאחר שאומדים את הפרמטרים של מודל הרגרסיה, ניתן לחשב בעזרתו את ההסתברות כי עבור פרט מסוים עבורו נתונים רק ערכי המשתנים המסבירים, ערך המשתנה המוסבר יהיה שווה ל-1. בהתאם לנסיבות ניתן לסווג את הערך של המשתנה המוסבר ל-1 או 0, או לחזות כי הוא יהיה שווה ל-1 או 0 על פי ההסתברות הזו. לדוגמה, חברה יכולה להשתמש בנתונים אודות הלקוחות כדי לחזות האם הלקוח ינטוש את החברה, על ידי כך שתאסוף נתונים אודות מדגם של לקוחות בנקודת זמן מסוימת, והמשתנה המוסבר יהיה האם הלקוח עזב את החברה במהלך השנה שלאחר מכן. בעזרת הפרמטרים שנאמדו החברה תוכל לחשב לכל לקוח את ההסתברות שינטוש את החברה בשנה הקרובה. החברה יכולה להחליט למשל כי אם עבור לקוח מסוים ההסתברות שלו לנטוש את החברה גדולה מ-70%, למשל, אזי יש לנקוט בפעולות לשימור הלקוח, כגון הצעת תנאים יותר טובים.

דוגמה

לצורך פיתוח שיטה לזיהוי של גידולים בשד כשפירים או סרטניים נדגמו 569 גידולים שסווגו כשפירים או סרטניים, ונאספו נתונים על התאים שבכל גידול[2].

לצורך הדוגמה נשתמש בארבעה נתונים מתוך כל הנתונים שנאספו. כל הנתונים הם ממוצעים של מדידות ממדגם של תאים מתוך כל גידול:

  1. רדיוס התא - radius
  2. מרקם התא - texture
  3. היקף התא - perimeter
  4. שטח הפנים של התא - area

הנתונים נותחו בעזרת הפונקציה glm של שפת התכנות R. אמדני הפרמטרים נתונים בטבלה הבאה:

P-value z value Std. Error Estimate
<0.0001 -8.346 4.132106 -34.4869 (Intercept)
<0.0001 5.748 0.041969 0.241225 texture
<0.0001 -4.603 0.004719 -0.02173 area
<0.0001 6.404 0.072482 0.464194 perimeter

ניתן לראות כי כל האמדנים של ערכי הם מובהקים סטטיסטית (כל ערכי ה-p קטנים מ-0.001), כלומר שונים באופן מובהק מאפס. אמדני הפרמטרים (הנמצאים בעמודת Estimate) המתאימים למרקם (texture) ולהיקף (perimeter) חיוביים, ומכאן שככל שערכיהם גבוהים יותר כך ההסתברות כי התא הנבדק סרטני גדולה יותר. לעומת זאת המקדם המתאים לשטח הפנים של התא שלילי, ומכאן שככל ששטח הפנים גדול יותר ההסתברות כי הגידול סרטני נמוכה יותר. פרשנות האמדנים ליחסי הסיכויים (OR) ורווחי הסמך שלהם נתונים בטבלה הבאה:

high low OR
0.000 0.000 0.000 (Intercept)
1.378 1.168 1.273 texture
0.988 0.969 0.979 area
1.817 1.365 1.591 perimeter

(הערה: רווחי הסמך חושבו בעזרת שיטת הדלתה שאינה זמינה בפונקציית glm של R).

יחס הסיכויים הגבוה ביותר התקבל עבור משתנה ההיקף (OR=1.591), ומכאן שמבין שלושת הפרמטרים שנבדקו הקשר בינו ובין היות הגידול סרטני או שפיר הוא החזק ביותר. יש גם קשר חזק יחסית (OR=1.279) בין משתנה המרקם ובין סוג הגידול. יחס הסיכויים שבין שטח הפנים וסוג הגידול קרוב למדי לערך 1, ולא ברור אם יש לו משמעות רפואית.

ראו גם

הערות שוליים

  1. ^ Cox, David R, The regression analysis of binary sequences (with discussion), Journal of the Royal Statistical Society, Seires B, 2 20, 1958, עמ' 215–242
  2. ^ Breast Cancer Wisconsin (Diagnostic) Data Set, UCI Machune Learnng Depository

Read other articles:

Bonggolan yang telah digoreng Bonggolan adalah jajanan berbentuk lonjong yang terbuat dari bahan dasar daging ikan yang dicampur tepung kanji yang ditambah dengan garam dan bawang putih. Jajanan ini berasal dari daerah pesisir Gresik, Jawa Timur. Jajanan ini memiliki tekstur yang kenyal.[1] Sejarah Pada awalnya, sejarah terbentuknya makanan ini sangat sederhana. Bonggolan ditemukan dan juga menjadi makanan khas oleh daerah pesisir utara Kabupaten Gresik, Jawa Timur. Jajanan ini dibuat...

 

نهائي كأس أوروبا 1972الحدثكأس أوروبا 1971–72 أياكس أمستردام إنتر ميلان 2 0 التاريخ31 مايو 1972الملعبملعب فيينورد، روتردامرجل المباراةيوهان كرويفالحكمروبرت هيليز(فرنسا)الحضور61,354 → 1971 1973 ← نهائي كأس أوروبا 1972 هي مباراة كرة قدم جمعت بين نادي أياكس أمستردام الهولندي وإنتر ميلان ال...

 

Maria KirilenkoKebangsaan RusiaTempat tinggalMoscow, RussiaTinggi173 m (567 ft 7 in)Berat57,6 kgMemulai pro2001PensiunAktifTipe pemainKananTotal hadiah$6,003,340TunggalRekor (M–K)199–133Gelar5 (3 gelar ITF)Peringkat tertinggiNo. 12 (27 Agustus 2012)Peringkat saat iniNo. 13 (26 Maret 2013)Hasil terbaik di Grand Slam (tunggal)Australia Terbuka4r (2008)Prancis Terbuka3r (2006)Wimbledon2r (2005)AS Terbuka3r (2003, 2006, 2007)GandaRekor (M–K)105–84Gelar5 WTAPeringk...

Esslingen Lambang kebesaranLetak Esslingen di Esslingen NegaraJermanNegara bagianBaden-WürttembergWilayahStuttgartKreisEsslingenPemerintahan • MayorJürgen Zieger (SPD)Luas • Total46,43 km2 (1,793 sq mi)Ketinggian241 m (791 ft)Populasi (2021-12-31)[1] • Total92.640 • Kepadatan20/km2 (52/sq mi)Zona waktuWET/WMPET (UTC+1/+2)Kode pos73701–73734Kode area telepon0711Pelat kendaraanESSitus webwww.esslingen...

 

Star whose atmosphere contains more carbon than oxygen A carbon star (C-type star) is typically an asymptotic giant branch star, a luminous red giant, whose atmosphere contains more carbon than oxygen.[1] The two elements combine in the upper layers of the star, forming carbon monoxide, which consumes most of the oxygen in the atmosphere, leaving carbon atoms free to form other carbon compounds, giving the star a sooty atmosphere and a strikingly ruby red appearance. There are also so...

 

Voce principale: Necropoli di Tebe. Valle dei ReWadi Biban el-Muluk(in antico: Ta-sekhet-ma'at)La Valle dei Re, vista panoramicaCiviltàAntico Egitto UtilizzoNecropoli reale EpocaNuovo Regno (XVI-XI secolo a.C.) LocalizzazioneStato Egitto LocalitàLuxor DimensioniSuperficie700 000 m² AmministrazionePatrimonioNecropoli di Tebe EnteMinistero delle Antichità Visitabilesì Sito webwww.sca-egypt.org/eng/SITE_VOK.htm Mappa di localizzazione Modifica dati su Wikidata · Manual...

Opera by Giacomo Puccini Girl of the Golden West redirects here. For other uses, see The Girl of the Golden West (disambiguation). La fanciulla del WestOpera by Giacomo PucciniUna partita a poker – a crucial scene with Emmy Destinn in the title role in the premiereTranslationThe Girl of the WestLibrettist Guelfo Civinini Carlo Zangarini LanguageItalianBased onDavid Belasco's play The Girl of the Golden WestPremiere10 December 1910 (1910-12-10)Metropolitan Opera La fanciulla d...

 

All YoursSampul versi digital dan YOUAlbum studio karya AstroDirilis05 April 2021 (2021-04-05)Direkam2021GenreK-popDurasi33:59Label Fantagio Kakao M Kronologi Astro Gateway(2020) All Yours(2021) Switch On(2021) Singel dalam album All Yours OneDirilis: 5 April 2021 All Yours adalah album studio berbahasa Korea kedua dari grup vokal pria asal Korea Selatan Astro. Album ini dirilis pada tanggal 5 April 2021, melalui Fantagio Music.[1] Daftar lagu Daftar lagu All YoursNo.JudulLir...

 

Genus of hardwood trees This article is about ramin, the hardwood. For other uses, see Ramin (disambiguation) and Ramen. Gonystylus Conservation status CITES Appendix II (CITES) Scientific classification Kingdom: Plantae Clade: Tracheophytes Clade: Angiosperms Clade: Eudicots Clade: Rosids Order: Malvales Family: Thymelaeaceae Subfamily: Octolepidoideae Genus: GonystylusTeijsmann & Binnendijk Species See text Gonystylus is a southeast Asian genus of about 30 species of hardwood trees...

Частина серії проФілософіяLeft to right: Plato, Kant, Nietzsche, Buddha, Confucius, AverroesПлатонКантНіцшеБуддаКонфуційАверроес Філософи Епістемологи Естетики Етики Логіки Метафізики Соціально-політичні філософи Традиції Аналітична Арістотелівська Африканська Близькосхідна іранська Буддій�...

 

Book by Bobby Henderson The Gospel of theFlying Spaghetti Monster First edition cover – designed to look like a hardbackAuthorBobby HendersonCountryUnited StatesLanguageEnglishGenreSatirical religious textPublisherVillard BooksPublication dateMarch 28, 2006Media typePrint (Paperback)Pages192 ppISBN0-8129-7656-8OCLC65065501Dewey Decimal818/.607 22LC ClassPN6231.R4 H46 2006 The Gospel of the Flying Spaghetti Monster is a satirical book written by Bobby Henderson that embodies t...

 

GwanbokHeuk dallyeongpo pada akhir abad ke-18Nama KoreaHangul관복 Hanja官服 Alih AksaragwanbokMcCune–Reischauerkwanbok Gwanbok (bahasa Korea: 관복 Pengucapan Korea: [goanbok]) adalah istilah Korea untuk kata bahasa mandarin guanfu (冠服/官服, pakaian mahkota/baju dinas).[1] Gwanbok merupakan istilah umum yang mengacu pada pakaian resmi bersejarah,[1] yang dianugerahkan oleh pemerintah Korea, termasuk oleh kekaisaran Tiongkok kuno.[2][3] Beb...

Parish of Latvia Parish of LatviaLīksna Parishparish of Latvia55°59′37″N 26°27′06″E / 55.9935°N 26.4518°E / 55.9935; 26.4518 CountryLatviaArea[1] • Total138.28 km2 (53.39 sq mi) • Land132.98 km2 (51.34 sq mi) • Water5.3 km2 (2.0 sq mi)Population (1 January 2023)[2] • Total943 • Density6.8/km2 (18/sq mi)Websiteliksna.lv Līksna ...

 

Museum Prangko IndonesiaDidirikan1983LokasiJalan Raya Taman Mini, Jakarta Timur, DKI JakartaJenisMuseumSitus webhttps://tamanmini.com/taman_jelajah_indonesia/museum/museum-prangko/ Museum Prangko Indonesia adalah museum yang terletak di dalam kompleks Taman Mini Indonesia Indah (TMII) yang dibangun atas gagasan Tien Soeharto dan diresmikan oleh Presiden Soeharto pada tanggal 29 September 1983. Bangunan museum bernuansa etnik Jawa-Bali. Di sayap kanan dan kiri terdapat satu bangunan dengan lua...

 

Kuil Bà Chúa Kho Bắc Ninh (listenⓘ) adalah sebuah kota di bagian utara Vietnam dan merupakan ibu kota Provinsi Bac Ninh. Kota ini adalah pusat budaya, administrasi dan komersial provinsi. Luas kota adalah 82,60 km persegi, dengan populasi 501.199 pada November 2017. Pada Januari 2006, kota (thị xã) Bắc Ninh ditingkatkan menjadi kota (thành phố). Pada Maret 1884, Bắc Ninh adalah situs kampanye yang menentukan dalam pertempuran antara Prancis dan berbagai Pasukan Bendera Hi...

Caregginecomune Careggine – VedutaPanorama del centro di Careggine, con la porta d'accesso, la Pieve di San Pietro e il campanile LocalizzazioneStato Italia Regione Toscana Provincia Lucca AmministrazioneSindacoLucia Rossi (lista civica Uniti per Careggine) dal 27-5-2019 TerritorioCoordinate44°07′15″N 10°19′35″E44°07′15″N, 10°19′35″E (Careggine) Altitudine882 m s.l.m. Superficie24,08 km² Abitanti503[1] (31-01-2024) Densi...

 

2000 in athleticsMajor world eventsOlympic GamesIAAF Athletes of the YearJan ŽeleznýMarion Jones← 1999 2001 → Overview of the events of 2000 in the sport of athletics Years in the sport of athletics ← 1997 1998 1999 2000 2001 2002 2003 → 2000 in sports Air sports American football Aquatic sports Association football Athletics Australian rules football Badminton Baseball Basketball Canadian football Chess Climbing Combat sports Sumo Cricket 1999–00 2000 2000–01 Cycling Da...

 

Constituency of the Karnataka legislative assembly in India Kolar Gold FieldsConstituency No. 146 for the Karnataka Legislative AssemblyConstituency detailsCountryIndiaRegionSouth IndiaStateKarnatakaDivisionBangaloreDistrictKolarLS constituencyKolarEstablished1951Total electors199,982[1]ReservationSCMember of Legislative Assembly16th Karnataka Legislative AssemblyIncumbent M. Roopakala PartyIndian National CongressElected year2023Preceded byY. Ramakka Kolar Gold Fields is one of the c...

Suku GilanJumlah populasi3[1] hingga 4 juta[2] (2006)Daerah dengan populasi signifikanProvinsi Gilan, Mazandaran, dan Golestan di IranBahasaGilanAgamaSyiahKelompok etnik terkaitSuku bangsa Iran Suku Gilan (bahasa Gilan: گیلک) adalah sebuah suku bangsa Iran yang menghuni provinsi Gilan di Iran utara. Mereka merupakan salah satu suku bangsa utama yang mendiami Iran bagian utara. Suku Gilan berkerabat dengan suku Mazandaran[3] yang mendiami wilayah pesisir selatan dan...

 

「南西部」の定義はさまざまである。濃い赤の州は通常含まれるが、斜線の州の全体あるいは一部は含まれたり含まれなかったりする。 アメリカ合衆国南西部(アメリカがっしゅうこくなんせいぶ、Southwestern United States)とは、アメリカ合衆国の南西に位置する地域のこと。単に南西部(Southwest)とも呼ばれる。この地域は北部よりも暖かく、東部よりも乾燥している�...