Dilemme biais-variance

Fonction et données bruitées.
spread=5
spread=1
spread=0.1
Une fonction (rouge) est estimée à l'aide de fonctions de base radiales (RBF) (en bleu). Plusieurs essais sont présentés dans chaque graphique.

Pour chaque essai, quelques points de données bruitées sont fournis comme ensemble d'apprentissage (en haut).

Pour une forte valeur du paramètre d'envergure[Quoi ?] (spread) (image 2), le biais est élevé : les RBF ne peuvent pleinement approximer la fonction (en particulier le creux central), mais la variance entre les différents essais est faible. Lorsque le paramètre d'envergure diminue (image 3 et 4), le biais diminue : les courbes bleues se rapprochent davantage de la courbe rouge. Cependant, en fonction du bruit dans les différents essais, la variance entre les essais augmente. Dans l'image du bas, les approximations pour x = 0 varient énormément selon l'endroit où se trouvaient les points de données.

En statistique et en apprentissage automatique, le dilemme (ou compromis) biais–variance est le problème de minimiser simultanément deux sources d'erreurs qui empêchent les algorithmes d'apprentissage supervisé de généraliser au-delà de leur échantillon d'apprentissage :

  • Le biais est l'erreur provenant d’hypothèses erronées dans l'algorithme d'apprentissage. Un biais élevé peut être lié à un algorithme qui manque de relations pertinentes entre les données en entrée et les sorties prévues (sous-apprentissage).
  • La variance est l'erreur due à la sensibilité aux petites fluctuations de l’échantillon d'apprentissage. Une variance élevée peut entraîner un surapprentissage, c'est-à-dire modéliser le bruit aléatoire des données d'apprentissage plutôt que les sorties prévues.

La décomposition biais-variance est une façon d'analyser l'espérance de l'erreur de prédiction d'un algorithme d'apprentissage d'un problème particulier comme une somme de trois termes : le biais, la variance et une quantité, appelée erreur irréductible, résultant du bruit dans le problème lui-même.

Ce compromis s'applique à toutes les formes d'apprentissage supervisé : classification, régression (fonction de montage)[1],[2], et le structured (output) learning (en). Il a également été invoqué pour expliquer l'efficacité des heuristiques dans l'apprentissage humain.

Motivation

L'image illustre le compromis biais-variance en apprentissage automatique. Ce compromis décrit l'équilibre entre deux sources d'erreur dans un modèle prédictif : Biais : Erreur due à des hypothèses simplificatrices du modèle, pouvant entraîner un sous-ajustement (underfitting). Variance : Erreur liée à la sensibilité du modèle aux fluctuations des données d'entraînement, pouvant conduire à un surajustement (overfitting).

Le compromis biais-variance est un problème central en apprentissage supervisé. Idéalement, on veut choisir un modèle qui reflète avec précision les régularités dans les données d'apprentissage, mais qui se généralise aussi aux données tests (données n'ayant pas servi à entrainer le modèle). Malheureusement, il est généralement impossible de faire les deux en même temps. Les méthodes d'apprentissage avec une variance élevée peuvent assez bien représenter l’échantillon d’apprentissage, mais il existe un risque de surapprentissage sur des données tests ou bruitées. En revanche, les algorithmes avec une variance faible produisent généralement des modèles plus simples qui n'ont pas tendance au sur-apprentissage, mais peuvent être en sous-apprentissage sur le jeu de données d'apprentissage.

Les modèles avec un faible biais sont généralement plus complexes (par exemple la régression polynomiale à plusieurs degrés), mais permettent de représenter les données d’apprentissage avec plus de précision. Cependant, ils peuvent également représenter une partie du bruit aléatoire du jeu d'apprentissage, leurs prédictions sont donc moins précises malgré la complexité supplémentaire. En revanche, les modèles avec un biais plus élevé ont tendance à être relativement simples (régression polynomiale à moindre degré ou même linéaire), mais peuvent produire des prédictions de variance plus faible lorsqu'ils sont appliqués au-delà de l'ensemble d'apprentissage.

Décomposition biais-variance de l'erreur quadratique

Supposons que nous avons un ensemble d'apprentissage constitué d'un ensemble de points et de valeurs réelles associée à chaque point . Nous supposons qu'il existe une relation fonctionnelle bruitée , où le bruit, , a une moyenne nulle et une variance .

Trouver une fonction qui se généralise à des points extérieurs à l'ensemble d'apprentissage peut être fait avec l'un des nombreux algorithmes utilisés pour l'apprentissage supervisé. Selon la fonction que nous choisissons, son erreur attendue sur un  échantillon test  peut se décomposer comme suit[3]:34,[4]:223:

et

L'espérance est calculée sur l'ensemble des différents choix de l'échantillon d'apprentissage , tous générés selon la même distribution. Les trois termes sont :

  • le biais au carré de la méthode d'apprentissage, qui peut être vue comme l'erreur due aux hypothèses simplifiées de la méthode utilisée. Par exemple, approcher une fonction non linéaire à l'aide d'une méthode pour modèle linéaire va produire des erreurs d'estimation du fait de cette hypothèse ;
  • la variance de la méthode d'apprentissage, ou plus intuitivement, de combien la méthode d'apprentissage se déplace autour de sa moyenne;
  • l'erreur irréductible . Étant donné que tous les trois termes sont positifs, cela constitue une limite inférieure sur l'erreur attendue sur des échantillons test[3].:34

Plus le modèle de est complexe, plus le biais sera faible.  Cependant, la complexité va rendre le modèle "mobile" pour s'adapter aux données, et donc sa variance sera plus grande.

Application à la classification

La décomposition biais-variance a été initialement formulée pour une régression des moindres carrés. Dans le cas de la classification sous la perte 0-1 (Taux d'erreur),  Il est possible de trouver une décomposition similaire [7],[8]. Sinon, si le problème de la classification peut être formulé comme classification probabiliste, alors l'erreur quadratique attendue des probabilités prédites par rapport aux véritables probabilités peut être décomposée comme précédemment[9].

Approches

La réduction de la dimension et la sélection de variables (features en anglais) peuvent diminuer la variance tout en simplifiant les modèles.  De même, un plus grand ensemble d'apprentissage tend à diminuer la variance. L'ajout de variables explicatives (features) tend à diminuer le biais, au détriment de l'introduction de variance supplémentaire.

Les algorithmes d'apprentissage ont généralement certains paramètres ajustables qui contrôlent le biais et la variance, e.g. :

Une façon de résoudre le compromis consiste à utiliser des modèles mixte et de l'apprentissage ensembliste[12],[13]. Par exemple, le boosting combine plusieurs "mauvais" modèles (biais élevé) dans un ensemble qui a un biais plus faible que les modèles individuels, tandis que le bagging combine les "meilleurs" classifieurs d'une manière qui réduit leur variance.

Méthode des k plus proches voisins

Dans le cas de la méthode des k plus proches voisins, une formule explicite existe concernant la décomposition biais–variance du paramètre [4]:

sont les plus proches voisins de dans l’échantillon d'apprentissage. Le biais (premier terme de l’équation) est une fonction monotone croissante de , alors que la variance (second terme) diminue lorsque augmente. En effet, avec des "hypothèses raisonnables", le biais de l'estimateur du plus proche voisin (1-NN) disparaît entièrement lorsque la taille de l’échantillon d'apprentissage tend vers l'infini[1].

Application à l'apprentissage humain

Bien que largement discuté dans le contexte de l'apprentissage automatique, le dilemme biais-variance a été examiné dans le contexte des sciences cognitives, et plus particulièrement par Gerd Gigerenzer et ses co-auteurs dans le contexte de l'apprentissage heuristique. Ils soutiennent que, à partir des ensembles de données typiquement sporadiques et mal caractérisées produits par l’expérience, le cerveau humain résout ce dilemme en adoptant une heuristique à biais élevé et faible variance. Cela reflète le fait qu'une approche non biaisée se généralise mal à de nouvelles situations, et suppose aussi déraisonnablement une connaissance précise de la réalité. Les heuristiques en résultant sont relativement simples, mais produisent de meilleures inférences dans une plus grande variété de situations[14].

Geman et al. soutiennent que le dilemme biais-variance implique que les capacités telles que la reconnaissance d'objet générique ne peuvent être apprises à partir de zéro, mais nécessitent un certain degré d'inné qui est ensuite réglée par l'expérience. Ceci car les approches sans modèle d'inférence nécessitent des ensembles d'apprentissage démesurément grands si l'on veut éviter une forte variance.

Voir aussi

Références

  1. a b et c (en) Stuart Geman, Élie Bienenstock et René Doursat, « Neural networks and the bias/variance dilemma », Neural Computation, vol. 4,‎ , p. 1–58 (DOI 10.1162/neco.1992.4.1.1, S2CID 14215320, lire en ligne).
  2. (en) Jo-Anne Ting, Sethu Vijaykumar et Stefan Schaal, Encyclopedia of Machine Learning, Springer, (Bibcode 2010eoml.book.....S, lire en ligne), « Locally Weighted Regression for Control », p. 615
  3. a b et c (en) Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning, Springer, (lire en ligne).
  4. a et b (en) Trevor Hastie, Robert Tibshirani et Jerome H. Friedman, The Elements of Statistical Learning, (lire en ligne [archive du ]).
  5. (en) Sethu Vijayakumar, « The Bias–Variance Tradeoff », University of Edinburgh, (consulté le ).
  6. (en) Greg Shakhnarovich, « Notes on derivation of bias-variance decomposition in linear regression » [archive du ], (consulté le ).
  7. Pedro Domingos « A unified bias-variance decomposition » () (lire en ligne)
    ICML
    .
  8. Giorgio Valentini et Thomas G. Dietterich, « Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods », Journal of Machine Learning Research, vol. 5,‎ , p. 725–775 (lire en ligne).
  9. Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press, , 308–314 p. (lire en ligne), « Vector Space Classification ».
  10. (en) David Belsley, Conditioning diagnostics : collinearity and weak data in regression, New York (NY), Wiley, (ISBN 978-0471528890).
  11. (en) Francesco Gagliardi, « Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction », Artificial Intelligence in Medicine, vol. 52, no 3,‎ , p. 123–139 (PMID 21621400, DOI 10.1016/j.artmed.2011.04.002, lire en ligne).
  12. (en) Jo-Anne Ting, Sethu Vijaykumar et Stefan Schaal, Encyclopedia of Machine Learning, Springer, (Bibcode 2010eoml.book.....S, lire en ligne), « Locally Weighted Regression for Control », p. 615.
  13. (en) Scott Fortmann-Roe, « Understanding the Bias–Variance Tradeoff », .
  14. (en) Gerd Gigerenzer et Henry Brighton, « Homo Heuristicus: Why Biased Minds Make Better Inferences », Topics in Cognitive Science, vol. 1, no 1,‎ , p. 107–143 (PMID 25164802, DOI 10.1111/j.1756-8765.2008.01006.x, hdl 11858/00-001M-0000-0024-F678-0 Accès libre).

Liens externes

Read other articles:

Kaisar Zhao dari HanKaisar Dinasti HanBerkuasa87–74 SMPendahuluKaisar WuPenerusPangeran He dari ChangyiInformasi pribadiKelahiran94 SMChang'an, Kekaisaran HanKematian74 SM (usia 20)Chang'an, Kekaisaran HanPemakamanMausoleum PinglingWangsaWangsa LiuNama lengkapLiu Fuling 劉弗陵Shĭyúan 始元 (86 SM – 80 SM)Yúanfèng 元鳳 (80 SM – 75 SM)Yúanpíng 元平 (74 SM)Nama anumertaXiaozhao Huangdi (Hanzi: 孝昭皇帝; Pinyin: Xiàozhāo Huángdì), Zhao Di (Hanzi: 昭帝; Pi...

 

The Greatest ShowmanPoster filmSutradaraMichael GraceyProduser Laurence Mark Peter Chernin Jenno Topping Skenario Jenny Bicks Bill Condon CeritaJenny BicksPemeran Hugh Jackman Zac Efron Michelle Williams Rebecca Ferguson Zendaya Penata musik John Debney Joseph Trapanese SinematograferSeamus McGarveyPenyunting Tom Cross Robert Duffy Joe Hutshing Michael McCusker Jon Poll Spencer Susser PerusahaanproduksiChernin EntertainmentSeed ProductionsLaurence Mark ProductionsTSG EntertainmentDistri...

 

Chemical compound Cortisone acetateClinical dataTrade namesAdreson, Cortison, Cortisone, Cortisone Acetate, Cortone, Cortistab, Cortisyl, othersOther namesCortisone 21-acetate; 17α,21-Dihydroxypregn-4-ene-3,11,20-trione 21-acetateDrug classCorticosteroid; GlucocorticoidIdentifiers IUPAC name [2-[(8S,9S,10R,13S,14S,17R)-17-hydroxy-10,13-dimethyl-3,11-dioxo-1,2,6,7,8,9,12,14,15,16-decahydrocyclopenta[a]phenanthren-17-yl]-2-oxoethyl] acetate CAS Number50-04-4PubChem CID5745DrugBankDB01380ChemSp...

Voce principale: Vicenza Calcio. Questa voce sull'argomento stagioni delle società calcistiche italiane è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Associazione Del Calcio Di VicenzaStagione 1926-1927Sport calcio SquadraVicenza Calcio Allenatore Imre János Bekey Presidente Tullio Cariolato Seconda Divisione3º posto nel girone C Nord 1925-1926 1927-1928 Si invita a seguire il modello di voce Stag...

 

† Человек прямоходящий Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:Синапсиды�...

 

Nicole Melichar-MartinezMelichar di Kejuaraan Wimbledon 2019Kebangsaan Amerika SerikatTempat tinggalStuart, Florida, A.S.Lahir29 Juli 1993 (umur 30)Brno, Republik CekoTinggi181 cm (5 ft 11 in)Total hadiahUS$ 2,154,371TunggalRekor (M–K)140–137 (50.54%)Gelar0 WTA, 2 ITFPeringkat tertinggiNo. 400 (24 September 2012)GandaRekor (M–K)345–287 (54.59%)Gelar12 WTA, 1 WTA 125Peringkat tertinggiNo. 9 (17 Mei 2021)Peringkat saat iniNo. 17 (6 Maret 2023)Hasil terbaik di Gr...

Cet article est une ébauche concernant une localité anglaise. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Maryport Administration Pays Royaume-Uni Nation Angleterre Comté Cumbria Démographie Population 9 639 hab. Géographie Coordonnées 54° 42′ 55″ nord, 3° 29′ 53″ ouest Localisation Géolocalisation sur la carte : Royaume-Uni Maryport Géolocalisat...

 

Les montagnards quittant l'aoul, par Pyotr Gruzinsky (en), 1872 Le terme moderne nettoyage ethnique des Circassiens, également qualifié de déportation désigne l'expulsion des Circassiens de la Circassie historique, soit approximativement la majeure partie de la Ciscaucasie au nord-est de la mer Noire, vers l'Empire ottoman et dans une moindre mesure vers la Perse Kadjare à la suite de la guerre du Caucase, gagnée par l'Empire russe qui les remplaça par les cosaques du Kouban et du...

 

Stadion Yanmar Nagai Informasi stadionPemilikOsaka CityLokasiLokasiOsaka, JapanKoordinat34°36′50″N 135°31′06″E / 34.61389°N 135.51833°E / 34.61389; 135.51833KonstruksiDibuka1964Diperbesar1996Direnovasi2007Data teknisPermukaanRumput (107 m x 71 m)Kapasitas50.000Ukuran lapangan105 x 68 mPemakaiCerezo Osaka (1996-kini)Kejuaraan Dunia Atletik IAAF (2007)Sunting kotak info • L • BBantuan penggunaan templat ini Stadion Yanmar Nagai (大阪市長居�...

Edition of music award ceremony This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: 2009 MTV Video Music Brazil – news · newspapers · books · scholar · JSTOR (May 2010) (Learn how and when to remove this message) Award2009 MTV Video Music BrazilDateOctober 01, 2009LocationCredicard HallHosted byMarcelo AdnetTelevision/radio cover...

 

Fictional character in the Star Wars franchise For the television series, see Obi-Wan Kenobi (miniseries). Fictional character Obi-Wan KenobiStar Wars characterAlec Guinness as Obi-Wan Kenobi in Star Wars: Episode IV – A New Hope (1977)First appearanceStar Wars (1977)Created byGeorge LucasBased onGeneral Makabe Rokurōtaby Akira KurosawaPortrayed by Alec Guinness (Episodes IV–VI) Ewan McGregor (Episodes I–III, Obi-Wan Kenobi) Voiced byas Ben Kenobi: Stephen Stanton (Star Wars: Battlefro...

 

Voce principale: Savona 1907 Foot-Ball Club. Questa voce sull'argomento stagioni delle società calcistiche italiane è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Associazione Calcio SavonaStagione 1942-1943Sport calcio Squadra Savona Allenatore Rinaldo Roggero Presidente Ugo Noceti Serie B17º posto. Retrocessioni annullate dalla FIGC a fine stagione. Poi ammessa alla Serie B-C Alta Italia 1945...

  「俄亥俄」重定向至此。关于其他用法,请见「俄亥俄 (消歧义)」。 俄亥俄州 美國联邦州State of Ohio 州旗州徽綽號:七葉果之州地图中高亮部分为俄亥俄州坐标:38°27'N-41°58'N, 80°32'W-84°49'W国家 美國加入聯邦1803年3月1日,在1953年8月7日追溯頒定(第17个加入联邦)首府哥倫布(及最大城市)政府 • 州长(英语:List of Governors of {{{Name}}}]]) •&...

 

Historic railway in southern Finland (1872–75) This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Hanko–Hyvinkää railway – news · newspapers · books · scholar · JSTOR (October 2021) (Learn how and when to remove this message) Hanko–Hyvinkää railwayOverviewHeadquartersHankoLocaleFinland Dates of operation1872–1875...

 

Marine Fighter Attack Squadron 531VMFA-531 InsigniaActive16 November 1942 – 27 March 1992CountryUnited StatesAllegianceUnited States of AmericaBranchUnited States Marine CorpsTypeFighter/AttackRoleClose air supportAir interdictionAerial reconnaissancePart ofInactiveNickname(s)Grey GhostsTail CodeECEngagementsWorld War IIVietnam WarCommandersNotablecommandersLtCol Robert P. KellerLtCol John F. GoodmanLtCol Keith StalderAircraft flownBomberLockheed PV-1 VenturaDouglas SBD DauntlessCurti...

Provincia di Almeríaprovincia(ES) Provincia de Almería LocalizzazioneStato Spagna Comunità autonoma Andalusia AmministrazioneCapoluogoAlmería TerritorioCoordinatedel capoluogo37°10′N 2°20′W37°10′N, 2°20′W (Provincia di Almería) Superficie8 774 km² Abitanti635 850 (2006) Densità72,47 ab./km² Altre informazioniLinguecastigliano Cod. postale04 Prefisso950 e 850 Fuso orarioUTC+1 ISO 3166-2ES-AL Codice INE04 Nome abitantialmeriense Rappresentanza parla...

 

SIUE Graduate SchoolTypePublicDeanJerry WeinbergLocationEdwardsville, Illinois, U.S.Websitewww.siue.edu/graduate Southern Illinois University Edwardsville Graduate School is a post-graduate academic unit of Southern Illinois University Edwardsville (SIUE) located in Edwardsville, Illinois, United States. It offers 48 master's degree programs, 2 specialist degrees,[1] 17 post-baccalaureate and post-masters certificates,[2] doctoral programs in Education Administration and Nursi...

 

System installed in trains to prevent collisions through driver error For British Rail's implementation of ATP, see Automatic Train Protection (United Kingdom). ATP switchboard in a Taiwan Railways Administration DR2700 series carriage Automatic Train Protection notice on a First Great Western InterCity 125 Automatic train protection (ATP) is the generic term for train protection systems that continually check that the speed of a train is compatible with the permitted speed allowed by signall...

State park in Madison County, New York Chittenango Falls State ParkChittenango Falls in May 2007Location of Chittenango Falls State Park within New York StateTypeState parkLocation2300 Rathbun Road Cazenovia, New York[1]Nearest citySyracuse, New YorkCoordinates42°59′N 75°51′W / 42.98°N 75.85°W / 42.98; -75.85Area193 acres (0.78 km2)[2]Created1922 (1922)[3]Operated byNew York State Office of Parks, Recreation and Histo...

 

American college football season 1932 college football seasonA Depression-Era audience at the Michigan-Illinois gameNumber of bowls1Bowl gamesJanuary 2, 1933Champion(s)MichiganUSC ← 1931 · football seasons · 1933 → The 1932 college football season saw the Michigan Wolverines win the Knute Rockne Memorial Trophy as national champion under the math-based Dickinson System. Because the Big Nine conference didn't permit its teams to play in the postseason, ho...