La classification naïve bayésienne est un type de classification bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf, ou classifieur naïf de Bayes, appartenant à la famille des classifieurs linéaires.
Un terme plus approprié pour le modèle probabiliste sous-jacent pourrait être « modèle à caractéristiques statistiquement indépendantes ».
En termes simples, un classifieur bayésien naïf suppose que l'existence d'une caractéristique pour une classe, est indépendante de l'existence d'autres caractéristiques. Un fruit peut être considéré comme une pomme s'il est rouge, arrondi, et fait une dizaine de centimètres. Même si ces caractéristiques sont liées dans la réalité, un classifieur bayésien naïf déterminera que le fruit est une pomme en considérant indépendamment ces caractéristiques de couleur, de forme et de taille.
Selon la nature de chaque modèle probabiliste, les classifieurs bayésiens naïfs peuvent être entraînés efficacement dans un contexte d'apprentissage supervisé. Dans beaucoup d'applications pratiques, l'estimation des paramètres pour les modèles bayésiens naïfs repose sur le maximum de vraisemblance. Autrement dit, il est possible de travailler avec le modèle bayésien naïf sans se préoccuper de probabilité bayésienne ou utiliser les méthodes bayésiennes.
Malgré leur modèle de conception « naïf » et ses hypothèses de base extrêmement simplistes, les classifieurs bayésiens naïfs ont fait preuve d'une efficacité plus que suffisante dans beaucoup de situations réelles complexes. En 2004, un article a montré qu'il existe des raisons théoriques derrière cette efficacité inattendue[1]. Toutefois, une autre étude de 2006 montre que des approches plus récentes (arbres renforcés, forêts aléatoires) permettent d'obtenir de meilleurs résultats[2].
L'avantage du classifieur bayésien naïf est qu'il requiert relativement peu de données d'entraînement pour estimer les paramètres nécessaires à la classification, à savoir moyennes et variances des différentes variables. En effet, l'hypothèse d'indépendance des variables permet de se contenter de la variance de chacune d'entre elles pour chaque classe, sans avoir à calculer de matrice de covariance.
Modèle bayésien naïf
Le modèle probabiliste pour un classifieur est le modèle conditionnel
où C est une variable de classe dépendante dont les instances ou classes sont peu nombreuses, conditionnée par plusieurs variables caractéristiques F1,...,Fn.
Lorsque le nombre de caractéristiques n est grand, ou lorsque ces caractéristiques peuvent prendre un grand nombre de valeurs, baser ce modèle sur des tableaux de probabilités devient impossible. Par conséquent, nous le dérivons pour qu'il soit plus facilement soluble.
En pratique, seul le numérateur nous intéresse, puisque le dénominateur ne dépend pas de C et les valeurs des caractéristiques Fi sont données. Le dénominateur est donc en réalité constant.
Le numérateur est soumis à la loi de probabilité à plusieurs variables et peut être factorisé de la façon suivante, en utilisant plusieurs fois la définition de la probabilité conditionnelle :
C'est là que nous faisons intervenir l'hypothèse naïve : si chaque Fi est indépendant des autres caractéristiques Fj ≠ i, conditionnellement à C alors
Par conséquent, en tenant compte de l'hypothèse d'indépendance ci-dessus, la probabilité conditionnelle de la variable de classe C peut être exprimée par
où (appelé « évidence ») est un facteur d'échelle qui dépend uniquement de F1,...,Fn, à savoir une constante dans la mesure où les valeurs des variables caractéristiques sont connues.
Les modèles probabilistes ainsi décrits sont plus faciles à manipuler, puisqu'ils peuvent être factorisés par l'antérieurep(C) (probabilité a priori de C) et les lois de probabilitéindépendantesp(Fi|C). S'il existe k classes pour C et si le modèle pour chaque fonction p(Fi|C = c) peut être exprimé selon r paramètres, alors le modèle bayésien naïf correspondant dépend de (k − 1) + nrk paramètres. En effet, pour C = c et un i donné, p(Fi|C) nécessite r paramètres, donc nr paramètres pour tous les F{ind, et nrk paramètres pour toutes les classes C = c. Reste à déterminer les paramètres . On peut en fixer (k − 1), sachant que .
Dans la pratique, on observe souvent des modèles où k = 2 (classification binaire) et r = 1 (les caractéristiques sont alors des variables de Bernoulli). Dans ce cas, le nombre total de paramètres du modèle bayésien naïf ainsi décrit est de 2n+1, avec n le nombre de caractéristiques binaires utilisées pour la classification.
Estimation de la valeur des paramètres
Tous les paramètres du modèle (probabilités a priori des classes et lois de probabilités associées aux différentes caractéristiques) peuvent faire l'objet d'une approximation par rapport aux fréquences relatives des classes et caractéristiques dans l'ensemble des données d'entraînement. Il s'agit d'une estimation du maximum de vraisemblance des probabilités. Les probabilités a priori des classes peuvent par exemple être calculées en se basant sur l'hypothèse que les classes sont équiprobables (i.e chaque antérieure = 1 / (nombre de classes)), ou bien en estimant chaque probabilité de classe sur la base de l'ensemble des données d'entraînement (i.e antérieure de C = (nombre d'échantillons de C) / (nombre d'échantillons total)). Pour estimer les paramètres d'une loi de probabilité relative à une caractéristique précise, il est nécessaire de présupposer le type de la loi en question ; sinon, il faut générer des modèles non-paramétriques pour les caractéristiques appartenant à l'ensemble de données d'entraînement[3]. Lorsque l'on travaille avec des caractéristiques qui sont des variables aléatoires continues, on suppose généralement que les lois de probabilités correspondantes sont des lois normales, dont on estimera l'espérance et la variance.
L'espérance μ se calcule avec
,
où N est le nombre d'échantillons et xi est la valeur d'un échantillon donné.
La variance σ2 se calcule avec
.
Si, pour une certaine classe, une certaine caractéristique ne prend jamais une valeur donnée dans l'ensemble de données d'entraînement, alors l'estimation de probabilité basée sur la fréquence aura pour valeur zéro. Cela pose un problème puisque l'on aboutit à l'apparition d'un facteur nul lorsque les probabilités sont multipliées. Par conséquent, on corrige les estimations de probabilités avec des probabilités fixées à l'avance.
Construire un classifieur à partir du modèle de probabilités
Jusqu'à présent nous avons établi le modèle à caractéristiques indépendantes, à savoir le modèle de probabilités bayésien naïf. Le classifieur bayésien naïf couple ce modèle avec une règle de décision. Une règle couramment employée consiste à choisir l'hypothèse la plus probable. Il s'agit de la règle du maximum a posteriori ou MAP. Le classifieur correspondant à cette règle est la fonction classifieur suivante :
Analyse
Malgré les hypothèses d'indépendance relativement simplistes, le classifieur bayésien naïf a plusieurs propriétés qui le rendent très pratique dans les cas réels. En particulier, la dissociation des lois de probabilités conditionnelles de classe entre les différentes caractéristiques aboutit au fait que chaque loi de probabilité peut être estimée indépendamment en tant que loi de probabilité à une dimension. Cela permet d'éviter nombre de problèmes venant du fléau de la dimension, par exemple le besoin de disposer d'ensembles de données d'entraînement dont la quantité augmente exponentiellement avec le nombre de caractéristiques. Comme tous les classifieurs probabilistes utilisant la règle de décision du maximum a posteriori, il classifie correctement du moment que la classe adéquate est plus probable que toutes les autres. Par conséquent les probabilités de classe n'ont pas à être estimées de façon très précises. Le classifieur dans l'ensemble est suffisamment robuste pour ne pas tenir compte de sérieux défauts dans son modèle de base de probabilités naïves.
Exemples
Classification des sexes
On cherche à classifier chaque personne en tant qu'individu du sexe masculin ou féminin, selon les caractéristiques mesurées.
Les caractéristiques comprennent la taille, le poids, et la pointure.
Entraînement
On dispose de l'ensemble de données d'entraînement suivant :
Sexe
Taille (cm)
Poids (kg)
Pointure (cm)
masculin
182
81.6
30
masculin
180
86.2
28
masculin
170
77.1
30
masculin
180
74.8
25
féminin
152
45.4
15
féminin
168
68.0
20
féminin
165
59.0
18
féminin
175
68.0
23
Le classifieur créé à partir de ces données d'entraînement, utilisant une hypothèse de distribution Gaussienne pour les lois de probabilités des caractéristiques, est le suivant :
Sexe
Espérance (taille)
Variance (taille)
Espérance (poids)
Variance (poids)
Espérance (pointure)
Variance (pointure)
masculin
178
2.9333×101
79.92
2.5476×101
28.25
5.5833×100
féminin
165
9.2666×101
60.1
1.1404×102
19.00
1.1333×101
On suppose pour des raisons pratiques que les classes sont équiprobables, à savoir P(masculin) = P(féminin) = 0,5 (selon le contexte, cette hypothèse peut être inappropriée). Si l'on détermine P(C) d'après la fréquence des échantillons par classe dans l'ensemble de données d'entraînement, on aboutit au même résultat.
Test
On veut classifier l'échantillon suivant en tant que masculin ou féminin :
Sexe
Taille (cm)
Poids (kg)
Pointure (cm)
inconnu
183
59
20
On veut déterminer quelle probabilité postérieure est la plus grande, celle que l'échantillon soit de sexe masculin, ou celle qu'il soit de sexe féminin.
Le terme évidence (également appelé constante de normalisation) peut être calculé car la somme des postérieures vaut 1.
Toutefois, on peut ignorer ce terme puisqu'il s'agit d'une constante positive (une probabilité est toujours positive).
On peut à présent déterminer le sexe de l'échantillon avec :
pour une variable j dans le groupe k.
Pour la variable taille (t) dans le groupe masculin (m) on a donc :
On réalise ce calcul pour chacune des variables et des groupes :
P(masculin) = 0.5
P(taille|masculin) = 4.8102e-02
P(poids|masculin) = 1.4646e-05
P(pointure|masculin) = 3.8052e-4
Pp (masculin) = 1.3404e-10
P(féminin) = 0.5
P(taille|féminin) = 7.2146e-3
P(poids|féminin) = 3.7160e-2
P(pointure|féminin) = 1.1338e-1
Pp(féminin) = 1.5200e-05
Comme la postérieure féminin est supérieure à la postérieure masculin, l'échantillon est plus probablement de sexe féminin.
Classification et catégorisation de documents
Voici un exemple de classification bayésienne naïve appliquée au problème de la classification et catégorisation de documents. On souhaite ici classifier des documents par leur contenu, par exemple des E-mails en spam et non-spam. On imagine que les documents proviennent d'un certain nombre de classes de documents, lesquelles peuvent être définies comme des ensembles de mots dans lesquels la probabilité (indépendante) que le ie mot d'un document donné soit présent dans un document de la classe C peut s'écrire :
(Pour cette opération, nous simplifions l'hypothèse en supposant que les mots sont distribués au hasard dans le document, donc qu'ils ne dépendent ni de la longueur du document, ni de leur position respective à l'intérieur du document relativement à d'autres mots, ou autre contexte du document.)
On écrit donc la probabilité d'un document D, étant donné une classe C,
Quelle est la probabilité qu'un document D appartienne à une classe donnée C ? En d'autres termes, quelle est la valeur de p(C|D) ?
Le théorème de Bayes nous permet d'inférer la probabilité en termes de vraisemblance.
Si on suppose qu'il n'existe que deux classes mutuellement exclusives, S et ¬S (e.g. spam et non-spam), telles que chaque élément (email) appartienne soit à l'une, soit à l'autre,
et
En utilisant le résultat bayésien ci-dessus, on peut écrire :
En divisant les deux équations, on obtient :
qui peut être factorisée de nouveau en :
Par conséquent, le rapport de probabilités p(S | D) / p(¬S | D) peut être exprimé comme une série de rapports de vraisemblance.
La probabilité p(S | D) elle-même peut être inférée facilement avec log (p(S | D) / p(¬S | D)) puisqu'on observe que p(S | D) + p(¬S | D) = 1.
En utilisant les logarithmes de chacun de ces rapports, on obtient :
(Cette technique de rapport de vraisemblance est une technique courante en statistiques.
Dans le cas de deux solutions mutuellement exclusives (comme l'exemple ci-dessus), la conversion d'un rapport de vraisemblance en une probabilité prend la forme d'une sigmoïde. Voir logit pour plus de détails.)
Le document peut donc être classifié comme suit : il s'agit de spam si (i.e. si ), sinon il s'agit de courrier normal.
Notes et références
↑ Harry Zhang "The Optimality of Naive Bayes". Conférence FLAIRS2004. (disponible en ligne en Anglais: PDF)
↑ Caruana, R. and Niculescu-Mizil, A.: "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning, 2006. (disponible en ligne en Anglais PDF)
↑George H. John and Pat Langley (1995). Estimating Continuous Distributions in Bayesian Classifiers. Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. p. 338-345. Morgan Kaufmann, San Mateo.
Voir aussi
Bibliographie
Domingos, Pedro & Michael Pazzani (1997) "On the optimality of the simple Bayesian classifier under zero-one loss". Machine Learning, 29:103–137. (also online at CiteSeer: [1])
Rish, Irina. (2001). "An empirical study of the naive Bayes classifier". IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. (available online: PDF, PostScript)
Hand, DJ, & Yu, K. (2001). "Idiot's Bayes - not so stupid after all?" International Statistical Review. Vol 69 part 3, pages 385-399. ISSN 0306-7734.
Mozina M, Demsar J, Kattan M, & Zupan B. (2004). "Nomograms for Visualization of Naive Bayesian Classifier". In Proc. of PKDD-2004, pages 337-348. (available online: PDF)
Maron, M. E. (1961). "Automatic Indexing: An Experimental Inquiry." Journal of the ACM (JACM) 8(3):404–417. (available online: PDF)
Minsky, M. (1961). "Steps toward Artificial Intelligence." Proceedings of the IRE 49(1):8-30.
McCallum, A. and Nigam K. "A Comparison of Event Models for Naive Bayes Text Classification". In AAAI/ICML-98 Workshop on Learning for Text Categorization, p. 41–48. Technical Report WS-98-05. AAAI Press. 1998. (available online: PDF)
Rennie J, Shih L, Teevan J, and Karger D. Tackling The Poor Assumptions of Naive Bayes Classifiers. In Proceedings of the Twentieth International Conference on Machine Learning (ICML). 2003. (available online: PDF)
IMSL Collection d'algorithmes mathématiques et statistiques en C/C++, Fortran, Java and C#/.NET. Les routines de data mining dans les IMSL comportent un classifieur bayésien naïf.
Voce principale: Ghetti nazisti. Ghetto di RigaPlanimetria del ghetto di Riga Stato Lettonia CittàRiga Abitanti32 000 ebrei lettoni + 16 000 tedeschi ab. (23 ottobre 1941 - 2 novembre 1943) Coordinate: 56°57′N 24°06′E / 56.95°N 24.1°E56.95; 24.1 Il Ghetto di Riga è stato uno dei più ampi tra i ghetti nazisti della seconda guerra mondiale nei territori conquistati in seguito all'invasione tedesca dell'Unione Sovietica. Istituito il 23 ottobre 1941, se...
Doa Santo FransiskusJudul asliBelle prière à faire pendant la MesseTerbit perdanaLa ClochetteNegaraPrancisBahasaBahasa PrancisPenerbitLa Ligue de la Sainte-Messe(ed. Romo Esther Bouquerel)TerbitDesember 1912 (1912-12) Doa Santo Fransiskus adalah sebuah doa Kristen yang dikenal luas untuk perdamaian. Doa ini sering diasosiasikan dengan Santo Fransiskus dari Asisi (c. 1182 – 1226), tapi tidak tercantum dalam tulisan-tulisannya. Bentuk saat ini dari doa tidak dapat dilacak lebih j...
Historic siteThe Drum, EdinburghEntrance front of The DrumCoordinates55°54′30″N 3°07′12″W / 55.9084°N 3.1201°W / 55.9084; -3.1201Built1726–1734Built forJohn Somerville, 13th Lord SomervilleArchitectWilliam Adam Listed Building – Category ADesignated14 July 1966Reference no.LB28052 Inventory of Gardens and Designed Landscapes in ScotlandDesignated1 July 1987Reference no.GDL00356 Location in Edinburgh council area The Drum, driveway The Drum is...
Colombian Coca Production In 2012, coca production in Colombia amounted to 0.2% of Colombia's overall GDP and 3% of Colombia's GDP related to the agricultural sector.[1] The great majority of coca cultivation takes place in the departments of Putumayo, Caquetá, Meta, Guaviare, Nariño, Antioquia, and Vichada.[2] History Before the 1990s, harvesting coca leaves had been a relatively small-scale business in Colombia.[3] Though Peru and Bolivia dominated coca-leaf produc...
En mathématiques la sphère est une surface. Pour la portion d'espace délimitée par une sphère, voir Boule (solide). Sphère Une sphère avec son rayon r et son diamètre d. Type Solide de révolution Faces Une surface sphérique Volume 4 3 π r 3 {\displaystyle {\frac {4}{3}}\pi r^{3}} Aire 4 π r 2 {\displaystyle 4\pi r^{2}} Propriétés Constructible modifier Pour les articles homonymes, voir Sphère (homonymie). Rendu en fil de fer d'une sphère dans un espace eucli...
Major League Baseball draft 2020 Major League Baseball draftGeneral informationDate(s)June 10–11, 2020LocationSecaucus, New JerseyOmaha, Nebraska (original planned location)Network(s)MLB NetworkESPN/ESPN2ESPN DeportesOverview160 total selections in 5 roundsFirst selectionSpencer TorkelsonDetroit TigersFirst round selections37← 20192021 → The 2020 Major League Baseball draft took place on June 10 and 11, 2020. The draft assigned amateur baseball players to Major Le...
هذه المقالة عن المجموعة العرقية الأتراك وليس عن من يحملون جنسية الجمهورية التركية أتراكTürkler (بالتركية) التعداد الكليالتعداد 70~83 مليون نسمةمناطق الوجود المميزةالبلد القائمة ... تركياألمانياسورياالعراقبلغارياالولايات المتحدةفرنساالمملكة المتحدةهولنداالنمساأسترالي�...
This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: 1830 in the United States – news · newspapers · books · scholar · JSTOR (December 2021) (Learn how and when to remove this message) List of events ← 1829 1828 1827 1830 in the United States → 1831 1832 1833 Decades: 1810s 1820s 1830s 1840s 1850s See...
Chemical element with symbol O and atomic number 8 This article is about the chemical element. For other uses, see Oxygen (disambiguation). Chemical element, symbol O and atomic number 8Oxygen, 8OOxygen-filled discharge tube glowing purple.OxygenAllotropesO2, O3 (ozone) and more (see Allotropes of oxygen)Appearancegas: colorlessliquid and solid: pale blueStandard atomic weight Ar°(O)[15.99903, 15.99977][1]15.999±0.001 (abridged)[2] Abundancein the...
Extinct genus of amphibians ArchegosaurusTemporal range: Early Permian - Late Permian, 299–253 Ma PreꞒ Ꞓ O S D C P T J K Pg N A. decheni skull Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Order: †Temnospondyli Family: †Archegosauridae Genus: †ArchegosaurusGoldfuss, 1847 Type species †Archegosaurus decheniGoldfuss, 1847 Other species †A. dyscriton (Steen, 1938 [originally Memonomenos dyscriton]) Synonyms Memonomenos Steen, 1938 Archegosaur...
Publisher and author Jerome Irving RodaleBornJerome Irving Cohen(1898-08-16)August 16, 1898New York City, U.S.DiedJune 8, 1971(1971-06-08) (aged 72)New York City, U.S.OccupationsPublisherauthorKnown forOrganic gardeningSpouse Anna Andrews (m. 1927)Children3, including Robert and Ruth Jerome Irving Rodale, né Cohen (/ˈroʊdeɪl/;[1] August 16, 1898 – June 8, 1971) was a publisher, editor, and author who founded Rodale, Inc. in Emmaus, Pennsy...
American actor (1889–1979) Clarence MuseMuse in 1978Born(1889-10-14)October 14, 1889Baltimore, Maryland, U.S.DiedOctober 13, 1979(1979-10-13) (aged 89)Perris, California, U.S.EducationDickinson CollegeOccupations Actor screenwriter director singer composer Years active1921–1979Spouses Willabelie(m. 19??; div. 19??) Irene Ena (m. 1952) Children3 Clarence Muse (October 14, 1889 – October 13, 1979) was an American actor, screenwriter, director,...
Questa voce sull'argomento missioni spaziali è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. STS-75Emblema missione Dati della missioneOperatoreNASA NSSDC ID1996-012A SCN23801 ShuttleColumbia Lancio22 febbraio 1996, 20:18:00 UTC Luogo lancioRampa 39B Atterraggio9 marzo 1996, 13:58:22 UTC Sito atterraggioJohn F. Kennedy Space Center, Shuttle Landing Facility (pista 33) Durata15 giorni, 17 ore, 41 mi...
Optra Magnum 2012 (India) The Chevrolet Optra is an automotive nameplate used by the Chevrolet marque for two different compact car models, in the following markets: Daewoo Lacetti (2004–2013), in markets such as Colombia, Canada (2004-2007), Mexico, Japan, South Africa, and Southeast Asia Baojun 630 (2011–present), in Egypt and Algeria. Main article: Daewoo Lacetti Main article: Baojun 630 Index of articles associated with the same name This article includes a list of related items ...
Questa voce sull'argomento attori statunitensi è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Duncan Renaldo negli anni Settanta Duncan Renaldo, nato Renault Renaldo Duncan (Oancea, 20 aprile 1904 – Goleta, 3 settembre 1980), è stato un attore rumeno naturalizzato statunitense che iniziò la sua carriera cinematografica nel 1928. Negli anni cinquanta, fu l'interprete della serie televisiva western ...
سبيريت ليك الإحداثيات 43°25′23″N 95°06′15″W / 43.423055555556°N 95.104166666667°W / 43.423055555556; -95.104166666667 [1] تقسيم إداري البلد الولايات المتحدة[2][3] التقسيم الأعلى مقاطعة ديكينسون عاصمة لـ مقاطعة ديكينسون خصائص جغرافية المساحة 11.834906 كيلومتر م�...
Norwegian digital culture scholar Jill Walker Rettbergcand.philol., dr.art.Dr. Rettberg at a panel debate at Nordiske mediedager in 2011.Born1971 (age 52–53)NationalityNorwegianOther namesJill WalkerKnown forblogging, social media, digital narrativesScientific careerFieldsInternet studies, Digital humanities, Science and Technology StudiesInstitutionsUniversity of BergenThesisFiction and interaction how clicking a mouse can make you part of a fictional world (2004) W...