En théorie des probabilités, le paradoxe des deux enfants consiste à estimer le sexe d'un enfant parmi deux à partir de l'observation de l'autre, exemple-type d'inférence bayésienne. Il y a paradoxe pour deux raisons : d'une part la bonne réponse (l'autre enfant a davantage de chances d'être de sexe opposé) est contre-intuitive pour beaucoup de personnes, et d'autre part des formulations très voisines du problème mènent à des résultats différents.
Énoncé original
Formulation
La première occurrence de ce problème est un article de Martin Gardner, paru dans la revue Scientific American en 1959 sous le titre The Two Children Problem, puis publié dans The 2nd Scientific American book of mathematical puzzles & diversions[1].
Mr. Smith has two children. At least one of them is a boy. What is the probability that both children are boys?
Mr. Jones has two children. The older child is a girl. What is the probability that both children are girls?
M. Smith a deux enfants. Au moins l'un des deux est un garçon. Quelle est la probabilité que les deux enfants soient des garçons ?
M. Jones a deux enfants. L'enfant aîné est une fille. Quelle est la probabilité que les deux enfants soient des filles ?
Dans cet article, les probabilités étaient évaluées respectivement à et Cela signifie que parmi toutes les familles avec deux enfants dont au moins un garçon, un tiers d'entre elles a en fait deux garçons, tandis que parmi toutes les familles avec deux enfants dont une fille en première position, la moitié d'entre elles a en fait deux filles.
Mais Martin Gardner a reconnu plus tard que la question concernant Mr. Smith était ambiguë[2]. En effet, la manière dont est acquise l'information selon laquelle il y a au moins un garçon dans la fratrie influence la réponse à la question, qui peut alors être soit soit
De nombreuses variantes de ce problème montrent l'importance de la formulation dans le calcul du résultat.
Hypothèses implicites
On néglige la petite différence de proportion qu'il y a entre garçons et filles dans les populations humaines (elle dépend d'ailleurs de l'âge et du pays)[3], et les difficultés créées par les jumeaux : prendre en compte ces complications ne changerait les résultats que de manière infime[4].
On utilise une modélisation dans laquelle chaque enfant est supposé être soit un garçon, soit une fille, de façon équiprobable, et où les sexes des enfants sont supposés être indépendants d'un enfant à l'autre (en l'absence d'hypothèse supplémentaire).
Explication par tableau
On distingue les quatre possibilités pour le sexe de deux enfants d'une famille à l'aide d'un tableau à double entrée :
Sexe du deuxième enfant
Fille
Garçon
Sexe du premier enfant
Fille
FF
FG
Garçon
GF
GG
D'après les hypothèses implicites, ces quatre possibilités sont équiprobables. Il suffit alors de déterminer le quotient du nombre de cas favorables par le nombre de cas possibles dans chaque famille.
Dans la famille de M. Smith, les cas possibles sont FG, GF, et GG, alors que le seul cas favorable est GG. La probabilité que les deux enfants soient des garçons vaut donc
Dans la famille de M. Jones, les seuls cas possibles sont notés FF et FG, et le seul cas favorable est FF. La probabilité que les deux enfants soient des filles vaut donc
Calcul formel avec probabilités conditionnelles
Le calcul peut être effectué avec les notations d'événements :
: « le premier enfant est une fille » ;
: « le deuxième enfant est une fille ».
Démonstration
Famille Jones
La probabilité qu'il y ait deux filles dans la famille Jones est alors la probabilité de l'intersection de ces deux événements, sous la condition du premier événement :
or, par indépendance de et
d'après les hypothèses implicites, cette probabilité vaut
Famille Smith
La probabilité qu'il y ait deux garçons dans la famille Smith s'écrit :
Puis, par passage au complémentaire, indépendance des événements et et donc aussi indépendance des événements et
Critiques
Acquisition de l'information
Martin Gardner signale que la manière dont l'information sur la composition de la fratrie est recueillie peut changer la réponse au problème[2].
Le calcul effectué précédemment suppose que la famille Smith se retrouve de façon équiprobable dans l'une des trois cases FG, GF, et GG du tableau. Or l'information selon laquelle M. Smith a au moins un garçon peut être obtenue de différentes manières :
Première procédure :
Version abstraite : On suppose l'équiprobabilité entre les familles avec deux enfants dont au moins un garçon (dans cette version, on sait déjà quelles sont ces familles ; Gardner ne dit pas comment) ; la famille Smith est choisie au hasard parmi celles-ci[2].
Version concrète : On pose à M. Smith la question « Avez-vous au moins un garçon ? », et il répond « Oui. ».
Avec l'une ou l'autre de ces deux versions, la probabilité que M. Smith ait deux garçons vaut
Deuxième procédure (concrète) :
On demande à M. Smith « Indiquez-moi le sexe de l'un de vos enfants. », et il répond « J'ai (au moins) un garçon. ». Gardner fait remarquer que[2]: si, à cette question, tout père de famille avec un garçon et une fille répond seulement une fois sur deux « J'ai (au moins) un garçon. », alors avec cette procédure, la probabilité que M. Smith ait deux garçons remonte à
Explication par tableaux
La première procédure (« Avez-vous au moins un garçon ? — Oui. ») correspond exactement au tableau donné précédemment. L'information donnée par M. Smith permettant d'éliminer le cas FF du tableau, et les trois autres possibilités étant équiprobables d'après les hypothèses implicites, la probabilité du cas GG vaut
Pour la deuxième procédure, on distingue comme précédemment les quatre possibilités de sexe, et on écrit dans le tableau à double entrée ce que M. Smith peut répondre :
Sexe du deuxième enfant
Fille
Garçon
Sexe du premier enfant
Fille
FF « une fille »
FG « une fille » ou bien « un garçon »
Garçon
GF « une fille » ou bien « un garçon »
GG « un garçon »
M. Smith a répondu « un garçon », le cas FF est donc éliminé. M. Smith peut se trouver dans la situation GG, GF, ou bien FG, ces trois situations étant équiprobables et chacune associée à la probabilité Si l'autre enfant de M. Smith est une fille (GF ou FG), les deux réponses « un garçon » ou « une fille » sont possibles. En supposant qu'un parent dans cette situation répond sans préférence particulière, la réponse « un garçon » recueille la moitié de la probabilité de chaque situation, soit pour GF et pour FG, donc au total. Si l'autre enfant de M. Smith est un garçon (GG), la réponse « un garçon » a la probabilité de la situation, soit également. La probabilité que M. Smith réponde « un garçon » alors qu'il a aussi une fille (GF ou FG) ou alors qu'il a un second garçon (GG) sont donc égales, ce qui fait que la probabilité qu'il ait un second garçon vaut
Calcul formel avec probabilités conditionnelles
Démonstration
On appelle l'événement Monsieur Smith répond « Oui. » à la question « Avez-vous au moins un garçon ? », et l'événement Monsieur Smith répond « J'ai au moins un garçon. » à la demande « Indiquez-moi le sexe de l'un de vos enfants. ».
Avec la première procédure, la probabilité qu'il ait deux garçons est la probabilité conditionnelle :
Avec la deuxième procédure, les probabilités conditionnelles sur dépendent de la proportion de garçon(s) dans la fratrie :
alors :
D'autres manières d'acquérir l'information sur le sexe d'un enfant s'apparentent à la deuxième procédure, comme la rencontre d'un garçon disant être le fils de M. Smith.
Particularisation
Un autre biais de la formulation d'origine pour M. Smith est le recours à l'expression « l'un des deux » qui peut particulariser l'un des enfants de la même manière que le fait l'ordre de naissance. Cette particularisation peut être entérinée par la question « Quelle est la probabilité que l'autre enfant soit un garçon (aussi) ? » qui est parfois utilisée. En effet, lorsque l’information est ainsi fournie spontanément par le locuteur, on pourra penser qu’il a fait un choix préalable sur l’enfant dont il parle, choix qui pourra être aussi bien volontaire qu'involontaire, ou même dû au hasard.
Exemple : « J’ai deux enfants, l’un est un garçon » peut indiquer que le garçon en question a été choisi par celui qui s’exprime, de manière consciente ou non. Si c’est le cas, la probabilité que l’autre enfant soit (aussi) un garçon est bien car à partir du moment où l'un et l'autre sont identifiés, le sexe de « l'autre » est indépendant de l'information fournie.
À l’inverse, il reste possible que l’interlocuteur n’ait pas fait de choix, même avec cette tournure de phrase ; il pourra s’agir par exemple d’un mathématicien ou logicien qui ne fait que livrer (malhabilement, ou très habilement) une information générale sur ses deux enfants, à savoir ici qu’il n’a pas deux filles, auquel cas la probabilité qu’il ait deux garçons est
Ce point est celui qui porte le plus souvent à discussion, et qui amène à employer le terme de paradoxe (des deux enfants). Il disparaît lorsque l’information fournie résulte d’une réponse à une question fermée ; par exemple, dans le dialogue suivant : — « Avez-vous exactement deux enfants ? » — « Oui. » — « Avez-vous au moins un garçon ? » — « Oui. », la particularisation de l’enfant ne peut plus être invoquée, et la probabilité que l’interlocuteur ait deux garçons vaut bien
Variantes
Les variantes les plus courantes du paradoxe des deux enfants consistent à joindre une autre information au sexe.
Jour de naissance
Lê Nguyên Hoang propose de considérer une famille de deux enfants, dont au moins l'un des enfants est un garçon né un mardi. On se demande quelle est la probabilité que l'autre enfant soit un garçon aussi[5].
On suppose l'équiprobabilité entre les sexes et entre les jours de la semaine ; alors pour chaque enfant, l'événement « être un garçon » a la probabilité et l'événement « être né un mardi » a la probabilité On suppose aussi l'indépendance entre le sexe et le jour de la semaine ; alors « être un garçon né un mardi » a la probabilité « être un garçon né un autre jour » a la probabilité et « être une fille » a la probabilité On suppose de plus l'indépendance mutuelle entre les sexes et les jours de la semaine des enfants ; alors pour deux enfants, on obtient les probabilités suivantes :
Probabilité a priori
Deuxième enfant
Garçon
Fille
né un mardi
né un autre jour
Premier enfant
Garçon
né un mardi
né un autre jour
Fille
Sachant que la famille a au moins un garçon né un mardi on peut éliminer les cases qui ne correspondent ni à la première ligne, ni à la première colonne. On obtient alors la probabilité que l'autre enfant soit un garçon aussi sous la condition (la notation « » signifie « non ») :
les événements sont deux à deux incompatibles, donc :
Une famille a deux enfants dont au moins une fille ; elle se prénomme Sophie. Quelle est la probabilité pour que cette famille ait deux filles ?
Delahaye suppose que, dans la population : aucun garçon ne se prénomme Sophie, aucune famille n'a deux filles avec le même prénom, et la proportion de filles non prénommées Sophie vaut (il l'arrondit par excès).
Parmi toutes les familles ayant deux enfants, on en choisit une au hasard ; cette famille a au moins une fille, prénommée Sophie. Cet enfant est la seule Sophie de cette fratrie, donc est unique. L'enfant qui ne s'appelle pas Sophie a donc la même probabilité d'être un garçon ou une fille ; la probabilité pour que cet autre enfant soit une fille[7],[8] vaut donc et non pas
On peut comprendre intuitivement la différence entre ces deux résultats : dans le problème de Sophie, une famille ayant deux filles a deux fois plus de chances d'avoir une fille prénommée Sophie qu'une famille ayant une seule fille ; donc le poids des familles ayant deux filles est en quelque sorte doublé dans ce problème, alors qu'il ne l'est pas dans le problème de M. Smith (première procédure)[8].
Généralisation
Cette généralisation est proposée par Jacques Patarin et exposée par Jean-Paul Delahaye[9]. Il s'agit d'introduire un paramètre continu évaluant la probabilité qu'une fille ait une certaine propriété cette propriété pouvant apparaître indépendamment d'un enfant à l'autre, et donc éventuellement pour deux filles d'une même famille. On démontre[9],[10] alors que pour une famille avec deux enfants dont au moins une fille ayant la propriété la probabilité d'avoir deux filles vaut :
Remarques :
Quand varie entre et varie entre et car est une fonction homographique (de ) décroissante sur
Plus est faible — c.-à-d. plus l'information particularise la fille (comme son prénom) — plus la probabilité est proche de
Plus est forte — c.-à-d. moins l'information particularise la fille — plus la probabilité est[11],[12] proche de
Notes
↑Gardner 1961, p. 152-153 et 159, The Two Children Problem, Chap. 14 - Nine More Problems.
↑ abc et dGardner 1961, p. 226, Chap. 19 - Probability And Ambiguity.