Il existe plusieurs types de coefficients de corrélation, chacun ayant sa propre définition, ses propres propriétés, et une utilisation spécifique. Le coefficient de correlation s'exprime toujours en une valeur comprise entre -1 et 1, avec 0 indiquant l'absence de correlation tandis que ±1 indiquent la plus forte corrélation possible[1]. En tant qu'outils d'analyse, les coefficients de corrélation présentent certains problèmes, notamment la propension de certains types à être déformés par des valeurs aberrantes et la possibilité d'être utilisés à tort pour déduire une relation causale entre les variables (pour plus d'informations, voir La corrélation n'implique pas la causalité )[2].
Types
Il existe différents types de mesures du degré de corrélation, en fonction notamment du type de données : selon que la donnée observée est une mesure, une donnée ordinale ou catégorielle.
Pearson
Le coefficient de corrélation produit-moment de Pearson, également connu sous le nom de r, R ou Pearsonr, est une mesure de la force et de la direction de la relation linéaire entre deux variables qui est définie comme la covariance des variables divisée par le produit de leurs écarts types[3]. Il s’agit du type de coefficient de corrélation le plus connu et le plus couramment utilisé. Lorsque le terme « coefficient de corrélation » est utilisé sans autre précision, il fait généralement référence au coefficient de corrélation produit-moment de Pearson.
Intra-class
La corrélation intraclasse (ICC) est une statistique descriptive qui peut être utilisée lorsque des mesures quantitatives sont effectuées sur des unités organisées en groupes ; elle décrit à quel point les unités d'un même groupe se ressemblent.
Rang
La corrélation de rang est une mesure de la relation entre les classements de deux variables, ou deux classements de la même variable :
Le gamma de Goodman et Kruskal est une mesure de la force d'association des données croisées lorsque les deux variables sont mesurées au niveau ordinal.
Tétrachoriques et polychoriques
Le coefficient de corrélation polychorique mesure l’association entre deux variables catégorielles ordonnées. Il est techniquement défini comme l'estimation du coefficient de corrélation de Pearson que l'on obtiendrait si :
Les deux variables ont été mesurées sur une échelle continue, plutôt que comme des variables de catégorie ordonnées.
Lorsque les deux variables sont dichotomiques au lieu d’être de catégorie ordonnées, le coefficient de corrélation polychorique est appelé coefficient de corrélation tétrachorique.
Interprétation des valeurs du coefficient de corrélation
La corrélation entre deux variables a des associations différentes qui sont mesurées par des valeurs telles que r ou R Les valeurs de corrélation vont de −1 à +1, où ±1 indique la corrélation la plus forte possible et 0 indique l'absence de corrélation entre les variables[1].
r or R
r or R
Force ou faiblesse de la corrélation entre deux variables[4]
Qualité d'ajustement, l'une des nombreuses mesures qui mesurent dans quelle mesure un modèle statistique s'adapte aux observations en résumant l'écart entre les valeurs observées et les valeurs attendues dans le cadre du modèle.
↑ a et bJohn R. Taylor, An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements, Sausalito, CA, 2nd, (ISBN0-935702-75-X, lire en ligne [archive du ]), p. 217
↑Richard Boddy et Gordon Smith, Statistical Methods in Practice: For scientists and technologists, Chichester, U.K., Wiley, , 95–96 p. (ISBN978-0-470-74664-6)