Corrélation et causalité
La corrélation détermine une relation entre deux variables. Cependant, le fait que ces deux variables évoluent ensemble ne signifie pas nécessairement qu’une variable est la cause de l’autre. C’est pourquoi on dit « Cum hoc ergo propter hoc » (avec ceci, donc à cause de ceci).
Une forte corrélation pourrait indiquer un lien de cause à effet, mais il pourrait y avoir bien d’autres explications :
- Cela peut être le fruit du hasard, lorsque les variables semblent être liées, mais qu’il n’existe aucune véritable relation sous-jacente.
- Il peut y avoir une troisième variable qui rôde et donne une apparence plus forte (ou plus faible) à la relation qu’elle ne l’est vraiment.
Pour les données observationnelles, les corrélations ne peuvent pas confirmer la causalité...
Les corrélations entre variables nous montrent que les données forment un motif : les variables que nous avons évoluent ensemble. Toutefois, les corrélations à elles seules n’indiquent pas si les données évoluent ensemble parce que l’une est la cause de l’autre.
Il est possible de trouver une corrélation statistiquement significative et fiable pour deux variables qui ne sont en fait liées par aucun lien de cause à effet. En fait, ce type de corrélation est fréquent ! Souvent, elles sont dues au fait que les deux variables sont associées à une variable causale différente, qui intervient en parallèle des données que nous mesurons.
Exemple : activité physique et cancer de la peau
Partons de cet exemple. Imaginez que vous avez des données médicales. Vous observez une corrélation positive statistiquement significative entre activité physique et cancer de la peau, ce qui veut dire que les personnes qui ont plus d’activité physique tendent à être les personnes qui font un cancer de le peau. Cette corrélation semble forte et fiable et apparaît dans plusieurs populations de patients. Sans chercher plus loin, vous pourriez conclure que l’activité physique peut, d’une manière ou d’une autre, provoquer le cancer ! D’après ces résultats, vous pourriez même développer une hypothèse plausible : peut-être que le stress dû à l’activité physique prive l’organisme de sa capacité à se protéger des dommages du soleil.
Mais imaginez qu’en réalité, cette corrélation existe dans votre ensemble de données parce que les personnes qui vivent dans des régions très ensoleillées toute l’année sont significativement plus actives au quotidien que celles qui vivent dans des régions moins bien loties. Cela apparaît dans leurs données sous la forme d’une activité physique supérieure. Dans le même temps, une exposition accrue au soleil implique un plus grand nombre de cancers de la peau. Les deux variables, activité physique et cancer de la peau, sont affectées par une troisième variable causale, l’exposition au soleil, mais elles ne sont pas liées par un lien de cause à effet.
...mais avec des recherches empiriques bien conçues, on peut établir une causalité !
Faire la distinction entre ce qui constitue ou non une preuve de causalité est essentiel à la littératie des données. Dans le monde réel, déterminer la causalité n’est jamais parfait. Toutefois, il existe différentes techniques expérimentales, statistiques et de plan de recherche pour trouver des preuves de relations causales : par exemple, la randomisation, les expérimentations contrôlées et les modèles prédictifs à plusieurs variables. Au-delà des limitations propres aux tests de corrélation (par ex., les corrélations ne peuvent pas mesurer des relations trivariées potentiellement causales), il est important de comprendre que les preuves de causalité ne proviennent généralement pas des analyses statistiques individuelles mais plutôt de plans d’expérience minutieux.
Exemple : maladie cardiaque, régime alimentaire et activité physique
Par exemple, imaginez à nouveau que nous sommes des chercheurs dans le médical, travaillant cette fois-ci sur un gros ensemble de données de taux de maladies, régime alimentaire et autres comportements de santé. Supposons que nous trouvons deux corrélations : l’augmentation des maladies cardiaques est en corrélation avec les régimes alimentaires plus gras (corrélation positive), et l’activité physique accrue est en corrélation avec la baisse des maladies cardiaques (corrélation négative). Deux de ces corrélations sont très marquées, et on les juge fiables. C’est sûrement un indice de causalité, non ?
Dans le cas de données médicales, la corrélation pourrait suggérer un lien de cause à effet sous-jacent, mais sans étude supplémentaire rien n’est sûr. Imaginons qu’après avoir trouvé ces corrélations, nous élaborons une étude biologique qui examine les façons dont l’organisme absorbe les graisses, et leur effet sur le cœur. Peut-être que l’on trouve un mécanisme via lequel une consommation plus élevée de graisses exerce une pression spécifique sur le cœur. On pourrait également regarder de plus près l’activité physique et élaborer une expérimentation randomisée et contrôlée qui montre que l’activité physique inhibe le stockage des graisses, et donc réduit la pression exercée sur le cœur.
Tous ces éléments de preuve s’imbriquent pour former une seule et même explication : un régime alimentaire plus gras peut effectivement causer des maladies cardiaques. Et les corrélations initiales sont toujours valables parce que nous avons approfondi la question : régime alimentaire très gras et maladies cardiaques sont liés !
Mais dans cet exemple, il convient de noter que la preuve causale n’a pas été fournie par le test de corrélation en lui-même, qui se contente d’examiner la relation entre des données observationnelles (comme les taux de maladies cardiaques, le régime alimentaire et l’activité physique). En fait, nous avons effectué une analyse empirique pour trouver des preuves de cette association.
Alors comment explorer la causalité ? Avec le bon type d’analyse !
Comprendre la causalité n’est pas chose aisée. Dans le monde réel, on n’a jamais accès à toutes les données dont on a besoin pour cartographier chaque relation possible entre les variables. Mais il existe quelques stratégies clés nous permettant d’isoler et d’explorer les mécanismes entre différentes variables. Par exemple, dans une expérimentation contrôlée, on peut essayer d’associer deux groupes avec prudence, et d’appliquer aléatoirement un traitement ou une intervention à seulement l’un des groupes.
Le principe de randomisation est essentiel au plan d’expérience, et comprendre ce contexte peut modifier ce que nous sommes en mesure de déduire des tests statistiques.
Reprenons le premier exemple précédent qui examinait la relation entre activité physique et cancer de la peau. Imaginons que nous puissions d’une quelconque façon prendre un gros échantillon de personnes à l’international et les répartir aléatoirement dans différents niveaux d’activité physique chaque semaine pendant dix ans. Passé ce délai, on rassemble également les taux de cancer de la peau de ce grand groupe. On obtient un ensemble de données conçu expérimentalement pour tester la relation entre activité physique et cancer de la peau ! Parce que l’activité physique a été directement manipulée dans l’expérimentation via la répartition aléatoire, elle ne sera pas systématiquement reliée à d’autres variables qui pourraient diverger entre ces deux groupes (en supposant que tous les autres aspects de l’étude sont valides). Cela signifie que dans ce cas, comme nos données sont issues d’un plan d’expérience valide, une corrélation positive entre activité physique et cancer de la peau constituerait une preuve significative de causalité.