Question 0

Première étape : comprendre ce que représentent les variables. Pour la plupart c'est plutôt clair, mais il y a quelques subtilités :

Variable Signification
iso_code Code ISO du pays
continent ...Continent :-)
location Nom du pays
total_cases_per_million Somme des cas enregistrés jusqu'au 13 octobre inclus, par million d'habitant
total_deaths_per_million Nombre de décès jusqu'au 13 octobre inclus, par million d'habitants
population_density Nombre d'habitants par kilomètre carré en moyenne
median_age Âge médian : 50% de la population est plus jeune, l'autre moitié est plus vieille
aged_65_older Pourcentage de +65 ans
aged_70_older Pourcentage de +70 ans
gdp_per_capita PIB par habitant
diabetes_prevalence Pourcentage de diabétiques
hospital_beds_per_thousand Nombre de lits d'hôpital pour 1000 habitants
life_expectancy ...Espérance de vie :-)
human_development_index Indice de développement basé sur le PIB, l'espérance de vie et l'éducation

Question 1

Analyse descriptive

La figure suggère de garder 4 axes pour capter +80% de l'inertie. Vérification numérique :

Deux groupes ressortent nettement : les payes d'Afrique en noir à gauche, et les pays européens en vert sur la droite. Les pays des trois autres continents se retrouvent représentés en général plus au centre, et sans se détacher des deux autres.

Monaco, en bas à droite, pose question : il faudra sans doute le retirer de l'analyse. Examinons cet individu de plus près d'abord.

On constate des valeurs particulièrement atypiques : (relativement) très peu de morts, une énorme densité de population, dont plus de 50% dépasse les 54 ans. Enfin, un PIB particulièrement élevé, corrélé à un (relatif) grand nombre de lits d'hôpital et un indice de développement humain très élevé.

Regardons aussi les quelques autres pays les plus riches :

L'individu qui serait le plus proche de Monaco est le Liechtenstein, mais ce dernier affiche tout de même une densité de population nettement moindre, ainsi qu'un âge médian plus jeune de 10 ans, et un nombre de lits d'hôpital dans la moyenne. Monaco étant clairement un cas extrême, on considère qu'il ne peut contribuer à l'étude du reste du groupe, et on continue donc sans lui.

L'inertie totale diminue légèrement, ce qui est logique car on a retiré un individu très éloigné du centre de gravité. Elle reste cependant du même ordre : 85 au lieu de 87% avec 4 axes.

L'impression visuelle est inchangée : Europe à droite, Afrique à gauche (avec une variance plus faible : les pays se ressemblent plus que les pays européens entre eux), les autres continents plutôt au centre. On commence cependant à visualiser l'Asie "plutôt à gauche de l'Amérique du Nord", et l'Amérique du Sud "plutôt au-dessus des deux autres continents". Vérification en traçant les ellipses de confiance :

Un individu atypique subsiste : le Japon, du même type que Monaco (tout en bas à droite). Dans la mesure où il ne gêne pas l'analyse, il n'y a cependant pas de raison de le supprimer.

L'interprétation du premier axe est claire : quasi parfaitement corrélé à l'indice de développement humain, lui-même fortement corrélé avec l'espérance de vie ou l'âge médian ; bref ce premier axe comptant pour la moitié de l'inertie représente la richesse d'un pays, son niveau de développement.

Au passage, les corrélations (positives) très fortes entre les paires de variables âge supérieur à 65 / 70 ans et IDH et espérance de vie mènent à supprimer une sur deux de ces variables. On enlèvera donc "aged_70_older" et "life_expectancy", assez arbitrairement.

Le second axe est plus difficile à interpréter. Il semble a priori plutôt représenter l'impact du covid, avec une grande corrélation avec "total_cases_per_million", mais c'est moins net que pour le premier.

Au niveau de l'inertie cumulée, on note que les composantes 3 et 4 prennent plus d'importance comparé à la situation précédente : 61% dans le premier plan au lieu de 67, mais toujours 85% au total sur les quatre premiers axes.

Sans surprise, les pays aux plus fortes contributions sont les points extrêmes du nuage des individus. Ensuite, on remarque que la plupart des pays proches du centre de gravité sur ce plan sont très mal projetés (note : Singapour également). Cela signifie qu'il faudra les regarder sur le plan 3-4.

On observe sur ces cercles la quasi-orthogonalité des (bonnes) représentations des variables "total_cases_per_million" et "hospital_beds_per_thousand". Autrement dit, il n'y a pas de corrélation observée entre le nombre de cas et le nombre de lits disponibles, ce qui semble logique. De même pour le couple densité de population / prévalence du diabète (assez logique également, on ne voit a priori pas le rapport).

Les axes sur le plan 3-4 sont plus difficiles à expliquer. Il semble que la densité de population augmente en direction nord-est, tandis que la prévalence du diabète augmente selon la direction sud-est.

On observe également une certaine corrélation négative sur l'axe 4 avec le nombre de morts par million. Vérifions :

Tentative avec variables supplémentaires

Essayons maintenant de considérer les variables "statistiques covid" comme supplémentaires : nombre de cas et de décès totaux.

Plan 1-2 : les représentations des pays européens semblent tout de même moins dispersées qu'auparavant. Enfin, il est amusant de constater que le plus proche voisin de la Corée sur ce nuage soit l'Autriche.

Plan 3-4 : le nuage n'a pas de direction particulière, on sent que ce plan va être moins intéressant.

Enfin, regardons l'inertie cumulée :

Plus de 92% expliqués par les quatre premiers axes, donc à peine plus de 20% par les axes 3 et 4. C'est cohérent : plus on enlève de variables, plus les nouvelles variables synthétiques peuvent offrir un bon résumé. Dans le cas extrême à 4 variables, on expliquerait 100%.

Les variables supplémentaires sont très mal projetées : cela semble indiquer que l'impact du covid, finalement, est assez indépendant des caractéristiques d'un pays. Il existe tout de même une corrélation légèrement positive entre le nombre de cas total et l'indice de développement d'un pays - qui résume plusieurs variables -, ainsi qu'entre le nombre total de morts et l'âge médian. Cela signifierait que le covid se propage plus dans les pays plus développés, et tue plus des populations plus vieilles. Si cette dernière affirmation est cohérente avec ce que l'on sait du virus, la première n'a pas vraiment de logique. On peut l'expliquer plutôt par le fait qu'un pays riche testera plus sa population, et donc verra forcément plus de cas. Enfin la petite corrélation "nombre de morts" et "indice de développement" (cf. tableau ci-dessous) indique que le covid a plus tendance à tuer dans les pays développés qu'ailleurs. Une possible explication réside dans l'idée qu'on peut se faire d'une population de pays riche : sujette au diabète, à l'obésité, avec beaucoup de personnes âgées. Il n'est pas étonnant alors que malgré toutes les mesures prises dans ces pays le nombre de morts soit relativement plus élevé.

Il serait intéressant de regarder les statistiques sur les âges des personnes décédées. Quelques chiffres sont donnés concernant les États-Unis ici https://www.cdc.gov/coronavirus/2019-ncov/covid-data/investigations-discovery/hospitalization-death-by-age.html

Notant $x$ le taux de décès de la tranche 18-29 ans, on obtient $(1/16 + 1/9 + 1 + 4 + 10 + 30) x \simeq 45 x$, pourcentage de décès chez les moins de 65 ans, et $(90 + 220 + 630) x = 940 x$ chez les plus de 65 ans, soit plus de 20 fois plus. Cela signifie que sur le total des morts de ce pays, seulement environ 16000 concernent des gens de moins de 65 ans (cf. https://ncov2019.live/). C'est moins de la moitié du nombre de tués sur les routes en 2019 dans ce même pays : https://www.nsc.org/road-safety/safety-topics/fatality-estimates.

Question 2

À peu près le même graphique qu'auparavant, mais avec gdb_per_capita qui remonte, indiquant une plus fort corrélation avec total_cases_per_million. De plus, female_smokers et aged_65_older semblent très fortement corrélées. Vérifions cela :

En effet donc, les pays comptant plus de personnes âgées (pas forcément les plus riches) ont aussi en général plus de femmes qui fument. Quand au PIB par habitant, il est assez nettement lié au nombre de cas : cela rejoint une observation précédente, et l'explication reste la même.

Le nuage comporte moins de points : compte-tenu des données manquantes, il ne reste que 84 individus sur les +180 initiaux. La répartition des pays est toutefois similaire : Europe à droite, Afrique à gauche - plus concentrée -, et les autres continents plutôt dispersés au centre. Notons tout de même une différence : l'Amérique du nords se retrouve nettement divisée en Canada-USA-Cuba et les autres pays : Mexique, Panama, République Dominicaine etc. Étant curieux de comprendre les différences par exemple entre Mexique, Panama et Cuba, regardons de plus près.

La réponse est assez claire : un âge médian nettement plus bas (de 10 ans environ) au Mexique et Panama. L'IDH des États-Unis est loin devant ceux des trois autres pays, expliquant son positionnement plus à droite. Cuba est légèrement à droite compte-tenu de son âge médian.

Résultat étonnant : le nombre de morts par millions semble négativement corrélé à la densité de population. Autrement dit, plus la densité est forte moins il y a de morts par million. C'est à relativiser car estimé sur 84 pays seulement, mais tout de même. Vérifions :

Ce n'était donc qu'une illusion graphique : en fait le plan 3-4 n'explique qu'environ 20% de l'inertie totale, et dans ce plan les variables total_deaths_per_million et population_density sont en fait relativement mal projetées :

Conclusion : il faut se méfier des impressions visuelles et revenir aux données pour vérifier. C'est ce que l'on fait plus bas.

Un axe se dégage clairement, du sud-ouest au nord-est. D'après le cercle des corrélations il correspondrait aux variables cardiovasc_death_rate, diabete_prevalence et male_smokers. Examinons trois pays pris sur cet axe dans la direction des flèches : Australie, Israel et Ukraine.

L'interprétation est vérifiée, sauf pour le taux de mortalité cardiovasculaire entre l'Australie et Israel.

Cherchons également à comprendre l'opposition sud-est / nord-ouest, en comparant deux individus extrêmes : Panama et les Maldives :

Ainsi, sur cet exemple l'opposition densité de population / nombre total de morts par millions est vérifiée. On peut supposer qu'elle est valide le long de cet axe dans ce plan seulement, avec d'un côté surtout des pays américains et de l'autre plutôt des pays asiatiques.

Conclusion

Dans un premier temps, l'ACP sur les données initiales a montré - assez logiquement - que la richesse d'un pays (résumée par son HDI) est le principal critère le différenciant des autres. Les variables "covid" sont faiblement voire pas du tout liées aux variables descriptives. L'Amérique du Sud est globalement plus touchée que l'Afrique (continent jeune) et l'Europe (continent riche), probablement à cause d'une mauvaise gestion de l'épidémie - qui peut être liée entre autres à des lacunes dans le système de santé pour certains pays (Pérou, Brésil par exemple).

Dans un second temps, l'ajout de variables et la suppression de plus de la moitié des pays a mené à quelques autres observations :

Je n'ai a priori pas vraiment d'explications à ces deux derniers points.