Exercice 1

L'idée était de vous faire mettre en forme un jeu de données vous-même, avant d'effectuer une ACP. En effet l'ACP directe n'est pas possible car il y a trop de lignes incomplètes, des colonnes a priori peu pertinentes, et des données de type séries temporelles (que l'on ramènera à une seule valeur).

On y voit enfin plus clair :

92 lignes est raisonnable (proche de 50% de la taille du jeu de données initial). Cependant, pour être cohérent il faut en plus choisir un type de variable : absolu, ou relatif ? Je préfère les indicateurs relatifs (*_per_million, *_density) :

Note : toute l'analyse jusqu'ici aurait pu se faire aussi facilement avec un autre langage, Python par exemple.
À partir d'ici cependant, le package R FactoMineR est très pratique (pas d'équivalent Python (?!))

Bon, il semble qu'aucun individu ne se détache. En fait certaines lignes ont presque toutes leurs valeurs renseignées, et une fois complétées à l'aide de Google on trouve des individus extrêmes (Monaco, Singapour).

Côté variables, aged_65_older et aged_70_older apparaissent très corrélées (en fait même confondues). C'est logique, on gardera donc seulement aged_70_older après vérification numérique :

Environ 65% de l'inertie expliquée dans ce premier plan ACP (49.3 + 14.2). Le cercle des corrélations oppose logiquement "richesse" à droite (HDI, PIB/hab), avec "pauvreté" à gauche. Sur le nuage des individus cela correspond grossièrement à l'opposition Europe occidentale / Afrique (quelques exceptions : Tunisie, Seychelles, ...).

Il est intéressant de constater que les indicateurs de richesse sont très corrélés positivement au nombre de morts par millions, lui-même anti-corrélé avec extreme_poverty : le COVID frapperait plutôt les riches ? Mais pourquoi donc, puisque le virus est partout ? Et bien un élément de réponse se trouve dans ce même plan ACP : aged_70_older => on y vit plus vieux, et dans une moindre mesure diabetes_prevalence => plus de cas de diabète (à vérifier numériquement).

La corrélation (resp. anti-corrélation) aged_70_older avec HDI (resp. extreme_poverty) et total_deaths est vérifiée. De même, on observe une légère corrélation positive (resp. négative) entre diabetes_prevalence et HDI (resp. extreme_poverty).

Ensuite, le taux de fumeuses semble très corrélé à l'âge médian : les femmes auraient plus tendance à fumer dans les pays où l'on vit plus vieux (donc en général plus riches). Ce n'est pas le cas de male_smokers : le taux de fumeurs n'indique quant à lui pas grand chose. De même, et plus étonnament, le taux de mortalité par maladies cardiovasculaires (infarctus j'imagine) ne paraît corrélé à rien - si ce n'est justement et assez logiquement, la proportion de fumeurs : "According to the American Heart Association, cardiovascular disease accounts for about 800,000 U.S. deaths every year,5 making it the leading cause of all deaths in the United States. Of those, nearly 20 percent are due to cigarette smoking." [https://www.fda.gov/tobacco-products/health-effects-tobacco-use/how-smoking-affects-heart-health#]

La coloration par continents montre une opposition haut/bas entre Europe de l'est et Europe de l'ouest + USA/Canada/Israel/Corée/Australie. Il semble y avoir relativement plus de fumeurs en Géorgie/Ukraine/Russie. les pays d'Amérique centrale et du sud sont plus bas, donc a priori moins touchés par les décès par infarctus et comportant moins de fumeurs. Il n'y a pas assez de pays d'Océanie pour en dire grand chose, et l'Asie est répartie un peu partout, montrant une grande inhomogénéité en comparaison aux autres continents.

Vérifions notre analyse en regardant de plus près quelques individus :

Luxembourg : population âgée, HDI élevé, 2x moins de fumeurs qu'en Ukraine mais 2x + qu'en Equateur.
Niger : population jeune, HDI bas, peu de fumeurs, très peu de morts du COVID.

Bref, passons au second plan ACP :

Peu d'inertie expliquée dans ce plan (à peine 18%), mais une observation intéressante : anti-corrélation population_density et total_deaths_per_million ? À vérifier numériquement bien sûr car cette dernière flèche est loin du bord. Ce serait cependant cohérent : densément peuplé => contaminations plus faciles => plus de cas => plus de personnes très fragiles touchées => plus de morts.

On note aussi l'anti-corrélation entre diabetes_prevalence et extreme_poverty, déjà un peu observée dans le premier plan. Vérification numérique :

Opposition Égypte / malawi vérifiée sur l'axe diabète/pauvreté, ainsi que malte/Montenegro sur l'axe morts_par_million/densité.

Exercice 2

À l'URL indiquée, on lit clairement ce que représente chaque variable :

  1. cap-shape: bell=b,conical=c,convex=x,flat=f, knobbed=k,sunken=s
  2. cap-surface: fibrous=f,grooves=g,scaly=y,smooth=s
  3. cap-color: brown=n,buff=b,cinnamon=c,gray=g,green=r, pink=p,purple=u,red=e,white=w,yellow=y
  4. bruises?: bruises=t,no=f
  5. odor: almond=a,anise=l,creosote=c,fishy=y,foul=f, musty=m,none=n,pungent=p,spicy=s
  6. gill-attachment: attached=a,descending=d,free=f,notched=n
  7. gill-spacing: close=c,crowded=w,distant=d
  8. gill-size: broad=b,narrow=n
  9. gill-color: black=k,brown=n,buff=b,chocolate=h,gray=g, green=r,orange=o,pink=p,purple=u,red=e, white=w,yellow=y
  10. stalk-shape: enlarging=e,tapering=t
  11. stalk-root: bulbous=b,club=c,cup=u,equal=e, rhizomorphs=z,rooted=r,missing=?
  12. stalk-surface-above-ring: fibrous=f,scaly=y,silky=k,smooth=s
  13. stalk-surface-below-ring: fibrous=f,scaly=y,silky=k,smooth=s
  14. stalk-color-above-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o, pink=p,red=e,white=w,yellow=y
  15. stalk-color-below-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o, pink=p,red=e,white=w,yellow=y
  16. veil-type: partial=p,universal=u
  17. veil-color: brown=n,orange=o,white=w,yellow=y
  18. ring-number: none=n,one=o,two=t
  19. ring-type: cobwebby=c,evanescent=e,flaring=f,large=l, none=n,pendant=p,sheathing=s,zone=z
  20. spore-print-color: black=k,brown=n,buff=b,chocolate=h,green=r, orange=o,purple=u,white=w,yellow=y
  21. population: abundant=a,clustered=c,numerous=n, scattered=s,several=v,solitary=y
  22. habitat: grasses=g,leaves=l,meadows=m,paths=p, urban=u,waste=w,woods=d

Note : gill = branchie, stalk = tige, veil = voile (merci Google Translate).

23 variables : la première indique si le champignon est comestible (edible) ou non (poisonous).

On peut se poser diverses questions passionnantes sur les correspondances entre modalités, par exemple :

Certaines lignes sont identiques : odeurs a/l et s/y + m/c (proportionnelles : c'est pareil). Elles peuvent d'ailleurs être regroupées sans changer le résultat de l'analyse : faisons ça.

a-l (odeur) et m (habitat) sont du même côté : les prés contiennent surtout des champignons qui sentent l'amande ou l'anis (le tableau numérique - effectifs observés - indique qu'il faut lire l'association ainsi ; on peut aussi s'aider des effectifs théoriques : "m" est significativement plus associé avec a-l qu'en cas d'indépendance).

f, s-y sont du même côté que l et p : les champignons d'odeur "foul", "spicy" et "fishy" (épicé, nauséabond, poisson : bref des champis qu'on n'a pas très envie de manger a priori) se trouvent significativement plus dans les feuilles et sur les chemins, en comparaison aux effectifs théoriques. Pourquoi, ne me demandez pas.

p (odeur) / u (habitat) semble ressortir : odeur âcre (merci G...) en milieu urbain. On n'aurait pas très envie de manger des champignons poussant au milieu du béton, donc disons que c'est conforme à l'intuition.

Enfin, reste n/w (odeur/habitat) et c-m/d : champignons inodore dans les déchets (heu... ? admettons ^^), et champis sentant la "créosote" (charbon ? ...apparemment c'est un mot français) et le moisi dans les bois : assez cohérent disons.

J'ai un peu la flemme d'écrire autant de détails pour les deux autres cas, alors j'irai à l'essentiel :

b, y, p, e : plutôt poison - jaune/rouge/rose/"chamois"
n, g : on sait pas trop, faire attention - marron/gris
w, c : plutôt comestibles (3 chances sur 4 disons) - blanc/"cannelle" (heu... cannelle != marron ?! c'est subtil !)
r, u : tout est bon ! - vert/pourpre

Ok pour jaune/rouge/rose = méfiance, mais à part ça, je n'avais aucune intuition sur le sujet et cette étude ne m'inspirera pas spécialement confiance en présence d'un champignon violet =)

Note : deux lignes identiques, r = u.

Finalement, couleur des branchies vs. couleur de la tige "sous anneau" (c'est précis !) ?

e/e : rouge/rouge. Ok.
y/o : jaune (branchies) / orange (tige). Ok, c'est assorti.
o/c : orange (branchies) / cannelle (tige). De même, ce n'est pas choquant.

Le reste est proche de l'indépendance d'après le graphe.