Sujet TP ACP (noté)

À faire seul ou en binôme.

D'abord, récupérez les données "covid" ici (arrêtées au 13 octobre ; j'ai complété une quinzaine de valeurs manquantes manuellement). https://auder.net/miage/B_seance3-4_ACP/data/owid-covid-data_EDIT_13-10-2020.csv Puis :

Questions

  1. Comprenez quelles variables sont présentes - si certaines ne sont pas claires, demandez-moi.
  2. Réalisez une ACP, puis interprétez-la autant que vous pouvez. Regardez ce qui se passe sur les axes capturant une relativement forte inertie : individus extrêmes, regroupement par continents... Certaines variables seraient-elles redondantes ? Essayer de considérer certaines variables comme supplémentaires. Essayez aussi de retirer quelques individus extrêmes par exemple. (Je n'ai pas encore vraiment analysé ce jeu de données mais suis sûr qu'il y a des choses à trouver !)
  3. Le fichier initial est disponible ici https://ourworldindata.org/coronavirus-data, rubrique "Download the complete Our World in Data COVID-19 dataset" Utilisez-le pour tester l'ajout de variables jusqu'ici mises de côté (il y en a beaucoup plus comme vous le verrez). On peut vouloir ajouter le nombre total de cas, ou la température, entre autres. Si une ligne comporte une valeur manquante, vous pouvez soit chercher à la compléter (Google...), soit retirer le pays correspondant de l'analyse. Attention certaines colonnes ont vraiment beaucoup de valeurs manquantes.

    Pour cette question, voici quelques commandes R facilitant la tâche :
    https://auder.net/miage/B_seance3-4_ACP/TP1_note/COMMANDES_QUESTION_2.

Note : idéalement il faudrait étudier ces données en tenant compte de leur évolution temporelle bien sûr, mais ça commencerait à largement sortir du cadre de ce cours. Ce n'est pas demandé. Mais vous avez le droit d'y jeter un oeil sur le site, et d'en dire quelques mots.

Format pour le rendu

Liste non exhaustive des formats acceptés :