Notes sur Google Maps
Téléchargez le jeu de données "Travel review rating". Partitionnez les données avec au moins deux méthodes, une basée sur les distances calculées
dans un graphe et l'autre non. Comparez les clusterings. Imaginez une application.
Données aériennes
Téléchargez les données de vols à cette adresse : fichier routes.dat. Il n'est plus à jour depuis juin 2014 mais
contient déjà pas mal d'informations et n'est pas encore trop vieux.
Téléchargez également les données relatives aux aéroports sur cette page : fichier airports.csv.
- Construisez un graphe (igraph) à partir de routes.dat.
- Calculez les distances inter-aéroports correspondant aux arêtes du graphe, en utilisant airports.csv
(certains codes peuvent avoir changé, disparu, apparu... mais dans l'ensemble on s'y retrouve).
- Déduisez-en les distances de graphe (plus court chemin), puis les distances ECT.
- Appliquez l'algorithme de clustering hiérarchique utilisant ces deux distances.
Observez-vous des différences ? Visualisez et comparez les partitions (clusterCrit::extCriteria).
- Bonus : appliquez quelques algorithmes de détection de communautés
présents dans la librairie igraph.
Suggestion de corrigé
Version Jupyter
Version HTML