Notes sur Google Maps

Téléchargez le jeu de données "Travel review rating". Partitionnez les données avec au moins deux méthodes, une basée sur les distances calculées dans un graphe et l'autre non. Comparez les clusterings. Imaginez une application.

Données aériennes

Téléchargez les données de vols à cette adresse : fichier routes.dat. Il n'est plus à jour depuis juin 2014 mais contient déjà pas mal d'informations et n'est pas encore trop vieux.

Téléchargez également les données relatives aux aéroports sur cette page : fichier airports.csv.

  1. Construisez un graphe (igraph) à partir de routes.dat.
  2. Calculez les distances inter-aéroports correspondant aux arêtes du graphe, en utilisant airports.csv (certains codes peuvent avoir changé, disparu, apparu... mais dans l'ensemble on s'y retrouve).
  3. Déduisez-en les distances de graphe (plus court chemin), puis les distances ECT.
  4. Appliquez l'algorithme de clustering hiérarchique utilisant ces deux distances. Observez-vous des différences ? Visualisez et comparez les partitions (clusterCrit::extCriteria).
  5. Bonus : appliquez quelques algorithmes de détection de communautés présents dans la librairie igraph.

Suggestion de corrigé

Version Jupyter
Version HTML