Clustering (8 points)

Données :

x1 x2
0  0
1  2
0  3
5  5
6  5
7  4
7  3
7  1

Appliquer en justifiant chaque étape...

  1. L'algorithme des k-means avec $K=2$ puis $K=3$. (5 points)
    Centres initiaux : (0, 0), (1, 2) ; (7, 1) en plus pour $K=3$.
  2. L'algorithme de clustering hiérarchique "complete linkage" (3 points)

K plus proches voisins

Données :

x1 x2 classe
0  0  1
1  2  1
0  3  1
5  5  2
6  5  2
7  4  3
7  3  3
7  1  3
  1. Calculer l'erreur leave-one-out avec $K=2$ puis $K=3$ (4 points)
    En cas d'égalité on choisit la classe du point le plus proche.
  2. Comparer avec l'erreur obtenue par validation croisée en deux groupes (disjoints) de 4 individus, comportant chacun au moins un représentant de chaque classe (4 points)

Chaînes de Markov (8 points)

Un joueur d'échecs occasionnel installe sur son téléphone un programme pour jouer dans les transports. Ce programme dispose de 4 niveaux (numérotés de 1 à 4). On suppose que si le niveau intrinsèque du joueur est $n \in [1, 4]$, la probabilité qu'il gagne contre le niveau $m$ vaut $\frac{n}{n + m}$. On s'intéresse au nombre de parties jouées en moyenne avant d'atteindre le niveau 4, sachant que le joueur passe au niveau supérieur quand il gagne et revient au précédent quand il perd (pas de parties nulles).

Rappel : ce temps moyen s'écrit $t = N c$ où $N = (I - Q)^{-1}$ avec $Q$ la matrice des états transients, et $c$ vecteur colonne ne contenant que des $1$.

  1. Modélisez la situation par une chaîne de Markov, en supposant $n = 2$ fixé. (1 point)
  2. La chaîne est-elle irréductible (ergodique) ? Apériodique (régulière) ? Justifiez. (1.5 point)
  3. Calculez la distribution stationnaire $w$ telle que $w P = w$. Vérifiez la cohérence du résultat. (1.5 point)
  4. Supposant qu'il commence au niveau 1, calculez le nombre moyen de parties jouées avant d'arriver au niveau 4. (3 points)
  5. Proposez une amélioration permettant de modéliser aussi l'évolution du niveau du joueur.
    Est-ce toujours une chaîne de Markov homogène telle qu'étudiée en cours ? (1 point)

Rappel : une chaîne est homogène si les probabilités de transition ne dépendent pas du temps.

Arbres de décision (8 points)

Un joggeur décide chaque midi s'il va courir en fonction de quatre critères : la météo, la température, la vitesse du vent et son retard au boulot.

Construire un arbre de décision binaire selon la méthode vue en cours en utilisant l'indice de Gini :
$I_G = 1 - \sum_{k=1}^{K} p_k^2$, avec $p_k$ proportion de la classe $k$ dans les données du noeud courant.
Détaillez les étapes [calculatrice], et dessinez l'arbre. (7 points)

Hint: variables à considérer = température, retard, météo (dans cet ordre).

Température Vitesse (du vent) Météo Retard (au boulot) Courir ?
15.2 10 soleil non oui
12.0 15 nuages non oui
10.0 10 pluie oui non
5.5 35 nuages non non
30.0 15 soleil oui non
7.0 25 pluie non non
18.0 12 pluie non oui
18.0 13 nuages oui oui
20.5 30 soleil non oui
20.0 20 pluie oui non

(#BonSensRequired) Vous paraît-il judicieux d'élaguer cet arbre ? Pourquoi ? (1 point).

Analyse en Composantes Principales (8 points)

Dans cet exercice on utilise un jeu de données indiquant la qualité de divers vins (blancs) en fonction de leurs caractéristiques physico-chimiques. La qualité (dernière colonne) est une note de 0 à 10. Autres variables :

Les variables 6, 7 et 10 correspondent à des additifs (conservateurs), a priori sans bonnes propriétés gustatives.

1] Décrivez ce que fait la ligne de code ci-dessous. (1 points)

2] Qu'est-ce qui est affiché par le code ci-dessous ?
Combien d'axes doit-on garder (au minimum) pour conserver 80% d'inertie ? (1.5 points)

3] Commentez le résultat du code ci-dessous. (2 points)

4] Commentez les graphes ci-dessous. (3.5 points)

Analyse Factorielle des Correspondances (8 points)

On reprend le jeu de données de l'exercice précédent, en se focalisant sur les variables "quality" et "free.sulfur.dioxide".

  1. On donne le tableau des effectifs théoriques en cas d'indépendance.
    Expliquez comment celui-ci a été obtenu. (2 points)
quality \ free.sulfur.dioxide high low medium
average 695.5 1471.5 1488
excellent 34.2 72.5 73.3
good 167.5 354.3 358.2
poor 34.8 73.7 74.5
  1. Calculer la distance du $\chi^2$ avec le tableau réel ci-dessous. [calculatrice].
    Combien y a-t-il de degrés de liberté, et pourquoi ? (2 points)
  2. En déduire l'inertie totale du nuage des profils ligne ou colonne.
    Vérifiez à l'aide du dernier affichage ci-dessous. (1 point)
  3. Commentez les résultats de l'AFC affichés ici. (3 points)