Clustering¶

Données :

x1 x2
4 3
2 4
1 5
1 1
2 1
5 3

Appliquez en détaillant raisonnablement chaque étape l'algorithme des k-means avec $K=2$.
Prenez comme centres initiaux $c_1 = (2,3)$ et $c_2 = (5,5)$ dans un premier temps.
Choisissez ensuite $c_2 = (1,3)$ sans changer $c_1$. Que remarquez-vous ?

Appliquez ensuite l'algorithme CAH sur ces mêmes données.

Chaînes de Markov¶

  • Vous êtes invité$\cdot$e à participer au jeu Squid Game (en vrai :) ). Vous refusez avec probabilité 0.05.
  • Si vous acceptez et gagnez, vous remportez beaucoup d'argent.
  • Le jeu comporte 64 joueurs au départ et se déroule en 6 manches.
  • À l'issue d'une manche la moitié des joueurs est éliminée.

Modélisez la situation par une chaîne de Markov.
Combien de joueurs parviennent à passer les 6 épreuves ? (Justifiez)
Quelle est la probabilité de gagner ? (Expliquez le calcul)

  • À tout moment vous pouvez proposer un vote (entre joueurs) afin d'arrêter le jeu :
    si le vote est accepté, tout le monde sort, personne ne gagne.

Modifiez la modélisation pour prendre cela en compte.
Comment est impactée qualitativement la probabilité de gagner ? (Justifiez).

k-PPV en régression¶

On choisira $k = 2$ (deux voisins).

Données :

x1 x2 y
2 2 1.0
4 5 4.0
7 7 8.0
4 8 6.0
9 10 11.0
5 1 2.0
5 3 3.0
1 9 10.0
8 10 10.0
3 7 5.0
10 8 12.0
8 1 1.0

Considérant comme ensemble d'entraînement les lignes 1 à 8, calculez l'erreur $E$ réalisée sur l'ensemble de test (lignes 9 à 12). Cette dernière erreur $E$ est calculée ici comme la moyenne des erreurs absolues.

Répétez ensuite l'opération avec pour ensemble d'entraînement les lignes 5 à 12. Que remarquez-vous ?

Arbres de décision¶

L'échantillon ci-dessous correspond à un sous-ensemble du jeu de données "zoo" classant des animaux par groupes : https://archive.ics.uci.edu/ml/datasets/Zoo.

  • Groupe A = antilope, ours, dauphin.
  • Groupe B = carpe, hareng, pirahna.
  • Groupe C = homard, pieuvre, scorpion.

Tous les attributs sont booléens sauf le nombre de pattes : entier.

Aquatique Prédateur #Pattes Groupe
0 0 4 A
0 1 4 A
1 1 0 A
1 0 0 B
1 1 0 B
1 1 0 B
1 1 6 C
1 1 8 C
0 1 8 C

Construisez un arbre de décision selon la méthode vue en cours, en utilisant l'indice de Gini rappelé ci-dessous :
$$I = 1 - \sum_{k=1}^{K} p_k^2$$ où $p_k$ est la proportion de la classe $k$ dans l'ensemble considéré.

Réseaux de neurones¶

Considérant ce sous-ensemble du jeu de données iris

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
7.0 3.2 4.7 1.4 versicolor
6.4 3.2 4.5 1.5 versicolor
6.3 3.3 6.0 2.5 virginica
5.8 2.7 5.1 1.9 virginica

Indiquez en vous inspirant de l'exercice "Pierre Feuille Ciseaux" un réseau sans couches cachées permettant de classer les entrées dans l'une des trois espèces.

Initialisez les poids à zéro puis effectuez deux itérations d'apprentissage en considérant deux lignes différentes (au choix).