Exercice 1 (8 points)

  1. Soit $A = \begin{pmatrix}1 & 2 & 3\\ 2 & 3 & 4\\ 3 & 4 & 5\end{pmatrix}$. Calculer le rang de A. (1 point)
  2. Soit $A = \begin{pmatrix}1 & 0 & t\\ 2 & 1 & 0\\ 0 & 1 & 1\end{pmatrix}$. Pour quelles valeurs de $t$ la matrice est-elle inversible ? Calculer alors son inverse (2 points).
  3. Soit $A = \begin{pmatrix}2 & 1 & 0\\ 1 & 3 & 1\\ 2 & 1 & 0\end{pmatrix}$. Déterminez les vecteurs propres associés aux valeurs propres 1, 2 et 4. (3 points)
  4. Soient $A,B \in {\cal{M}}_n({\cal R})$ deux matrices carrées telles que la somme des coefficients sur chaque ligne de A et sur chaque ligne de B vaut 1. Montrer que la somme des coefficients sur chaque ligne de AB vaut 1. (2 points)
  1. Remarque C2 - C1 = C3 - C2 donc rg(A) <= 2.

Ensuite, on applique le début de l'algo du pivot de Gauss pour vérifier qu'on a bien deux 1 sur la diagonale => rg(A) = 2.

  1. det(A) = 1 + 2t => t != -1/2

Formule $A^{-1} = 1/(det(A)) * t(Com(A))$ :

$A^{-1} = 1 / (1 + 2t) * t( ( 1, -2, 2 , t, 1, -1 , -t, 2t, 1 ) )$ (matrice donnée en ligne).

Vérification conseillée avec un autre algo (méthode su système par exemple : A X = Y --> X = A^{-1} Y)

  1. A X = lambda X. Inconnue X

Système : 2x + y = lambda x , x + 3y + z = lambda y , 2x + y = lambda z On trouve (1, -1, 1) puis 0, puis (1, 2, 1)

  1. A = (A_ij), B = (B_ij), $AB_{ij} = \sum_{k=1}^{n} A_{ik} B_{kj}$ $$\begin{align*} \sum_{j=1}^{n} AB_{ij} &= \sum_{j=1}^{n} \sum_{k=1}^{n} A_{ik} B_{kj}\\ &= \sum_{k=1}^{n} \sum_{j=1}^{n} A_{ik} B_{kj}\\ &= \sum_{k=1}^{n} A_{ik} \sum_{j=1}^{n} B_{kj}\\ &= \sum_{k=1}^{n} A_{ik}\\ &= 1 \end{align*}$$

Exercice 2 (8 points)

Dans cet exercice on utilise un jeu de données indiquant la qualité de divers vins (rouges) en fonction de leurs caractéristiques physico-chimiques. La qualité (dernière colonne) est une note de 0 à 10. Autres variables :

Les variables 6, 7 et 10 correspondent à des additifs (conservateurs), a priori sans bonnes propriétés gustatives.

1] Décrivez ce que fait la ligne de code ci-dessous. (1.5 points)

ACP = recherche des 7 (ncp = 7) axes deux à deux orthogonaux maximisant itérativement l'inertie projetée (bref, juste rappeler ce que fait l'ACP). quanti.sup = 12 => la 12eme colonne est considérée comme variable (quantitative) supplémentaire.

2] Qu'est-ce qui est affiché par le code ci-dessous ? Combien d'axes au minimum doit-on garder pour conserver 75% d'inertie ? (1.5 points)

Colonne 1: valeurs propres = inertie.
Colonne 2: pourcentage d'inertie totale projectée sur chaque axe.
Colonne 3: pourcentages d'inerties cumulées.

Il faut garder 5 axes.

3] Commentez le résultat du code ci-dessous. (1.5 points)

On remarque que les 1000 individus les moins bien représentés (cos2 < 0.6) sont pour la plupart projetés près du centre. C'est assez facilement explicable car en étant proche du centre il n'y a que deux cas de figure possible : soit l'individu est réellement proche du centre de gravité (= moyenne, auquel cas le cos2 n'est pas significatif), soit il a des coordonnées non négligeables dans d'autres dimensions. Comme le premier plan ACP n'explique que 17+28 = 35% d'inertie environ, il est fort probable qu'on soit dans ce second cas.

4] Commentez les graphes ci-dessous. (2.5 points)

Axe 1 = acidité, (inv) pH. Axe 2 = taux de dioxyde de soufre.
Axe 3 : opposition acidité volatile / taux de dioxyde de soufre. Axe 4 = Chlorides.

Corrélation logique entre citric.acid et fixed.acidity. Également aussi densité inversement corrélée à alcohol (vérification via le tableau des corrélations) cf. cours de chimie (? :) ). Qualité d'autant meilleure que le taux de dioxyde de souffre baisse (logique) d'après le graphe, mais la vérification numérique montre que cette corrélation est en fait très faible en valeur absolue. De même entre la qualité et les sulfates : le tableau indique une très légère corrélation positive - on ne s'attendait effectivement pas à une forte corrélation. Assez forte corrélation entre la densité et taux d'acide tartrique.

L'inertie est assez uniformément répartie : les axes 2, 3 et 4 sont d'importance comparables.

Exercice 3 (8 points)

On reprend le jeu de données de l'exercice 2, en se focalisant sur les variables "quality" et "pH".

Rappel : la distance du $\chi^2$ entre une répartition d'entiers $n_1, \dots, n_k$ et l'effectif théorique $t_1, \dots, t_k$ s'écrit $d_{\chi^2} = \sum_{i=1}^{k} \frac{(n_i - t_i)^2}{t_i}$.

Tableau des effectifs dans chaque modalité :

quality \ pH high low medium
average 350 23 946
excellent 4 2 12
good 44 3 152
poor 26 1 36
  1. Expliquez comment obtenir le tableau des effectifs théoriques en cas d'indépendance, puis calculez-le. (2 points)
  2. Calculer la distance du $\chi^2$ entre le tableau réel et le tableau en cas d'indépendance. Combien y a-t-il de degrés de liberté, et pourquoi ? (2 points)
  3. En déduire l'inertie totale du nuage des profils ligne ou colonne. (1 point)
  4. Commentez les résultats de l'AFC ci-dessous. (3 points)
  1. On calcule la somme des éléments du tableau, ou on relit plus haut dans l'exo 2 : 1599 individus, donc il faut diviser chaque terme par 1599.

$A = \begin{pmatrix} 0.218886804 & 0.0143839900 & 0.59161976\\ 0.002501563 & 0.0012507817 & 0.00750469\\ 0.027517198 & 0.0018761726 & 0.09505941\\ 0.016260163 & 0.0006253909 & 0.02251407 \end{pmatrix}$

On calcule ses marges colonne et ligne :

rowSums(A) 0.82489056 0.01125704 0.12445278 0.03939962
colSums(A) 0.26516573 0.01813634 0.71669794

Finalement on effectue le produit matriciel des marges pour obtenir la matrice des proportions théoriques, qu'il suffit alors de multiplier par l'effectif total :

$$\begin{align*} P &= 1599 * \texttt{as.matrix(rowSums(m)) %*% colSums(m)}\\ &= \begin{pmatrix} 349.753596 & 23.921826 & 945.32458\\ 4.772983 & 0.326454 & 12.90056\\ 52.767980 & 3.609131 & 142.62289\\ 16.705441 & 1.142589 & 45.15197 \end{pmatrix}\end{align*}$$
  1. On applique juste la formule : 12 termes dans la somme, on trouve 18.02391.

(nombre de colonnes - 1) * (nombre de lignes - 1) car somme sur chaque ligne ou colonne = 1 $\Rightarrow$ colonnes et lignes liées. Donc 6 degrés de liberté.

  1. On a donc $\chi^2 = 18.02391 = n \Phi^2 \Rightarrow \Phi^2 = 18.02391 / 1599 \simeq 0.01127199$

"Excellent" clairement du côté de pH "low" => vins excellents ont tendance à être plus acides. À relativiser cependant car la ligne "excellent" contient très peu de vins.

"poor" du côté de "high" : les mauvais vins seraient moins acides. À relativiser également (seulement une soixantaine de bouteilles), mais déjà plus significatif que pour les vins excellents.

vins moyens pile au centre : c'est normal, le profil ligne correspondant est confondu avec l'effectif théorique.

"good" et "medium" du même côté, mais proches de l'origine. Les écarts numériques sont relativement faibles, donc ici aussi l'interprétation est à nuancer.

En effet les valeurs propres sont très faibles, indiquant un très léger écart à l'indépendance.

Exercice 4 (8 points)

Les données utilisées pour cet exercice correspondent au résultat d'une enquête effectuée par la ville de Québec, portant sur la qualité de vie ressentie des habitants, au cours de l'été 2020.

Variables :

1] Quelle est l'inertie totale du jeu de données ? (1 point)

K = 52, J = 10, donc inertie = K/J - 1 = 4.2

2] Au vu du résultat de code ci-dessous et en utilisant la règle vue en cours, combien d'axes devrait-on considérer ? (1 point)
Rappel de l'heuristique : $\lambda_s \geq \frac{1}{J}$ avec $J$ le nombre de variables.

On garde les 20 premiers axes (62% d'information). 1/J = 0.1

3] Rappelez pourquoi les axes n'expliquent chacun que quelques pourcents d'inertie. (1 point)

L'inertie pour une variable se répartit dans un espace à Kj - 1 dimensions où Kj est le nombre de modalités pour cette variable. Chaque axe ne peut donc pas expliquer beaucoup d'inertie (l'information est "diluée").

4] Considérant les indications ci-dessous, analysez les deux premiers axes et les variables. (4 points)

On remarque que l'axe 1 est plutôt corrélé aux variables qualité de service et recommandation, ce qui est conforme à l'impression visuelle. Les modalités qualité de service/recommandation 0, 1, 2 et 3 sont rares car éloignées du centre du nuage. La significationd e l'axe 1 est vérifiée en considérant les individus extrêmes à droite et à gauche.

L'axe 2 n'est pas corrélé significativement à une variable, mais en regardant les individus on remarque une opposition "jeune locataire sans enfants" et "famille propriétaire", expliquant que les visites des parcs et zones d'exposition soient du côté haut (familles).

L'inertie totale de ce plan vaut à peine 10, il y a donc encore beaucoup d'information non exploitée à ce stade.

5] Quelles sont les différences entre les résultats d'une ACM basée sur le tableau disjonctif complet ou sur le tableau de Burt ? (1 point)

Les valeurs propres obtenues via le tableau de Burt sont les carrés des valeurs obtenues par l'autre méthode. Pas de différences sinon.

Exercice 5 (8 points)

On considère l'extrait suivant d'un jeu de données visant à prédire la méthode de contraception (féminine) choisie en fonction de critères socio-démographico-économiques. L'étude s'est effectuée en Indonésie en 1987, sur quelques milliers de femmes mariées.
Source : https://archive.ics.uci.edu/ml/datasets/Contraceptive+Method+Choice

âge éducation au_foyer contraception
49 4 1 aucune
45 4 1 aucune
49 1 1 aucune
33 3 1 long-terme
38 4 1 long-terme
31 4 0 court-terme
36 1 1 court-terme

Construire un arbre de décision binaire selon la méthode vue en cours en utilisant l'indice d'entropie : $I_E = - \sum_{k=1}^{K} p_k \log p_k,$ avec $p_k$ proportion de la classe $k$ dans les données du noeud courant. Détaillez les étapes, et dessinez l'arbre. (5 points)

On trouve d'abord une coupure sur l'âge (> 40 et < 40), puis
Coupure au choix sur l'une des trois variables. On choisit "au foyer" : > 1 et = 1
Ensuite éducation > 1 et = 1 termine.

Calculez le taux d'erreur sur chacun des ensembles de test suivants. Commentez. (3 points)

contraception 1 = aucune, 2 = long-terme, 3 = court-terme

âge éducation au_foyer contraception
25 2 1 1
46 1 1 1
32 3 1 2
30 3 0 3
âge éducation au_foyer contraception
22 2 1 1
26 4 1 1
32 4 1 2
38 4 1 3

0.25 puis 0.75 => pas assez de données, l'arbre n'est pas utilisable pour généraliser.

Exercice 6 (8 points)

Appliquez l'algorithme des k-means aux lignes ci-dessous (extrait du jeu de données Iris). Effectuez deux exécutions avec pour centres initiaux respectivement

$(4, 3, 1, 0), (4, 3, 2, 0)$ et $(6, 3, 5, 2)$, puis
$(4, 3, 1, 0), (5, 2, 3, 1)$ et $(7, 3, 6, 2)$.

Commentez.

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
4.7 3.2 1.6 0.2 setosa
4.8 3.1 1.6 0.2 setosa
5.4 3.4 1.5 0.4 setosa
5.2 4.1 1.5 0.1 setosa
5.6 2.5 3.9 1.1 versicolor
5.9 3.2 4.8 1.8 versicolor
7.2 3.0 5.8 1.6 virginica
7.4 2.8 6.1 1.9 virginica

Rappel : boucle jusqu'à convergence
   i. affecter chaque point à la classe dont le centre est le plus proche,
   ii. recalculer les centres des classes (moyenne des éléments).

c1 = (4,3,1,0), c2 = (4,3,2,0), c3 = (6,3,5,2)

On laisse tomber cet exo ! (pas au partiel).

Cependant, il reste intéressant à faire sur machine. On remarque que selon les centres initiaux choisis, l'algorithme converge vers une bonne ou mauvaise solution. Il fallait donc conclure en parlant de la sensibilité aux conditions initiales.

Exercice 7 (8 points)

On suppose qu’un trait est gouverné par deux gènes, qui peuvent être de deux types, G et g. On suppose que G est dominant (c’est-à-dire que c'est lui qui s'exprime si la paire est Gg) et g récessif. Les états Gg, GG et gg sont appelés respectivement hybride, dominant et récessif.

  1. Un botaniste adopte la stratégie suivante : à chaque fois, il apparie l’individu de la n-ième génération avec un hybride. Modéliser la situation par une chaîne de Markov. Est-elle irréductible ? Apériodique ? Pourquoi ? (3 points)
  2. Même question si l'on apparie avec un dominant. (3 points)
  3. Comparer qualitativement l’évolution des deux chaînes. (2 points)

Gg = état 1 (ligne 1), GG = état 2 (ligne 2), gg = état 3 (ligne 3)

$P = \begin{pmatrix} 1/2 & 1/4 & 1/4\\ 1/2 & 1/2 & 0\\ 1/2 & 0 & 1/2 \end{pmatrix}$

  1. Irréductible : oui car l'état 1 permet d'aller dans les 2 autres états, et les probabilités de transition vers l'état 1 sont strictement positives.

P^2 > 0 donc la chaîne est régulière avec n = 2. (==> chaîne apériodique - à vérifier).
Apériodique : le PGCD des longueurs des chemins de chaque état à lui-même vaut 1 => apériodique ici.
(On peut aussi le voir "comme dans le cours" en disant qu'il existe un chemin de longueur 1 de chaque état à lui-même).

  1. Gg, GG, gg avec GG au lieu de Gg :

$P = \begin{pmatrix} 1/2 & 1/2 & 0\\ 0 & 1 & 0\\ 1/2 & 1/4 & 1/4 \end{pmatrix}$

Pas irréductible : aucun chemin de 2 à 1 ou 2 à 3.
Apériodique car boucle de chaque état vers lui-même.

  1. $P = \begin{pmatrix} 1/2 & 0 & 1/2\\1/2 & 1/4 & 1/4\\0 & 0 & 1\end{pmatrix}$

$N = (I - Q)^{-1} = (1, 1)$ => Au bout d'un certain nombre d'étapes on n'a que des plantes dominantes. Dans le cas de l'autre chaîne, on peut trouver sa distribution stationnaire qui donne la probabilité de se trouver dans un état après un grand nombre de transitions.

Calculons ce vecteur. On cherche $w$ tel que $w P = w$ : $$\begin{align*} 0.5 w1 + 0.5 w2 + 0.5 w3 = w1\\ 0.25 w1 + 0.5 w2 = w2\\ 0.25 w1 + 0.5 w3 = w3\\ \end{align*}$$

w1 = 2 w3 0.5 w3 = 0.5 w2 => w2 = w3 Donc (2, 1, 1) => vecteur de probabilités = (1/2, 1/4, 1/4)

=====

Calculons le temps moyen nécessaire pour arriver dans l'état gg depuis un état hybride dans le premier cas. On commence par considérer l'état 3 (gg) comme absorbant, la matrice étant transformée en :

$$\begin{align*} P &= \begin{pmatrix} 1/2 & 1/4 & 1/4\\ 1/2 & 1/2 & 0\\ 0 & 0 & 1 \end{pmatrix}\\ &= \begin{pmatrix} Q & R\\0 & I\end{pmatrix}\end{align*}$$

On peut alors appliquer les formules du cours concernant un état absorbant, avec

$Q = \begin{pmatrix}1/2 & 1/4\\1/2 & 1/2\end{pmatrix}$, $R = \begin{pmatrix}1/4\\0\end{pmatrix}$, $I = 1$

$N = (I_2 - Q)^{-1} = \begin{pmatrix}4 & 2\\4 & 4\end{pmatrix}$

Finaement $N c = (6, 8)$ donc il faut en moyenne 6 étapes avant d'obtenir un individu récessif depuis un hybride (et 8 depuis un dominant : on s'attendait en effet à ce que ça soit + dans ce cas car aucun gène récessif n'est initialement présent).