Exercice 0

Aide obtenue via ?plot.PCA :

 plot(x, axes = c(1, 2), choix = c("ind","var","varcor"),
     ellipse = NULL, xlim = NULL, ylim = NULL, habillage="none", 
     col.hab = NULL, col.ind="black", col.ind.sup="blue", 
     col.quali="magenta", col.quanti.sup="blue", col.var="black",
     label = c("all","none","ind","ind.sup","quali","var","quanti.sup"),
         invisible = c("none","ind","ind.sup","quali","var","quanti.sup"), 
     lim.cos2.var = 0., title = NULL, palette=NULL,
     autoLab = c("auto","yes","no"), new.plot = FALSE, select = NULL, 
         unselect = 0.7, shadowtext = FALSE, legend = list(bty = "y", x = "topleft"),
         graph.type = c("ggplot","classic"), ggoptions = NULL, ...)

axes : les deux axes à considérer (le premier en abscisse, le second en ordonnée).
choix : les individus ("ind"), ou les variables ("var") sur le cercle des corrélations.
habillage : colorier selon une variable (groupes, ou bien coloriage "continu").
...
select : permet par exemple de limiter le dessin aux individus les mieux représentés.

Une certaine corrélation positive entre les variables X1500m et Pole.Vault semble apparaître. Cela signifierait que "plus un athlète saute haut (avec perche), plus il est lent au 1500m" - attention ce n'est qu'une vague tendance, à vérifier numériquement ! De plus ce plan ne capte que 25% de l'inertie totale.

Exercice 1

La première colonne ("brand") indique la marque de pizza : elle ne peut pas contribuer à l'ACP car elle n'est pas numérique. Elle sera utile plus tard tout de même, pour visualiser les caractériqtiques des marques.

La seconde colonne est un identifiant, sans aucun intérêt en ce qui nous concerne.

https://www.zumub.com/blog/fr/quels-sont-vos-carbohydrates/ : "Les carbohydrates [...] peuvent être trouvés dans différents aliments tels que le miel, les biscuits, le pain [...]" => on comprend donc qu'un taux élevé de "carb" signifie "pizza à pâte épaisse" (généralement peu garnie. Chacun ses goûts hein mais autant se faire un sandwich '^^). L'opposition quasi parfaite avec la teneur en protéines "prot" s'en trouve expliquée. Beaucoup de viande ou beaucoup de pâte, il faut choisir.

Ensuite, on remarque que les pizzas plus grasses sont souvent plus caloriques, ce qui n'est pas très étonnant non plus. La très forte corrélation "sodium" / "fat" semble indiquer qu'il s'agit de ce type d'ingrédient, ce qui ne donne a priori pas très envie de goûter les pizzas de la marque "A"...

Enfin, la quantité d'eau présente dans l'échantillon n'est pas vraiment (positivement) corrélée aux autres variables (sauf "prot" : fruits de mer ?!), Les pizzas protéinées semblent aussi plus cendrées, mais j'ai du mal à interpréter ça (quelqu'un a une idée ?).

Note : 92% expliqués avec les deux premiers axes => pas besoin d'aller plus loin.

Les corrélations semblent plus marquées sur ce dernier graphe. Il resterait à en expliquer certaines, n'hésitez pas si vous avez des idées !

Exercice 2

Parmi ces variables, j'ai envie de considérer "Features.Max.Players" comme qualitative : c'est a priori plutôt un indicateur du type de jeu.

Quelques individus extrêmes se démarquent, mais globalement on n'y voit pas grand chose et beaucoup de jeux sont confondus vers l'origine. Environ 64% d'inertie expliquée dans ce plan, ce qui est assez important même si l'analyse des axes suivants reste intéressante.

Beaucoup de variables très corrélées : on va relancer l'analyse en supprimant certaines variables (quasi) redondantes, pour tenter d'y voir plus clair.

Regroupements :

'Metrics.Review.Score'

'Metrics.Sales'

'Metrics.Used.Price'

'Release.Year'

'Length.All.PlayStyles.Polled' (disons qu'on garde celle-là)
'Length.Completionists.Polled'
'Length.Main.Story.Polled'
'Length.Main...Extras.Polled'

'Length.Main.Story.Leisure'
'Length.Main.Story.Average'
'Length.Main.Story.Median' (gardée)
'Length.Main.Story.Rushed'

'Length.All.PlayStyles.Rushed'
'Length.All.PlayStyles.Median' (gardée)
'Length.All.PlayStyles.Average'

'Length.Completionists.Average' (gardée)
'Length.Completionists.Leisure'
'Length.Completionists.Median'
'Length.Completionists.Rushed'

'Length.Main...Extras.Average'
'Length.Main...Extras.Median' (gardée)
'Length.Main...Extras.Rushed'

'Length.Main...Extras.Leisure'

'Length.All.PlayStyles.Leisure'

=> 11 variables "seulement" au lieu de 24.

Le cercle des corrélations semble indiquer, en gros, que les jeux plus longs sont situés vers le bas à droite, tandis que les jeux les plus vendus sont plutôt vers le haut légèrement à droite. Vérification rapide :

Année de sortie complètement décorrélée du nombre de joueurs maximal : on ne voyait en effet pas très bien le rapport !