Lisez et comprenez cet article dans les grandes lignes : inutile de s'attarder sur les détails.
Implémentez des joueurs (aléatoires) de pierre-feuille-ciseaux(-lézard-Spock, éventuellement) suivant plusieurs stratégies en modélisant la situation par une chaîne de Markov. Jouez contre eux (sans savoir lequel est votre adversaire) : quel est le plus difficile à battre ? Note : considérer un état = une action.
La fonction walk() du module PyDTMC peut être utile (sinon c'est assez simple à réécrire).
Implémentez ensuite un joueur adaptatif, qui construit une chaîne de Markov au fur et à mesure que vous jouez contre lui. Il doit sélectionner les actions ayant le plus de chances de vous battre.
Lisez (le plus possible) et comprenez au moins comment les chaînes de Markov sont utilisées dans cet article.