# Matrice de transition
P_ = [
    # D    J     M      (états)
    [0.9, 0.05, 0.05], # Dormir
    [0.8, 0.2,  0.0],  # Jouer
    [0.7, 0.3,  0.0]   # Manger
]

import numpy as np
import numpy.linalg as li
P = np.matrix(P_) #pour calculer P^n


li.matrix_power(P, 3)[0,1]

0.07175000000000002


li.matrix_power(P, 12)[2,0]

0.8839779005525004


li.matrix_power(P, 50)

matrix([[0.8839779, 0.0718232, 0.0441989],
        [0.8839779, 0.0718232, 0.0441989],
        [0.8839779, 0.0718232, 0.0441989]])


[160/181, 13/181, 8/181]

[0.8839779005524862, 0.0718232044198895, 0.04419889502762431]


Q = np.matrix([[0.9, 0.05],[0.8, 0.2]])
R = np.matrix([[0.05],[0.0]])
N = li.inv( np.identity(2) - Q )
print(np.sum(N, axis=1))

[[21.25]
 [22.5 ]]


np.identity(2) - Q

matrix([[ 0.1 , -0.05],
        [-0.8 ,  0.8 ]])


N @ R #colonne de 1 : normal, on finit par manger avec probabilité 1

matrix([[1.],
        [1.]])


# Matrice de transition
P_ = [
    # 3    6    0    8    (états)
    [0.0, 0.4, 0.6, 0.0], # 3
    [0.0, 0.0, 0.6, 0.4], # 6
    [0.0, 0.0, 1.0, 0.0], # 0
    [0.0, 0.0, 0.0, 1.0]  # 8
]
# Remarque : l'ordre dans lequel les états apparaissent n'importe pas,
# mais il est plus facile de regrouper les états absorbants en bas à droite.

P = np.matrix(P_) #pour utiliser numpy

# Matrice fondamentale : N = (I - Q)^{-1})
indices = range(2) #2 = nombre d'états non absorbants (transients)
Q = P[indices,:][:,indices]
N = li.inv( np.identity(2) - Q )


print(np.identity(3))
print("")
print(np.identity(4))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


# Suite de l'exercice : matrice R, puis N x R
R = P[indices,:][:,range(2, P.shape[1])]
absorb_probs = N @ R
absorb_probs[0, 1] #partant de l'état 0 = 3€, probabilité de sortir de prison (état absorbant 1)

0.16000000000000003


print(0.4 * 0.4) #2/5 * 2/5 : erreur
print(0.5 * 0.5) #1/2 * 1/2 : OK

0.16000000000000003
0.25


# Modélisation modifiée : on mise 2 dans l'état "6€", et 4 dans l'état "4€" :
P_ = [
    # 3    4    6    0    8    (états)
    [0.0, 0.0, 0.4, 0.6, 0.0], # 3
    [0.0, 0.0, 0.0, 0.6, 0.4], # 4
    [0.0, 0.6, 0.0, 0.0, 0.4], # 6
    [0.0, 0.0, 0.0, 1.0, 0.0], # 0
    [0.0, 0.0, 0.0, 0.0, 1.0]  # 8
]

# Résumé des opérations réalisées, dans une fonction :
def getAbsorbProbs(P):
    nbTransients = P.shape[0] - 2
    indices = range(nbTransients)
    Q = P[indices,:][:,indices]
    N = li.inv( np.identity(nbTransients) - Q )
    R = P[indices,:][:,range(nbTransients, P.shape[1])]
    return N @ R

getAbsorbProbs(np.matrix(P_))[0, 1]

0.256


P_ = [
    # 1    2    3    4    5    6    7    8    0    (états)
    [0.0, 0.4, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.6], # 1
    [0.6, 0.0, 0.4, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], # 2
    [0.0, 0.6, 0.0, 0.4, 0.0, 0.0, 0.0, 0.0, 0.0], # 3
    [0.0, 0.0, 0.6, 0.0, 0.4, 0.0, 0.0, 0.0, 0.0], # 4
    [0.0, 0.0, 0.0, 0.6, 0.0, 0.4, 0.0, 0.0, 0.0], # 5
    [0.0, 0.0, 0.0, 0.0, 0.6, 0.0, 0.4, 0.0, 0.0], # 6
    [0.0, 0.0, 0.0, 0.0, 0.0, 0.6, 0.0, 0.4, 0.0], # 7
    [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0], # 8
    [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0]  # 0
]

# 7 états transients. On part du 3eme = indice 2.
getAbsorbProbs(np.matrix(P_))[2, 0]

0.09643140364789855


# Fonction calculant P étant donné le paramètre de gain p (0.4 jusqu'ici), et la stratégie S
def buildP(p, S):
    P = np.zeros((9, 9)) #9 états = cas le plus général - sur cet exercice
    for state in range(1, 8):
        mise = S(state)
        P[state, state - mise] = 1 - p #on perd
        P[state, state + mise] = p #on gagne
    # On complète avec les états absorbants
    P[0, 0] = 1
    P[8, 8] = 1
    # réagencement de P : état 0 à la fin https://stackoverflow.com/a/34443002/12660887
    # L'état 7 sera en premier. Pas très grave : 7 1 2 3 4 5 6 donc. "3€" en 4eme position
    P[[0, 7], :] = P[[7, 0], :]
    P[:, [0, 7]] = P[:, [7, 0]]
    return (P)

def strategy(n):
    return min( max(1, n-1), 8-n )

P = buildP(0.4, strategy)
getAbsorbProbs(P)[3, 1]

0.21408450704225357


# Tests : pour p = 0.5, on doit trouver 0.5 quelle que soit la stratégie, à condition de partir de 4€.
#         les probabilités d'absorption ne doivent alors pas dépendre de la stratégie.
def S1(n):
    return 1

def S2(n):
    return min(n, 8-n) #optimal, semble-t-il

print( getAbsorbProbs( buildP(0.5, S1) )[:, 1] )
print( getAbsorbProbs( buildP(0.5, S2) )[:, 1] )
print( getAbsorbProbs( buildP(0.5, strategy) )[:, 1] )

[0.875 0.125 0.25  0.375 0.5   0.625 0.75 ]
[0.875 0.125 0.25  0.375 0.5   0.625 0.75 ]
[0.875 0.125 0.25  0.375 0.5   0.625 0.75 ]


# Pour p = 0.6 on devrait retrouver exactement les résultats précédents
# en partant cette fois de 5€ et en cherchant à perdre (situation symétrique) :
print( getAbsorbProbs( buildP(0.6, S1) )[5, 0] )
print( getAbsorbProbs( buildP(0.6, S2) )[5, 0] )
print( getAbsorbProbs( buildP(0.6, strategy) )[5, 0] ) #erreur d'arrondi, le retour ? TODO...

0.09643140364789848
0.256
0.21694915254237299

Exercice 1¶

Exercice 2¶