Analyse de survie¶

L”analyse de survie est un sujet qu’on commence à voir poindre en assurance et plus généralement en assurance. C’est domaine développé pour mesurer les effets d’une substance, d’un médicament sur un corps vivant, une personne.

Lien avec le machine learning¶

En assurance, on cherche souvent à prédire si une personne aura un accident ou pas. Pour cela, il faut avoir des données, une base de données dans laquelle sont enregistrés des accidents. L’accident en question peut avoir lieu au début du contrat, quelques années plus tard ou jamais. Lorsqu’aucun accident n’est associé à une personne, il se peut qu’il ne se produise aucun accident ou que celui-ci ne s’est pas encore produit. Modéliser ce problème de prédiction permet d’introduire le temps et prendre en compte le fait que les données sont tronquées : on ne sait pour une personne que si un accident s’est produit ou pas entre le début du contrat et aujourd’hui.

Courbe de Kaplan-Meier¶

On reprend la même terminologie. A une date $t_0$ , on administre un traitement à une personne, un animal, une plante. Cet être vivant meurt à un temps t + d. Le traitement a-t-il amélioré sa survie ? On considère deux temps $t_1$ et $t_2$ , la probabilité de décès entre ces deux temps peut être estimé par $\frac{n_{t_2} - n_{t_1}}{n_{t_1}}$ où $n_{t_i}$ est la population vivante au temps $t_i$ (depuis le début du traitement).

On en déduit la probabilité de rester vivant jusqu’au temps $t_i$ qui est l’estimateur de Kaplan-Meier $\hat{S}(t_i)$ :

$\begin{array}{rcl} \hat{S}(t_i) &=& \prod_{i=1}^i \left( 1 - \frac{n_{t_{i-1}} - n_{t_{i}}}{n_{t_{i-1}}} \right) \\ &=& \prod_{i=1}^i \frac{n_{t_i}}{n_{t_{i-1}}} = \prod_{i=1}^i \frac{n_i}{n_{i-1}} \end{array}$

Par simplification, on note $n_i = n_{t_i}$ . On suppose les $t_i$ des dates à intervalles plutôt réguliers et croissants. La suite $(n_i)$ est décroissantes (on ne rescuscite pas). Ces calculs rappellent les calculs liés à l’espérance de vie (voir Evolution d’une population - énoncé, Evolution d’une population (correction)). L’espérance de vie est définie par :

$\esp(D) = \sum_{i=1}^{\infty} t_i \pr{ \text{mort au temps } t_i} = \sum_{i=1}^{\infty} t_i \frac{n_i - n_{i+1}}{n_{i}} \prod_{j=0}^i\frac{n_j}{n_{j-1}} = \sum_{i=1}^{\infty} t_i \frac{n_i - n_{i+1}}{n_{i}} \frac{n_i}{n_0} = \sum_{i=1}^{\infty} t_i \frac{n_i - n_{i+1}}{n_0}$

La courbe $S(t)$ est aussi appelée la fonction de survie. Si T est la durée de vie d’une personne, $S(t) = \pr{T > t}$ . On appelle $\lambda(t)$ le taux de défaillance, c’est la probabilité que le décès survienne au temps t :

$\lambda(t)dt = \pr{t \leqslant T < t + dt | T \supegal T} = - \frac{S'(t)}{S(t)} dt$

Régression de Cox¶

Le modèle de Cox modélise le risque de décès instantané au temps t selon le modèle qui suit. Une personne est décrite par les variables $X_1, ..., X_k$ .

$\lambda(t, X_1, ..., X_k) = \lambda_0(t) \exp\left(\sum_{i=1}^k \beta_i X_i\right) = \lambda_0(t) \exp (\beta X)$

La partie $\lambda_0(t)$ correspond à ce qu’on observe sans autre informations que les décès. On l’appelle aussi le risque de base. C’est la probabilité moyenne de décès instantanée. La seconde partie permet de faire varier cette quantité selon ce qu’on sait de chaque personne.

On dit que c’est un modèle à risque proportionnel car si deux personnes sont quasiment identiques excepté sur une variable $X_i$ (comme la quantité d’un poison ingérée), alors le ratio de probabilité est :

$\frac{\lambda(t, X_1, ..., X_i^a, ..., X_k)}{\lambda(t, X_1, ..., X_i^b, ..., X_k)} = \frac{\exp(\beta_i X_i^a)} {\exp(\beta_i X_i^b)} = \exp\left(\beta_i (X_i^a - X_i^b)\right)$

L’hypothèse des risques proportionnel est en quelque sorte intuitive. Plus on ingère un poison, plus on a de chances d’en subir les conséquences. Mais ce n’est pas toujours le cas, le documentaire La fabrique de l’ignorance revient sur les effets du bisphénol A qui serait déjà pertubateur à très petite dose. Il ne prend pas en compte les effets croisés non plus (voir Les perturbateurs endocriniens Comprendre où en est la recherche).

La fonction $\lambda_0(t)$ est en quelque sorte le taux de défaillance moyen. On peut le calculer à partir des formules introduites au paragraphe précédent en lissant la courbe de Kaplan-Meier avec des splines. On peut aussi le calculer avec l’estimateur de Breslow (voir Analyse de survie : Méthodes non paramétriques, Introduction à l’analyse des durées de survie). qui repose aussi la courbe de Kaplan-Meier.

On sait que si $g(t) = \log S'(t)$ alors $g'(t) = \frac{S'(t)}{S(t)}$ . On en déduit que :

$\hat{\lambda_0}(t) = - \frac{d (\log(\hat{S}(t)))}{dt}$

Pour la suite, on pose $h(X_i, \beta) = \exp(\beta X_i)$ , et l’individu meurt au temps $t_i$ de l’expérience. Une expérience est définie par la liste des couples $(X_i, t_i)$ . On souhaite trouver les paramètres $\beta$ qui représentent au mieux les données de l’expérience. On définit donc :

$R_t$ : l’ensemble des personnes en vie au temps t
$D_t$ : l’ensemble qui décèdent au t

Par définition $i \in R_{t_i}$ et $i \in D_{t_i}$ . On calcule le ratio :

$Pr(\beta, t, X_i) = \frac{h(X_i, \beta) \lambda_0(t)}{\sum_{j \in R_t} h(X_j, \beta) \lambda_0(t)} = \frac{h(X_i, \beta) }{\sum_{j \in R_t} h(X_j, \beta) }$

Pour une personne qui décède au temps t, ce ratio devrait être proche de 1 car on souhaite que $h(X_i, \beta)$ soit grand et tous les autres nuls. On définit la vraisemblance partielle du modèle par :