Analyse de survie¶
L”analyse de survie est un sujet qu’on commence à voir poindre en assurance et plus généralement en assurance. C’est domaine développé pour mesurer les effets d’une substance, d’un médicament sur un corps vivant, une personne.
Lien avec le machine learning¶
En assurance, on cherche souvent à prédire si une personne aura un accident ou pas. Pour cela, il faut avoir des données, une base de données dans laquelle sont enregistrés des accidents. L’accident en question peut avoir lieu au début du contrat, quelques années plus tard ou jamais. Lorsqu’aucun accident n’est associé à une personne, il se peut qu’il ne se produise aucun accident ou que celui-ci ne s’est pas encore produit. Modéliser ce problème de prédiction permet d’introduire le temps et prendre en compte le fait que les données sont tronquées : on ne sait pour une personne que si un accident s’est produit ou pas entre le début du contrat et aujourd’hui.
Courbe de Kaplan-Meier¶
On reprend la même terminologie. A une date , on administre
un traitement à une personne, un animal, une plante. Cet être vivant
meurt à un temps t + d. Le traitement a-t-il amélioré sa survie ?
On considère deux temps
et
, la probabilité
de décès entre ces deux temps peut être estimé par
où
est la
population vivante au temps
(depuis le début du traitement).
On en déduit la probabilité de rester vivant jusqu’au temps
qui est l’estimateur de Kaplan-Meier
:
Par simplification, on note . On suppose les
des dates à intervalles plutôt réguliers et croissants. La suite
est décroissantes (on ne rescuscite pas).
Ces calculs rappellent les calculs liés à l’espérance de vie
(voir Evolution d’une population - énoncé,
Evolution d’une population (correction)).
L’espérance de vie est définie par :
La courbe est aussi appelée la fonction de survie. Si T
est la durée de vie d’une personne,
.
On appelle
le taux de défaillance, c’est la probabilité
que le décès survienne au temps t :
Régression de Cox¶
Le modèle de Cox
modélise le risque de décès instantané au temps t selon le modèle qui suit.
Une personne est décrite par les variables .
La partie correspond à ce qu’on observe sans
autre informations que les décès. On l’appelle aussi le risque de base.
C’est la probabilité moyenne
de décès instantanée. La seconde partie permet de faire varier
cette quantité selon ce qu’on sait de chaque personne.
On dit que c’est un modèle à risque proportionnel car si deux personnes sont quasiment
identiques excepté sur une variable (comme la quantité d’un poison ingérée), alors le ratio
de probabilité est :
L’hypothèse des risques proportionnel est en quelque sorte intuitive. Plus on ingère un poison, plus on a de chances d’en subir les conséquences. Mais ce n’est pas toujours le cas, le documentaire La fabrique de l’ignorance revient sur les effets du bisphénol A qui serait déjà pertubateur à très petite dose. Il ne prend pas en compte les effets croisés non plus (voir Les perturbateurs endocriniens Comprendre où en est la recherche).
La fonction est en quelque sorte le taux de défaillance
moyen. On peut le calculer à partir des formules introduites au
paragraphe précédent en lissant la courbe de Kaplan-Meier avec des
splines. On peut aussi le calculer avec l’estimateur
de Breslow (voir Analyse de survie : Méthodes non paramétriques,
Introduction à l’analyse des durées de survie).
qui repose aussi la courbe de Kaplan-Meier.
On sait que si alors
. On en déduit que :
Pour la suite, on pose ,
et l’individu meurt au temps
de l’expérience.
Une expérience est définie par la liste des couples
. On souhaite trouver les paramètres
qui représentent au mieux les données
de l’expérience. On définit donc :
: l’ensemble des personnes en vie au temps t
: l’ensemble qui décèdent au t
Par définition et
.
On calcule le ratio :
Pour une personne qui décède au temps t, ce ratio devrait être proche de 1
car on souhaite que soit grand et tous les autres nuls.
On définit la vraisemblance partielle du modèle par :
Une fois qu’on a calculé les coefficients optimaux,
on peut affiner la partie
. L’estimateur
de Breslow est :
C’est un estimateur de la fonction de survie :