Estimador de Kaplan-Meier

Un ejemplo de la representación gráfica del estimador de Kaplan–Meier.

En el análisis de la supervivencia, el estimador de Kaplan-Meier es un estimador no paramétrico de la función de supervivencia. Fue introducido por Edward L. Kaplan y Paul Meier en 1958.[1]

Este estimador tiene en cuenta la censura.

El estimador admite una representación gráfica por medio de una función escalonada.

Formulación

Sea S(t) la función de supervivencia de una determinada población, es decir, la probabilidad de que uno de sus integrantes viva más allá de un tiempo t. Para una muestra de esta población de tamaño N, sean

los tiempos que discurren hasta la muerte todos ellos. Entonces, para cada ti, se define:

  • di, el número de muertes en el momento ti y
  • ni, el número de sujetos en riesgo justo antes de ti. De no haber censura, ni es el número de supervivientes inmediatamente antes del momento ti. Con censura es el número de supervivientes menos el número de casos censurados: sólo se observan los sujetos vivos que no se han caído del estudio en el momento en que ocurre una muerte.

El estimador de Kaplan–Meier de S(t) el producto

Puede probarse que se trata del estimador no paramétrico de máxima verosimilitud de S(t).

Formulación alternativa

Existe una definición alternativa,

que difiere de la anterior sólo en los momentos de las muertes. Una es continua por la derecha y otra lo es por la izquierda.

Sea T la variable aleatoria que mide el tiempo de muerte y F(t) su función de distribución. Entonces

Por lo tanto, la versión continua por la derecha es preferible: la hace coherente con la definición habitual de F(t).

Consideraciones estadísticas

El estimador de Kaplan–Meier es un estadístico y existen varios estimadores de su varianza. Uno de los más habituales lo da la fórmula de Greenwood::

Existen métodos para comparar distintas curvas de Kaplan–Meier (por ejemplo, las correspondientes a dos tratamientos médicos distintos) como, por ejemplo:

Aplicaciones

El estimador de Kaplan–Meier tiene diversas aplicaciones. En medicina se usa para medir la fracción de pacientes todavía vivos tiempo después de un tratamiento. En economía para medir el tiempo que pasa la gente en el paro después de perder su empleo. En ingeniería para estimar el tiempo hasta el fallo en una máquina.

Uno de los problemas típicos en el análisis de la supervivencia consiste en determinar si dos curvas de Kaplan-Meier (por ejemplo, las correspondientes a dos cohortes de pacientes que han sido sometidos a tratamientos distintos) son o no significativamente distintas.

Implementación en R

La función survfit de R permite calcular el estimador de Kaplan-Meier para datos truncados o censurados. Existen otras funciones[2]​ que permiten representarlos gráficamente, comparar varios de ellos, etc.

Bibliografía

  • Kaplan, E. L.; Meier, P.: Nonparametric estimation from incomplete observations. J. Amer. Statist. Assn. 53:457–481, 1958. JSTOR 2281868
  • Kaplan, E.L. en la retrospectiva "This week's citation classic". Current Contents 24, 14 (1983). Disponible en PDF. Archivado el 12 de abril de 2016 en Wayback Machine.
  • Guadalupe Gómez, Carles Serrat y Klaus Langohr: S-PLUS en los estudios de supervivencia. Disponible en PDF.
  • Borges, R. (2005). Análisis de sobrevivencia utilizando el Lenguaje R. XV Simposio de Estadística, Paipa, Colombia. Disponible en PDF

Enlaces externos

Referencias

  1. Kaplan, E. L.; Meier, P. (1958). «Nonparametric estimation from incomplete observations». J. Amer. Statist. Assoc. 53 (282): 457-481. JSTOR 2281868. doi:10.2307/2281868. 
  2. Paquetes para el análisis de la supervivencia en R