viernes, 19 de septiembre de 2014

Crisis del ébola





Gracias a unos minutos libres y algo de curiosidad le decidí poner números a la crisis del ébola. Con las finanzas poco tiene que ver, pero el análisis de datos se puede aplicar el entendimiento de otras series de tiempo que tengan algún impacto con el mundo económico-financiero; examinar interpretaciones y a lidiar con los problemas de los resultados.

De acuerdo a lo que dice Wikipedia de la CDC, el 24 de marzo comenzó esta crisis con 86 casos y 59 muertes. Unos 173 días después (13 de septiembre), se habían registrado 4,985 casos y 2,461 muertes.

La cosa se dio así:

Casos
Cambio en Casos
Muertes
Cambio en Muertes
13-sep-14
4,985
1,278
2,461
613
31-ago-14
3,707
638
1,848
296
26-ago-14
3,069
454
1,552
125
20-ago-14
2,615
142
1,427
77
18-ago-14
2,473
233
1,350
121
16-ago-14
2,240
113
1,229
84
13-ago-14
2,127
152
1,145
76
11-ago-14
1,975
127
1,069
56
09-ago-14
1,848
69
1,013
52
06-ago-14
1,779
68
961
29
04-ago-14
1,711
108
932
45
01-ago-14
1,603
163
887
61
30-jul-14
1,440
117
826
97
27-jul-14
1,323
122
729
57
23-jul-14
1,201
108
672
12
20-jul-14
1,093
45
660
28
17-jul-14
1,048
84
632
29
12-jul-14
964
76
603
64
08-jul-14
888
44
539
21
06-jul-14
844
65
518
37
02-jul-14
779
20
481
14
30-jun-14
759
160
467
114
22-jun-14
599
71
353
31
17-jun-14
528
22
322
52
10-jun-14
506
32
270
18
08-jun-14
474
36
252
21
05-jun-14
438
84
231
23
30-may-14
354
45
208
8
27-may-14
309
39
200
17
21-may-14
270
25
183
17
10-may-14
245
2
166
2
03-may-14
243
10
164
9
30-abr-14
233
13
155
10
21-abr-14
220
5
145
7
17-abr-14
215
6
138
7
16-abr-14
209
40
131
21
10-abr-14
169
6
110
8
07-abr-14
163
28
102
14
02-abr-14
135
5
88
6
01-abr-14
130
16
82
12
31-mar-14
114
11
70
4
27-mar-14
103
17
66
6
25-mar-14
86
0
60
1
24-mar-14
86

59


Saltan dos cosas:

1) Es una listota

2) Entre las dos últimas mediciones el cambio en casos se duplicó. Ojo: el cambio, no el número de casos.

          a. De esto podemos adivinar que tendrá un crecimiento exponencial.

Si lo graficamos nos damos cuenta que si:


Dependiendo del paquete estadístico que usemos, podremos tratar de calcular la ecuación. En mi caso es un Excel, jugar con la gráfica y el análisis de tendencias.

Llegamos a las siguientes ecuaciones para el número de casos y muertes con respecto a días transcurridos desde que esto estalló (si, a más x mayor la R pero después de 2 es prácticamente indiferente y es mucho más cómodo trabajar con pocas):

Casos = 0.0024x^3 – 0.3675x^2 + 19.733x – 28.41; R^2 = 0.9937


*Las bolas negras son las de la ecuación.

Y a esta otra para el número de muertes:

Muertes = 0.001x^3 – 0.1412x^2 + 8.0534x – 19.899; R^2 = 0.9954


*Las bolas negras son las de la ecuación.

Lo primero que podemos hacer, y lo más obvio, es echar unas predicciones (recuerden que vamos en el día 174 desde que empezó esto):


Días
Casos
Muertes
180
5,613
2,687
240
16,717
7,604
360
71,422
31,236
720
719,463
305,828

Ok, ¡malas noticias! Pero también hay otra cosa que podemos hacer, examinar la evolución de la proporción de muertes a casos registrados y sacar una tendencia:

% = -0.0009x + 0.6689



De aquí podemos echar otra predicción: en teoría, después de 720 días ya no va a haber casos fatales de ébola, independientemente del número de casos. Esto quiere decir que cada vez hay un menor número de víctimas por número de casos ¡buenas noticias!

¿Cómo conciliamos las ecuaciones? Si le hacemos caso al primer par de ecuaciones, la epidemia seguirá hasta terminar con todos y la tasa de mortalidad nunca bajará del 41.67% (matamos la paradoja con una distribución de probabilidades que seguro existe); si le hacemos caso a la tercera, la epidemia solo durará 720 días. La respuesta es muy simple, y ya la dijo Bhor: "Hacer predicciones es muy difícil, especialmente cuando se trata del futuro". Como nunca vamos a poder ver el futuro no hace falta tratar de conciliar las ecuaciones.

Se pueden saltar este párrafo: Por ejemplo, con las primeras 2 ecuaciones. Estas salen de la serie de 43 datos, pero al jugar con el número de datos y quitar los más recientes, las curvas se van aplanando más y más. Esto quiere decir que las primeras dos ecuaciones han variado a través del tiempo y por esto las podemos descartar para echar un pronóstico… no nos sirve un modelo que cambie cada vez y que no pueda predecir (en teoría podemos añadir el cambio en las ecuaciones a una nueva ecuación, y en caso de ser necesario los cambios de los cambios a otra nueva ecuación… o encontrar un límite, pero me da flojera lo primero y no sé cómo hacer lo segundo). En la tercera ecuación pasa lo mismo; si usamos menos datos la tendencia se aplana y prácticamente desaparece.

¿Entonces perdimos el tiempo con las ecuaciones? Tampoco. Podemos interpretar relativamente bien lo que pasó y podría pasar:

El ébola brotó pero lento (como de a 8 contagiados por día) hasta julio. La mortalidad era alta, 63% en promedio. No impactaba tanto, en bloomberg encontré 3 páginas de varias. Luego FUA!, el virus se comenzó a propagar mucho más rápido (…ooooo… ¿había más gente para contarlos?...), de a 74 por día. Se convirtió en noticia, en bloomberg encontré 30 páginas de noticias para los últimos 2 meses. Las campañas tuvieron impacto, la mortalidad bajó a 54% en promedio. NOTA: son muertes y casos acumulados por lo que es probable que ahorita la mortalidad real sea mucho más baja. ¿Qué podrá pasará? Juntando las 3 ecuaciones y la historia: los contagios continuarán pero controlados (puede que 74 por día sea el límite) gracias a las campañas para contener la enfermedad. Es muy probable que, también gracias a las campañas, la tasa de mortalidad baje considerablemente. Así que los 550,000 contagiados que espera la CDC suenan complicados. En otras palabras, si de morir se trata, de ébola no será.

¿Pero en realidad es tan malo este brote (está claro que no está cool, pero comparada con otras)? En 1918 la gripe española mató entre 50 a 100 millones de personas en solo un año; la peste negra mató a 34 millones, la gripe asiática mató a 4 millones. Y por mencionar, la famosa AH1N! mató a 18,000 supuestamente y en México han muerto más de 63 mil personas en accidentes de tráfico en los últimos 10 años...


Update:

Desde que publiqué esto las muertes parecen estabilizarse: de las 11 observaciones recientes las muertes diarias, el promedio de muertes bajó a 65 y solo en 3 se rompió el límite de 74.