España llega a un millón de contagios oficiales pero la cifra real supera los 3,5 millones


Las propias autoridades sanitarias reconocen que los datos oficiales no recogen la totalidad de casos reales
Según las estimaciones matemáticas realizadas por NIUS, los contagios en España superan ya los 3 millones y medio de personas. Algunos modelos estadísticos, apuntan a los ocho millones
Es importante una modernización en la producción de datos ya que, si las decisiones se toman en base a ellos, se pueden estar adoptando determinaciones erróneas
España, dos olas y un millón de contagios. Estas son las cifras oficiales, pero no las reales. Tras usar la información del estudio de seroprevalencia y las estimaciones recientes del Ministerio de Sanidad, los casos de infección por SARS-CoV-2 podrían superar los tres millones y medio de personas. Según algunos modelos estadísticos de la literatura internacional analizados por NIUS, dicha cifra podría oscilar incluso entre los seis y los ocho millones de casos.
Ocurre lo mismo con el número de fallecidos. Las autoridades del Ministerio de Sanidad indican que hay más de 34.000 fallecidos por la covid-19, aunque el exceso de mortalidad constatado por Eurostat eleva la cifra a 48.000 decesos en exceso entre marzo y junio, más de 43.000 desde el 13 de marzo al 16 de octubre según el Sistema de Monitorización de la Mortalidad diaria (MoMo) en España.
Una primera ola con más de dos millones de contagios
El 13 de mayo el Instituto de Salud Carlos III (ISCIII) publicó la primera ronda del estudio de seroprevalencia ENE-Covid19, estimando que un 5% de la población había sido contagiada de SARS-CoV-2, lo que supone en torno a 2.350.000 personas contagiadas hasta el 10 de mayo.
Para acotar los periodos y poder comparar mejor los datos, NIUS estima que la primera ola va del 1 de marzo hasta el 10 de mayo, día a partir del cual el gobierno puso en marcha una nueva Estrategia de Vigilancia y Control de la pandemia. Durante ese periodo, oficialmente, se registraron 256.042 casos, según el dato consolidado por el ISCIII, lo que supone que las cifras oficiales reportan tan solo un 10.89% de los casos estimados por el ISCIII en su estudio de seroprevalencia, coincidiendo con las estimaciones repetidas en diversas ruedas de prensa por el propio Fernando Simón, director del Centro de Coordinación de Alertas y Emergencias Sanitarias.

El gráfico anterior muestra la extrapolación realizada por NIUS, considerando que los datos oficiales reportados por el ISCIII (reflejados gráficamente por las barras inferiores de color azul oscuro) representan solo un 10.89% de los casos reales hasta el 10 de mayo y un 70% a partir de dicha fecha, estimación última extraída de los informes semanales del ISCIII y de las propias declaraciones de Fernando Simón.
Una primera ola mucho mayor que la segunda
Bajo esa premisa, haciendo una extrapolación, se ha pintado en azul claro los casos diarios que se hubieran tenido si, para cada día de la pandemia, la relación entre el número de casos reales y el de reportados siguiera dicha proporción de forma constante. Según esta extrapolación, el pico máximo de casos diarios se habría alcanzado el 20 de marzo con más de 108.000 personas infectadas en un solo día. El diagrama muestra además que la primera ola fue mucho mayor que la segunda, una realidad que contradice la reportada por los gráficos oficiales de Sanidad.

Siguiendo la misma metodología de la gráfica anterior, se ha realizado también la gráfica comparativa entre casos acumulados según el ISCIII y casos extrapolados por NIUS. Mientras la cifra oficial de casos en España supera ligeramente el millón de personas (1.076.430 según la consolidación del ISCIII, 1.005.295 según el informe de este miércoles del Ministerio de Sanidad), en la gráfica se observa cómo se podría estar por encima de los tres millones y medio de casos (3.621.200 personas según la gráfica de color azul claro), lo que supone un 236.4% más de los casos reportados oficialmente.
La gráfica también muestra una mejora en el rastreo y el diagnóstico en comparación con marzo, y un aumento considerable del número de test realizados, por lo que la diferencia entre los datos oficiales y los extrapolados de la segunda ola no es tan grande como en la primera.
A partir del 11 de mayo hay un cambio en la contabilización y notificación de los casos, empezando a hacer muchos más test para detectar el coronavirus. El número de pruebas, tal y como se aprecia en el siguiente gráfico, crece de forma importante hasta llegar a los más de once millones y medio actuales, con una tasa de 247 pruebas por cada 1000 habitantes, incluyendo pruebas RT-qPCR y test de antígenos.
Aunque este indicador, el de número de pruebas por cada 1.000 habitantes, puede ser engañoso ya que a mayor incidencia, mayor número de test realizados. La población a estudiar debería ser la de infectados y no la de la habitantes en general. De hecho, el Centro Europeo para la Prevención de Enfermedades (ECDC) ofrece el número de pruebas realizadas por cada habitante pero también por cada caso positivo, lo que da una idea de la calidad del rastreo. Según la ECDC, la última semana España ha realizado solo 9.7 test por cada caso positivo (el 5 de julio España realizaba 105.7 test por cada caso positivo), frente a los 12.1 de Francia, los 16.3 de Estados Unidos o los 49.4 de Alemania.

Los gráficos anteriores eran una mera extrapolación, multiplicando cada día por un factor constante, en base a la estimaciones del ISCIII y el Ministerio de Sanidad. NIUS se ha preguntado qué sucedería si se aplicaran alguno de los modelos epidemiológicos de estimación más referidos en la literatura estadística actual. La respuesta es clara: la diferencia entre lo reportado oficialmente y las estimaciones de casos se agranda aún más.
Los datos oficiales adaptados a cuatro modelos estadísticos
Para el análisis, se han adaptado a los datos de España consolidados por el ISCIII cuatro modelos estadísticos. Uno de ellos ha sido el desarrollado por la London School of Higiene & Tropical Medicine (representado como LSHTM, la escuela londinense donde se especializó en epidemiología Fernando Simón), el cual se basa en multiplicar por un factor los posibles casos diarios usando los datos de fallecidos, el desfase entre fallecidos e infecciones y la proporción de casos asintomáticos (conocido como «ascertainment rate»).
Los otros tres modelos han sido desarrollados por el prestigioso Imperial College London (ICL, contando entre sus filas con 15 premios Nobel), el Institute for Health Metric and Evaluation (IHME, instituto de salud de la Universidad de Washington, dirigido por el exdirectivo de la OMS Christopher J. L. Murray) y el experto del MIT en estadística y Machine Learning, Youtang Gu (YYG). Estos tres últimos modelos se basan en los conocidos como modelos SEIRD, los cuales buscan dividir la población en subpoblaciones de:
- Susceptibles (S) de ser infectados.
- Expuestos (E).
- Infectados (I) con capacidad de contagiar.
- Recuperados (R).
- Fallecidos (D).

La mayoría de ellos usan además los datos de movilidad de Google para estimar la interacción y así poder ajustar el famoso número reproductivo Rt (número de contagios secundarios a partir de un caso primario).

Como se observa en la gráfica, estos modelos arrojan estimaciones muy distintas. Salvo el modelo IHME, todos estiman una cifra de casos incluso por encima de la extrapolación efectuada por NIUS. Estos modelos de SEIRD de estimación no son la panacea ya que son muy sensibles al dato reportado, el cual es tremendamente deficiente en España, teniendo un gran dependencia de la estimación del número reproductivo Rt y de la tasa de letalidad infectiva (conocida como IFR: el % de fallecidos entre los casos, incluidos los asintomáticos y los no reportados).

NIUS ha repetido la misma metodología para calcular los casos acumulados. Mientras que según el ISCIII se han producido 1.076.430 casos en España (3.621.200 personas según la extrapolación), algunos de los modelos como el de Youyang Gu (YYG en naranja) o la escuela londinense (LSHTM en magenta) estiman los casos totales en España en ocho y siete millones y medio, respectivamente; lo que representa un incremento del 652.49% y 606.04%, respecto a las cifras reportadas por Sanidad.
En todo caso, todos los modelos analizados sobre la incidencia del coronavirus en España indican que esta última ola ha sido menor que la primera. Habrá que ver si hay una tercera, o si estamos ya en ella, y si esta es la vencida.
Mortalidad y exceso de mortalidad
En cuanto a mortalidad, durante la primera ola, con 48.000 fallecidos entre marzo y junio, España fue el país con más exceso de mortalidad de toda Europa, según el último informe del Eurostat. Dichos datos no coinciden con los aportados por el Sistema de Monitorización de la Mortalidad diaria (MoMo) en España, que reportan un exceso de fallecidos de más de 43.000 personas desde el 13 de marzo hasta el 16 de octubre. Los fallecidos en exceso son calculados por el MoMo recopilando los fallecidos reflejados en los registros civiles y realizando una comparación estadística de los fallecidos que se deberían tener en condiciones normales en esta época del año, comparando los datos de mortalidad de los últimos 30 años, con el objetivo de detectar patrones inusuales en la mortalidad (llegando a cubrir hasta un 93% de la población).

En la gráfica generada con los datos del MoMo, la línea negra representa los fallecidos medios estimados para esta época del año en base a los registros históricos. La banda azul que la solapa representa el rango de fallecidos considerados como normales (con una probabilidad del 99%). Las barras rojas representan los fallecidos registrados durante 2020 en los registros civiles, con un pico de 2.965 fallecidos el 31 de marzo (1.171 fallecidos eran los esperados). Como se aprecia, entre el 15 de marzo y el 3 de mayo, los fallecidos diarios en algunos días casi triplicaron los fallecidos esperados*.

NIUS también ha calculado el exceso de fallecidos acumulados, restando los fallecidos observados menos los fallecidos esperados. Según el MoMo ha habido 43.183 defunciones en exceso desde el 15 de marzo, fallecidos por encima de lo habitual sin explicación aparente en comparación con la media de años anteriores, lo que supone un 19% por encima de lo esperado, aumentando hasta el 22% en mayores de 74 años.
Sin embargo, el último informe de Sanidad reporta tan solo 34.210 fallecidos por covid-19, 8.973 fallecidos menos que los reportados por los registros civiles, lo que supone que en España tiene un 20.77% más de fallecidos durante la pandemia que los registrados oficialmente debido al virus. Dichos fallecidos pueden deberse directamente a infecciones del virus o bien a fallecidos colaterales por la saturación hospitalaria. Hasta el 11 de mayo, en la primera ola, se registraron oficialmente 26.621 muertes por coronavirus. Desde el 11 de mayo, durante la segunda ola, se han contabilizado 7.589 fallecimientos, menos de un tercio que en la primera. Un primer y brutal golpe que colapsó por completo un sistema sanitario que ha vuelto a sufrir el envite de una segunda oleada, con menos casos y menos muertos, pero con más cansancio acumulado.
Como reconocen en la propia ficha técnica de MoMo, al basarse en patrones pasados, es un sistema extremadamente conservador para no generar alertas innecesarias que está infrarreportando el exceso de fallecidos.
Conclusión: urge una modernización en la producción de datos
Aunque es un problema heredado de años atrás, esta pandemia ha puesto de relieve que España tiene un grave problema en la producción de datos, su automatización, su mantenimiento y su visualización; adaptada a los estándares de datos abiertos del siglo XXI, quedándose muy lejos de países como Estonia, Bélgica o Francia. Es urgente una modernización de los sistemas de gestión de datos de las administraciones públicas, así como una coordinación dentro del actual estado autonómico, con la incorporación de nuevos y actualizados analistas de datos, siendo indispensable la colaboración estrecha del Instituto Nacional de Estadística (INE) en su supervisión.
Si las autoridades toman decisiones en base a los datos, si no hay una buena agregación, visualización y resumen de los mismos, la mejor decisión posible seguirá siendo errónea ya que se basa en una realidad desvirtuada. Al fin y al cabo, no hay tanta diferencia entre nuestro cerebro y los modelos estadísticos: acaban aprendiendo de lo que observan y, si la información recibida es siempre borrosa, nunca podrán reflejar de forma precisa la realidad.
*Las gráficas realizadas pueden replicarse con el código alojado en el repositorio que se encuentra aquí.