Por supuesto puedes usar los datos recopilados, para eso están. Pon link a este repositorio (https://github.com/montera34/escovid19data) e indica que el proyecto es Escovid19data. Liberamos los datos para que hagas con ellos lo que quieras. Si nos citas, mejor, para mantener la trazabilidad de los datos. Nos encantará saber que usas los datos, escríbemos a covid19@montera34.com o tuitea con #escovid19data. Ver condiciones de la licencia con que compartimos los datos.
Puedes ayudar colaborando activamente en la recopilación de datos o detectando errores y notificándolos. Anímate a participar. Puedes ponernos un email (covid19@montera34.com), o mejor, crear un incidencia.
Los datos por provincias se publican en este CSV: /data/output/covid19-provincias-spain_consolidated.csv, también se publican en formato .xls y .rds.
Se han creado datos agregados por comunidades autónomas y para toda España en el directorio /data/output/
en base a los datos provinciales. La fuente de los datos es la misma que la de las series provinciales pero no se indica en los propios archivos agregados por CCAA y para toda España:
- covid19-ccaa-spain_consolidated.(rds, csv, xlsx) para datos agregados por comunidades autónomas.
- covid19-spain_consolidated.(rds, csv, xlsx) para datos agregados para toda España.
Incluye el código del INE para las provincias y datos relativos a 100.000 habitantes. Cuando se indica 'NA' es que no hay datos disponibles.
Los datos se descargan de múltiples fuentes. Tanto los descargados automáticamente de repositorios de datos abiertos como los que se recopilan manualmente en una hoja de cálculo online compatida son luego procesados con este script de R en otro repositorio.
Los datos originales usados son almacenados en este directorio: /data/original/spain. Puedes acceder a datos más desagregados que ls provinicas, por ejemplo a datos por islas de Canarias o por área sanitaria en Galicia. Hay una carpeta por cada comunidad o ciudad autónoma. En los estados de git puedes acceder a cómo estaban los datos en cada momento.
EN
Data are published in this CSV file: /data/output/covid19-provincias-spain_consolidated.csv
It includes now INE code for provinces and data per 100.000 inhabitants. 'NA' is indicated when no data is available.
date
Día en formato aaaa-mm-dd | Day in yyyy-mm-dd formatprovince
Provincia | Provinceine_code
Código de provinci del INE | INE code fro the provinceccaa
Comunidad autónoma | Regionnew_cases
Número de nuevos casos COVID-19 detectados | Number of new COVID-19 casesPCR
Número de nuevos casos detectados COVID-19 por PCR | Number of new COVID-19 cases detected with PCRTestAc
Número de nuevos casos detectados COVID-19 por test de anticuerpos | Number of new COVID-19 cases detected with Acactivos
Casos de COVID-19 activos | Active COVID-19 caseshospitalized
Hospitalizados prevalentes | Hospitalized. Ver | View wikihospitalized_new
Ingresos nuevos ese díahospitalized_accumulated
Hospitalizados acumuladosintensive_care
Pacientes en UCI | UCI (intensive care patiens)deceased
Deaths (cumulative)cases_accumulated
Casos COVID-19 detectados acumulado | Number of new COVID-19 cases (cumulative)cases_accumulated_PCR
Casos COVID-19 detectados por PCR acumulado | Number of new COVID-19 cases detected with PCR (cumulative)recovered
Recuperados | Recoveredpoblacion
Población de la provincia | Inhabitants of the province
Datos de RENAVE-ISCIII: la fecha de inicio de síntomas o, en su defecto, la fecha de diagnóstico menos 6 días (con prefijo num_
) (fuente: https://cnecovid.isciii.es/covid19/resources/datos_provincias.csv, que desde el 2020-12-30 pasa a usarse https://cnecovid.isciii.es/covid19/resources/casos_diagnostico_provincia.csv), variables explicadas en https://cnecovid.isciii.es/covid19/resources/metadata_ccaadecl_prov_edad_sexo.pdf
num_casos
el número de casos totales, confirmados o probables del díanum_casos_cum1
el número de casosnum_casos
acumulado (calculado a partir del anterior)num_casos_avg7
el número de casos diarios medio calculado con ventana de 7 días de la variablenum_casos
num_casos_prueba_pcr
el número de casos con prueba de laboratorio PCR o técnicas molecularesnum_casos_prueba_test_ac
el número de casos con prueba de laboratorio de test rápido de anticuerposnum_casos_prueba_otras
el número de casos con otras pruebas de laboratorio, mayoritariamente por detección de antígeno o técnica Elisanum_casos_prueba_ag
Número de casos con prueba de laboratorio de test de detección de antígenonum_casos_prueba_elisa
Número de casos con prueba de laboratorio deserología de alta resolución (ELISA/ECLIA/CLIA)num_casos_prueba_desconocida
el número de casos sin información sobre la prueba de laboratorio
Datos ISCIII, de este archivo https://cnecovid.isciii.es/covid19/resources/casos_hosp_uci_def_sexo_edad_provres.csv que tiene información de: Número de hospitalizaciones, número de ingresos en UCI y número de defunciones por sexo, edad y provincia de residencia. Asiganación de fecha_ Hospitalizaciones, ingresos en UCI, defunciones: los casos hospitalizados están representados por fecha de hospitalización (en su defecto, la fecha de diagnóstico, y en su defecto la fecha clave3, los casos UCI por fecha de admisión en UCI (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ) y las defunciones por fecha de defunción (en su defecto, la fecha de diagnóstico, y en su defecto la fecha claveⁱ.).
num_casos2
casos diarios. "Número decasos notificados confirmados con una prueba diagnóstica positiva de infección activa (PDIA) tal como se establece en la Estrategia de detección precoz, vigilancia y control de COVID-19 y además los casos notificados antes del 11 de mayo que requirieron hospitalización, ingreso en UCI o fallecieron con diagnóstico clínico de COVID-19, de acuerdo a las definiciones de caso vigentes en cada momento".num_casos_cum2
el número de casosnum_casos2
acumuladonum_casos_avg7
el número de casos diarios medio calculado con ventana de 7 días de la variablenum_casos2
num_hosp
Número de casoshospitalizadosnum_hosp_cum
hospitalizados acumuladosnum_uci
Número de casos ingresados en UCInum_uci_cum
Número de casos ingresados en UCI acumulados (calculado a partir del anterior)num_def
Número de defunciones.num_def_cum
Número de defunciones acumuladas (calculado a partir del anterior)
-
cases_per_cienmil
Casos acumulados por 100.000 habitantes | Cumulative cases per 100,000 inhabitants -
intensive_care_per_100000
Casos UCI por 100.000 habitantes | Intensive care per 100,000 inhabitants -
hospitalized_per_100000
Hospitalizados por 100.000 habitantes | Intensive care per 100,000 inhabitants Ver | View wiki -
deceassed_per_100000
Fallecidos acumulados por 1000.000 habitantes | Cumulative deaths per 100,000 inhabitants -
cases_14days
Casos detectados en los últimos 14 días | Detected cases in the last 14 days -
daily_cases
Casos diarios. Calculado como la diferencia de los casos acumulados . Calculated as a difference of cumulative cases reported. -
daily_cases_avg7
Media de casos detectados (ventana de 7 días) | Average daily cases in the last 7 days (rolling average 7 days) -
daily_cases_PCR_avg7
Media de casos PCR detectados (ventana de 7 días) | Average daily cases PCR in the last 7 days (rolling average 7 days) -
daily_deaths
Fallecidos diarios . Calculated as a difference of cumulative deaths reported. -
daily_deaths_inc
Porcentaje de nuevos falllecidos respecto de día anterior | Calculated as the percentage from last day -
daily_deaths_avg3
Media de fallecidos en los últimos 3 días | Average daily deaths in the last 3 days (rolling average 3 days) -
daily_deaths_avg7
Media de fallecidos en los últimos 7 días | Average daily deaths in the last 7 days (rolling average 7 days) -
deaths_last_week
Fallecidos en los últimos 7 días | Deaths in the last 7 days. -
num_casos_prueba_pcr_avg7
Media de casos (ventana de 7 días) de casos con prueba de laboratorio PCR o técnicas moleculares de los datos de RENAVE-ISCIII -
ia14
Incidencia ccumulada 14 días (casos en los últimos 14 días por cada 100.000 habitantes) | Cases in 14 days by 100,000 inhabitants
Fuente de los datos y comentarios | Data sources and comments:
source_name
Nombre de la fuente separados por ; . No se incluye la referencia a los datos de RENAVE-ISCIII al ser redundante. Como se indica más arriba, las variable que empiezan por "num_" tienen todas ellas esa fuente. | Name of source of information, separated by ;source
URL de la fuente separado por ; | Source URL of information, separated by ;comments
COmentario sobre los datos | Comments of the data
Existen ciertas bases de datos oficiales del Ministerio de Sanidad que no se publican desagregadas por provincias y se incluen en las columnas que empiezan por mnt_
:
Informes en PDF del Ministerio de Sanidad escrapeados por @mharias:
mnt_pdf_deceased
Fallecidos acumulados.
De la hoja de cálculo del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Fallecidos_COVID19.xlsx
mnt_daily_deaths
Fallecidos diarios publicadosmnt_deceased
Fallecidos acumulados calculados a partir de los datos diarios
Del archivo CSV del Ministerio de Sanidad: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/Datos_Casos_COVID19.csv
mnt_csv_daily_cases
Casos diarios | Daily casesmnt_csv_new_hosp
Nuevos hospitalizados diarios | New daily hospitalizationsmnt_csv_new_ic
Nuevos hospitalizados en UCI | New daily in intensive caremnt_csv_daily_deaths
Fallecidos diarios | Daily deathsmnt_csv_deceased
Fallecidos acumulados calculados a partir de los datos diarios | Cumulative deaths (calculate)
De los PDF y XLSX de vacunación del Ministerio de Sanidad:
vac_dosis_entregadas
Dosis.entregadasvac_dosis_administradas
Dosis.administradasvac_perc_entregadas
% de administradas sobre entregadasvac_date_data
Última fecha de actualización de datosvac_date_last
Fecha de la última vacuna registradavac_date_published
Fecha de publicación del informe
Población por provincias del INE: https://www.ine.es/jaxiT3/Datos.htm?t=2852#!tabs-tabla
Hemos empezado a recopilar los datos de vacunaciones publicados de Lunes a Viernes por Sanidad en esta dirección.
Esos datos son leídos y replicados aquí. Dejamos dos tipos de ficheros :
- Fichero diario con el formato:
estado_vacunacion_añomesdía.csv
. Con formato año cuatro dígitos, mes y día de dos dígitos. - Fichero de datos acumulados con el nómbre de fichero :
estado_vacunacion_.csv
Los campos del csv
son los siguientes:
date_pub
: fecha de publicación del informeccaa
: Comunidad/Ciudad autónomaDosis entregadas Pfizer
: dosis entregadas a la Comunidad/CiudadDosis entregadas Moderna
: idemDosis entregadas AstraZeneca
: idemDosis entregadas
: suma de las entregadas de los tres fabricantesDosis administradas % sobre entregadas
:cociente de vacunas administradas sobre vacunas entregadasTotal pauta completada
: total de pautas completadas o dobles vacunacionesÚltima fecha de actualización de datos
: fecha indicada en la tabla como última con actualizaciónFecha de la ultima vacuna registrada
: este campo no está en uso actualmentesource_name
: nombre la fuenteSanidad
en todos los casossource
: link al fichero original de los datos
├── analysis # para guardar los scripts de análisis y obtención de datos
│ ├── canarias
│ │ └── canarias_hospi_scrap.R # obtiene datos de hospitalizados de Canarias
│ ├── descarga_andalucia.py # obtiene y procesa datos de hospitalizados Andalucía
│ ├── procesar_por_provincia.R # procesado de datos de Escovid19da. Se ha mudado archivo a otro repositorio
│ └── sanidad # scripts para scrapear y obtener datos de los PDF del Ministerio de Sanidad
│ ├── scrap_pdf_sanidad.ipynb
│ ├── scrap_pdf_sanidad_situacion.ipynb
│ └── test
├── andalucia-hospitalizados.csv # borrable?
├── data # para almacenar los datos
│ ├── original # datos originales
│ │ ├── andalucia-hospitalizados.csv
│ │ ├── covid19_spain_provincias.csv # datos provenientes de la hoja de cálculo compartida original de Escovid19data. No se actualiza desde 2020-07-28
│ │ ├── datos_sanidad.csv # datos de PDF de Ministerio de Sanidad por CCAA
│ │ ├── datos_sanidad_matriz.csv
│ │ ├── datos_sanidad_tabla.csv
│ │ ├── madrid_zbs.csv
│ │ ├── provincias-poblacion.csv
│ │ └── shapes # contornos para mapas
│ │ └── recintos_provinciales_inspire_peninbal_etrs89.json
│ └── output # archivos de la base de datos para descarga
│ ├── covid19-ccaa-spain_consolidated.csv
│ ├── covid19-ccaa-spain_consolidated.rds
│ ├── covid19-ccaa-spain_consolidated.xlsx
│ ├── covid19-provincias-spain_consolidated.csv
│ ├── covid19-provincias-spain_consolidated.rds
│ ├── covid19-provincias-spain_consolidated.xlsx
│ ├── covid19-spain_consolidated.csv
│ ├── covid19-spain_consolidated.rds
│ └── covid19-spain_consolidated.xlsx
├── docs # para guardar documentos
├── escovid19data.Rproj # borrable? (ya no se procesan los datos en este repositorio)
├── LICENSE.md
└── README.md
Este es un proyecto colaborativo para recopilar datos sobre COVID-19 en España por provincias.
Contacto: covid19@montera34.com
Hay muchas personas que nos habéis ayudado y aportado pistas. Gracias a todas por colaborar.
Ahora mismo, estamos manteniendo los datos y amadrinando provincias y comunidades autónomas o han ayudado en alún momento: @ProsumidorSoc @numeroteca @arivero @ManoloYuri @congosto @skotperez @allisdata @acorsin @hhkaos @belengarcia_8 @Tejerauskas @aniol @zgzmiki89 @mota_santiago @nachotronic @puzzle72 @montera34 @alfonsotwr @lipido @danielegrasso @picanumeros @walyt @JKniffki @harlesden88, @crisalpas, @otro_mas1, @fdezordonez.
Coordina el proyecto @numeroteca. Actualiza los datos a diario (desde abril de 2021) @puzzle72.
Si se nos olvida alguien ¡avísanos!
Cada cual se encarga de amadrinar una comunidad autónoma. Ver sección "Organización" de la hoja de cálculo.
Una lista más actualizada y completa puede encontrarse en la wiki del proyecto: https://github.com/montera34/escovid19data/wiki/Qui%C3%A9n-utiliza-los-datos-de-escovid19data
Mándanos tu análisis o visualización si usas estos datos (covid19@montera34.com):
Actualizado diariamente:
- Gráficos de Escovid19data mantenido por @numeroteca en @montera34).
- Tablas por provincias y CCAA mantenido por [@numeroteca](https://twitter.com/numeroteca. Se generan automáticamente con RMarkdown.
- Un dashboard de análisis mantenido por @harlesden88.
No se actualizan:
- Dashboard interactivo en Tableau con los datos provinciales (en Tableau Public) mantenido por @ProsumidorSoc.
- La evolución del COVID-19 en España y en el mundo, en gráficos por @picanumeros
- Mapas de afectados por coronavirus en España iniciativa mantenida por voluntarios e impulsada por Esri España.
- Visualización de evolución de múltiples variables mantenido por @infoiguacel.
Puedes ver un listado actualizado en la wiki de Escovid19data dedicada a documentar dónde se usan los datos. Ayúdanos a completarla.
Puedes ver el análisis sobre las fuentes de información y el estado de la base de datos en este informe automatizado.
Se han usado varias fuentes, la mayoría oficiales, algunas periodísicas, que se indican en cada una de los datos por día y provincia en la columna "source". Puedes leer más información sobre cada una de las fuentes en este documento.
También puedes encontrar (y contribuir) información más actualizada en la wiki de este repositorio.
En la wiki puedes encontrar información sobre las fuentes e historia de la recopilació nde datos de cada comunidad autónoma.
Cada madrina, reponsable de conseguir los datos, de una comunidad autónoma o provincia sube los datos a una hoja de cálculo común o busca fuentes que podamos descargar y procesar automáticamente.
Los datos de esa hoja de cálculo se descargaban en este CSV: data/original/covid19_spain_provincias.csv
para ser procesados con el script de R, pero ahora el script hace mucho más que eso. Descarga los datos de cada una de las pestañas y fuentes originales, procesa y une los datos y genera el CSV listo para usarse /data/output/covid19-provincias-spain_consolidated.csv. También puedes descargar los datos en formato .xlsx y .rds.
No todos los datos están disponibles en la hoja de cálculo compartida, como se indica en algunas comunidades se obtiene directamente de la fuente.
El proyecto tiene un grupo de Telegram con el que nos coordinamos. Escribe a covid19@montera34.com para apuntarte, colaborar y saber más.