Este dataset contiene el total de las defunciones registradas por el deis en Chile desde 1998 a 2016.
En el data set final encontrarás los siguientes archivos:
defunciones-deis-1998-2016-parsed-1M.csv
archivo principal que contiene los datos de defunciones en Chile desde 1998 a 2016dtypes.json
mapa del tipo de campos del archivo anterior (no es necesario, pero si trabajas en pandas, te ahorrará el trabajo de convertirlos con el código de ejemplo)cie-10.csv
mapa jerárquico de códigos de diagnósticos cie-10 (no es necesario, pero te permite convertir de códigos a descripciones los diagnósticos, y navegar su agrupación jerarquica)ejemplo.ipynb
jupyter notebook que ejemplifica la carga y análisis de los datos en pandas
# Load defunciones
%matplotlib inline
import pandas as pd
import json
# Dtypes
# Load dtypes from json
with open('dtypes.json') as json_data:
read_dtypes = json.load(json_data)
date_fields = []
# Capture datetime fields
for col in read_dtypes:
if read_dtypes[col] == 'datetime64[ns]':
date_fields.append(col)
# Remove datetime fields
for field in date_fields:
del read_dtypes[field]
defunciones = pd.read_csv('defunciones-deis-1998-2016-parsed-1M.csv', dtype=read_dtypes, parse_dates=date_fields,index_col=0)
Si usas este dataset para alguna investigación, no dudes en hacer un PR de este archivo con tu abstract y link 😉🤓👩🏻💻👩🏻🔬
Los datos originales provienen del deis y fueron argumentados con códigos CIE-10 jerarquizados. Estando los originales en distintos formatos, codificaciones y columnas, dificultaba análisis generales como el que se muestra en el ejemplo.
- Valores numericos con 9 o 99 que en realidad son nulos, y deberían ser agregados como tales a los códigos de columnas
- Generar / revisar mapa de servicios de salud en distintas fechas
Los datos crudos de deis fueron organizados en un dataset en floydhub, el que se argumentó con mapas de:
- Códigos CIE-10
- Códigos de comunas históricas del deis
- Códigos de columnas a partir del ezquesma de registro de deis
A razón de que desde 1998 se clasifica en códigos CIE-10, se decidió concatenar desde esa fecha para evitar los problemas de concatenar 2 bases de codificación distintas.
Para completar los requerimientos de software debes ejecutar ./setup.sh
y fue ejecutado en una maquina con 32GB en ram, llegó al 60% de uso exportando a csv.
Si mejoras algo, código o documentación, por favor no dudes en enviar un pull request y feliz lo incorporamos.
A Naren y Alessio de floydhub por donar 25hrs de servidores CPU2.
A la Biblioteca Gabriela Mistral donde realizó gran parte de este trabajo.