PREDICCION DE READMISIONES´ HOSPITALARIAS …
Transcript of PREDICCION DE READMISIONES´ HOSPITALARIAS …
PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
ESCUELA DE INGENIERIA
PREDICCION DE READMISIONES
HOSPITALARIAS INFRECUENTES
USANDO MACHINE LEARNING: CASO DE
ESTUDIO APLICADO A PARTOS EN UN
HOSPITAL CLINICO.
FELIPE ALEJANDRO EDUARDO CORNEJO RIVAS
Tesis para optar al grado de
Magıster en Ciencias de la Ingenierıa
Profesor Supervisor:
MARCOS SEPULVEDA FERNANDEZ
Santiago de Chile, Diciembre 2021
c� MMXV, FELIPE A. E. CORNEJO RIVAS
PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE
ESCUELA DE INGENIERIA
PREDICCION DE READMISIONES
HOSPITALARIAS INFRECUENTES
USANDO MACHINE LEARNING: CASO DE
ESTUDIO APLICADO A PARTOS EN UN
HOSPITAL CLINICO.
FELIPE ALEJANDRO EDUARDO CORNEJO RIVAS
Miembros del Comite:
MARCOS SEPULVEDA FERNANDEZ
HANS LOBEL DIAZ
ERIC ROJAS CORDOBA
DANIEL CAPURRO NARIO
RODRIGO ESCOBAR MORAGAS
Tesis para optar al grado de
Magıster en Ciencias de la Ingenierıa
Santiago de Chile, Diciembre 2021
c� MMXV, FELIPE A. E. CORNEJO RIVAS
A mis padres, la Telle, y los amigos
que me acompanaron en este
camino
AGRADECIMIENTOS
En primer lugar deseo agradecer a mi profesor supervisor, Marcos Sepulveda por
haberme entregado la confianza y la gran oportunidad de emprender esta tesis. No solo
ha sido un mentor en este camino, si no que me ha permitido conocer el emocionante (y
desafiante) mundo de la investigacion. De la misma forma agradezco a Eric Rojas, ya
que sin su aporte y gestion en la obtencion de la informacion clınica, esta investigacion no
podrıa haber sido posible. Tambien a Daniel Capurro y Hans Lobel, quienes nos brindaron
un increıble apoyo en la investigacion en base a los dominios sobre los que son expertos.
Tambien agradecer a la red de salud UC CHRISTUS, quienes han proporcionado la
informacion relevante asociada a los registros historicos de los pacientes de esta investi-
gacion.
Finalmente, deseo entregar un especial agradecimiento a mi familia, quienes sopor-
taron arduas horas de trabajo y estres de mi parte. En especial a mi madre, Norma Rivas,
que en su felicidad y orgullo puedo notar el camino recorrido hasta hoy.
iv
INDICE DE CONTENIDOS
AGRADECIMIENTOS iv
INDICE DE FIGURAS vii
INDICE DE TABLAS viii
ABSTRACT ix
RESUMEN x
1. Introduccion 1
2. Background 4
3. Caso de estudio 6
3.1. Sistemas de Informacion . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2. Grupos relacionados de Diagnostico . . . . . . . . . . . . . . . . . . . . 7
3.3. Episodio Indice y Readmision . . . . . . . . . . . . . . . . . . . . . . . 7
3.4. Tipos de Readmision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.5. Readmisiones posterior a parto . . . . . . . . . . . . . . . . . . . . . . . 9
4. Metodo Propuesto 12
4.1. Recoleccion de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2. Procesamiento de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3. Manejo del desbalance de Datos . . . . . . . . . . . . . . . . . . . . . . 16
4.4. Construccion de Modelo Predictivo . . . . . . . . . . . . . . . . . . . . . 18
4.5. Evaluacion del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5. Resultados 27
5.1. Comparacion de los resultados de los modelos . . . . . . . . . . . . . . . 27
5.2. Interpretacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3. Traduccion clınica de los resultados . . . . . . . . . . . . . . . . . . . . 32v
6. Discusion, implicaciones y limitaciones 34
7. Conclusiones 36
REFERENCIAS 38
ANEXO 43
A. Datos de los Grupos Relacionados de Diagnostico . . . . . . . . . . . . . . 44
B. Datos de los procedimientos . . . . . . . . . . . . . . . . . . . . . . . . . 45
C. Datos de las urgencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
D. Datos de las consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
E. Correlaciones de variables numericas . . . . . . . . . . . . . . . . . . . . 48
F. Correlaciones de variables numericas por tipo de parto . . . . . . . . . . . . 49
G. Variables empleadas para SHAP Values . . . . . . . . . . . . . . . . . . . 50
H. Force Plot SHAP Values . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
vi
INDICE DE FIGURAS
3.1 Proporcion de episodios ındices . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Identificacion de registros considerados como Readmision . . . . . . . . . . 8
3.3 Histograma de la edad y estadıa de las pacientes . . . . . . . . . . . . . . . 10
4.1 Etapas del metodo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 Desbalance de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.3 Metodo Repeated Random Subsampling con Random Forest . . . . . . . . . 19
4.4 Support Vector Machine Categorico . . . . . . . . . . . . . . . . . . . . . . 21
4.5 SVM Categorico vs Metodo Exemplar SVM. . . . . . . . . . . . . . . . . . 21
5.1 Resultados del Pre-test y Post-Test empleando Repeated Random Subsampling
con Random Forest. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2 Resultados del Pre-test y Post-Test empleando ESVM. . . . . . . . . . . . . 30
5.3 Impacto obtenido segun SHAP Values en las variables empleadas por el modelo 31
E.1 Correlacion de variables numericas asociadas a episodios de partos . . . . . . 48
F.1 Correlacion de variables numericas por tipo de parto . . . . . . . . . . . . . 49
H.1 Impacto promedio de las variables en base a los SHAP Values de cada
Exemplar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
vii
INDICE DE TABLAS
3.1 Top 10 de los GRD mas frecuentes . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Frecuencia de diagnosticos asociados a partos . . . . . . . . . . . . . . . . 11
4.1 Atributos seleccionados para el modelo predictivo . . . . . . . . . . . . . . 16
4.2 Matriz de confusion usada para la evaluacion del modelo de readmisiones . . 23
5.1 Rendimiento de los modelos predictivos en el set de testeo . . . . . . . . . . 30
5.2 Ranking de variables considerando la frecuencia con que aparecen entre las 10
variables mas importantes para cada Exemplar. . . . . . . . . . . . . . . . . 32
A.1 Elementos de datos asociados a los Grupos Relacionados de Diagnostico . . . 44
B.1 Elementos de datos asociados a Procedimientos . . . . . . . . . . . . . . . . 45
C.1 Elementos de datos asociados a Urgencia . . . . . . . . . . . . . . . . . . . 46
D.1 Elementos de datos asociados a Consultas Medicas . . . . . . . . . . . . . . 47
G.1 Variables empleadas para los SHAP Values . . . . . . . . . . . . . . . . . . 50
viii
ABSTRACT
Hospital readmissions occur when patients discharged from a hospital are readmitted
after a short period of time. This is an undesirable and costly situation, and it is of great
clinical interest to prevent it. Thanks to Electronic Health Records (EHRs), it is possible
to take advantage of the clinical history of patients for the prediction of hospital readmis-
sions. However, developing predictive models from the clinical history is a complex task,
particularly when the availability of cases is limited and readmissions are infrequent.
In this thesis, we have developed a method to estimate the probability of readmission
based on machine learning techniques, using two strategies, Repeated Random Subsam-
pling with Random Forest and Exemplar SVM, to deal with the imbalance between the
classes of interest. This thesis describes the proposed method and its application to a set
of patients who gave birth in a clinical hospital in Chile.
Our results show that it is possible to obtain a Likelihood Ratio (LR) of 1.82, corre-
sponding to an AUC prediction level of 0.6. In the studied population, only 1.7% of the
cases are readmissions. Hence, the pre-test probability that a patient will be readmitted
is 0.017. The fact that the model obtains an LR+ of 1.82 on the test set implies that, if
the model predicts that a patient will be readmitted, the probability that she really will be
readmitted increases by 80%, i.e. the post-test probability is 0.031.
The proposed method could be used to estimate the probability of readmission in other
types of diagnosis, particularly in those with a low risk of readmission.
Keywords: Hospital Readmission, Risk Factors, Machine Learning, Data Analyticsix
RESUMEN
Las readmisiones hospitalarias ocurren cuando los pacientes dados de alta de un hospi-
tal son readmitidos luego de un corto perıodo de tiempo. Esta es una situacion no deseada
y costosa, siendo de alto interes clınico prevenirla. Gracias a los Electronic Health Records
(EHRs), es posible aprovechar el historial clınico de los pacientes para la prediccion de
las readmisiones hospitalarias. Sin embargo, desarrollar modelos predictivos a partir del
historial clınico es una tarea compleja, en particular cuando la disponibilidad de casos es
limitada y las readmisiones poco frecuentes.
En este trabajo, hemos desarrollado un metodo para estimar la probabilidad de read-
mision en base a tecnicas de machine learning, utilizando dos estrategias, Repeated Ran-
dom Subsampling con Random Forest y Exemplar SVM, para lidiar con el desbalance
entre las clases de interes. Este articulo describe el metodo propuesto y su aplicacion a un
conjunto de pacientes que tuvieron sus partos en un hospital clınico en Chile.
Nuestros resultados muestran que es posible obtener un Likelihood Ratio (LR) de 1.82,
correspondiente a un nivel de prediccion AUC de 0.6. En la poblacion estudiada, solo el
1.7% de los casos son readmisiones. Por ende, la probabilidad pre test de que una paciente
vaya a ser readmitida es de 0.017. Que el modelo obtenga un LR+ de 1.82 sobre el set
de testeo, significa que, si el modelo predice que una paciente va a ser readmitida, la
probabilidad de que realmente lo sea se incrementa en un 80%, i.e. la probabilidad post
test es de 0.031.
Este metodo puede ser utilizado para estimar la probabilidad de readmision en otros
tipos de diagnostico, particularmente en aquellos en que hay un bajo riesgo de readmision.
Palabras Claves: Readmisiones hospitalarias, Factores de riesgo, Machine Learning,
Data Analytics.x
1
1. INTRODUCCION
Las readmisiones hospitalarias son aquellas en que un paciente dado de alta reciente-
mente reingresa al hospital antes de 30 dıas (Wadhera, Maddox, Kazi, Shen, & Yeh, 2019).
Esta es una situacion inusual, pero negativa para el paciente y altamente costosa. Resulta
importante prevenirla, siendo de alto interes clınico comprender para un diagnostico en
particular cual es la probabilidad de readmision de un paciente al momento del alta (Gatta
et al., 2017)(Hasan et al., 2010).
Varios paıses, incluyendo Estados Unidos (USA), Inglaterra, Dinamarca y Alemania,
han trabajado en polıticas orientadas a mejorar la calidad de atencion para reducir las
readmisiones hospitalarias (Kristensen, Bech, & Quentin, 2015). Como parte del Hospital
Readmissions Reduction Program (HRRP) del Center for Medicare and Medicaid Services
(CMS) en USA, se han propuesto varias iniciativas de reporte y mejoras, para mejorar la
planificacion del alta y las transiciones asistenciales (Wadhera et al., 2019). Pese a los
intensos esfuerzos por parte de los hospitales y clınicas en el tratamiento de los pacientes
que reingresan, se requiere de herramientas que puedan predecir adecuadamente el riesgo
de reingreso, para poder ası gestionarlo oportunamente.
El uso de tecnologıas de informacion en salud, especialmente Electronic Health Records
(EHRs), resulta clave para apoyar los procesos de atencion y tratamiento clınicos de los
pacientes (Adler-Milstein et al., 2017). La adopcion de EHRs genera la oportunidad de
utilizar los datos recolectados para estimar el riesgo de readmision.
Son diversos los caminos que se han tomado para explorar el problema de las readmi-
siones, donde los principales campos de estudio se centran en pacientes con diagnosticos
asociados a la oncologıa y cirugıa (Rogith, 2015), fallas al corazon, neumonıa (Wadhera
et al., 2019) o pacientes que provienen de unidades de cuidados intensivos (Veloso et al.,
2014). Algunos ejemplos de aproximaciones a traves de las cuales se intenta reducir las
readmisiones involucran generar modelos predictivos (Hasan et al., 2010)(Kansagara et
2
al., 2011), estrategias de clustering (Veloso et al., 2014), o el analisis del Journey de los
pacientes (Arias et al., 2020)(Cheney et al., 2005).
Los modelos predictivos buscan descubrir las relaciones subyacentes entre variables
predictoras y resultados, para clasificar y predecir el comportamiento de los pacientes
(Press, Konetzka, & White, 2018). Esto se realiza mediante el uso de datos historicos.
Especıficamente en el area de readmisiones hospitalarias, diversos algoritmos han sido
utilizados como modelos predictores, ejemplos de estos son: Decision trees (Kansagara
et al., 2011), Artificial Neural Networks (Rojas, Munoz-Gama, Sepulveda, & Capurro,
2016), Logistic Regression (Hasan et al., 2010), Ensamble Models (Turgeman & May,
2016) y Bayesian Models (Gatta et al., 2017). Desafortunadamente, estos modelos no
se comportan bien frente a escenarios con baja probabilidad de readmision y pocos ca-
sos, problematica conocida en Data Science como desbalance de datos (Batista, Prati, &
Monard, 2004).
En este escenario, la capacidad de predecir de los modelos se reduce, puesto a que
tienden a caer en problemas de sobreajuste o perdida de generalidad (Kotsiantis, Kanel-
lopoulos, Pintelas, et al., 2006). Por otro lado, la informacion requerida para construir
estos modelos requiere lidiar con problematicas relacionadas con la calidad de los datos,
como la consistencia, completitud, correctitud o temporalidad (Rojas et al., 2016; Mans,
van der Aalst, & Vanwersch, 2015). Para lidiar con estas complicaciones, se debe re-
alizar un procesamiento que permita depurar y limpiar los datos apropiadamente (Hassler,
Menasalvas, Garcıa-Garcıa, Rodrıguez-Manas, & Holzinger, 2019).
El objetivo principal de este estudio es lograr estimar la probabilidad de readmision de
un paciente dado de alta, utilizando modelos predictivos y estrategias de analisis de datos.
Para lograr este objetivo, se recopilan desde los EHRs datos asociados a las atenciones de
los pacientes en las diferentes etapas de su ciclo de vida (Arias et al., 2020), por ejemplo,
los registros de prestaciones, procedimientos, examenes, consultas y diagnosticos realiza-
dos al paciente durante su hospitalizacion.
3
Esta tesis describe un metodo para aplicar modelos predictivos que permitan entregar
una probabilidad de readmision hospitalaria asociada a una condicion o diagnostico de in-
greso, a partir de un set de datos con alto desbalance y poca frecuencia de casos. Nuestro
estudio sugiere que es posible aplicar extensiones de los modelos de aprendizaje tradi-
cionales, utilizando estrategias de submuestreo aleatorio o ensamblajes, que combinan
diferentes predicciones y permiten proporcionar una mejor probabilidad de readmision.
Se emplearon dos estrategias que permiten lidiar con el desbalance de los datos. La
primera, Random Sub Sampling con Random Forest, y la segunda, Exemplar SVM. Am-
bos metodos fueron comparados con modelos tradicionales como Regresiones Logısticas,
Support Vector Machines, Random Forest, k-Nearest Neighbors, y modelos Bayesianos.
4
2. BACKGROUND
Varias investigaciones han explorado el uso de los datos contenidos en Electronic
Healthcare Records (EHRs) para la creacion de modelos predictivos basados en apren-
dizaje supervisado para el analisis de las readmisiones hospitalarias (Kansagara et al.,
2011). Algunos estudios hacen un analisis retrospectivo de los datos (Wadhera et al.,
2019), algunos identifican factores de riesgo en los pacientes (Hasan et al., 2010), y otros
construyen modelos predictivos (Kansagara et al., 2011)(Corrigan & Martin, 1992). Como
definicion de readmision, se considera aquellas hospitalizaciones ocurridas en un perıodo
menor o igual a 30 dıas luego de que el paciente es dado de alta (Wadhera et al., 2019).
Algunos estudios se centran en una condicion o enfermedad en particular (Bailey et al.,
2015), o en un unico sistema hospitalario (Hasan et al., 2010). El estudio de Hasan (Hasan
et al., 2010) propone un analisis para identificar predictores de readmisiones hospitalarias
de diversos pacientes, empleando diferentes cohortes con datos del Multicenter Hospitalist
(MCH) y modelos de regresion logıstica multivariada. El cohorte total considera a 10,946
pacientes, donde la cantidad de pacientes que fueron readmitidos fueron 1,912 (17.5%).
El performance del modelo generado presenta un Area Under the Curve (AUC) de 0.61
sobre la cohorte de validacion.
En la aplicacion de modelos predictivos, los arboles de decision han probado ser una
herramienta descriptiva y viable para comprender las razones por las que determinadas
variables afectan en la clasificacion de las readmisiones (Hilbert, Zasadil, Keyser, & Peele,
2014). Estrategias de clustering, como las propuestas por (Veloso et al., 2014), mediante la
agrupacion de diferentes variables y algoritmos buscan caracterizar los tipos de pacientes
con altas probabilidades de ser readmitidos. Otras investigaciones proponen metodologıas
basadas en metaheurısticas y data mining, (Zheng et al., 2015) incluyendo modelos basa-
dos en redes neuronales, Random Forest y Support Vector Machines (SVM).
La implementacion de estos metodos tiene varios retos; uno de estos esta asociado al
desempeno de los modelos producto de la calidad de los datos (Weiskopf & Weng, 2013).
5
Los datos, en general, tienen una diversidad de problemas. El dominio de la salud no es
la excepcion. The Institute of Medicine (IOM) define la calidad de datos como “datos lo
suficientemente solidos como para respaldar conclusiones e interpretaciones equivalentes
a las derivadas de datos sin errores” (Mans et al., 2015).
El metodo propuesto en este trabajo considera como una etapa relevante (y que toma
una buena parte del esfuerzo) la depuracion de los datos utilizados para alimentar los
modelos predictivos desarrollados.
En general, se ha identificado un bajo rendimiento de los modelos predictivos asoci-
ados a readmisiones hospitalarias, donde la principal conclusion ha sido la necesidad de
mejorar los modelos (Kansagara et al., 2011). Nuestro trabajo busca desarrollar un metodo
de analisis de los pacientes basados en la reconstruccion de su historial clınico y el desar-
rollo de modelos que permitan determinar la probabilidad de readmision y los factores de
riesgo, lidiando con la complejidad de la calidad de los datos subyacentes.
6
3. CASO DE ESTUDIO
En esta tesis se describe un caso de estudio realizado en conjunto con el Hospital
Clınico Universitario de la Pontificia Universidad Catolica de Chile (CH-PUC), donde
se analizo la informacion disponible en los EHRs para los pacientes hospitalizados entre
2017 y 2018. En esta seccion se describe el caso de estudio a partir del universo completo
de pacientes, describiendo los sistemas disponibles para almacenar los datos, las carac-
terısticas demograficas de cada paciente, los distintos tipos de diagnosticos, las diferentes
readmisiones registradas, y la eleccion de los partos como caso de estudio.
3.1. Sistemas de Informacion
Los datos empleados en este estudio provienen de los EHRs de la Red de Salud UC-
CHRISTUS, una red de salud con mas de once centros medicos, 500 camas aproximada-
mente y alrededor de mil medicos, donde se atiende mas de 1,000 partos al ano. Los sis-
temas de informacion del hospital CH-PUC disponen de datos asociados al historial clınico
de los pacientes. Se identifican fuentes con informacion de registros de hospitalizaciones,
procedimientos clınicos y consultas medicas. El uso de los registros de datos historicos
del hospital CH-PUC fue aprobado por el comite de etica institucional (id: 180504002).
Los datos fueron consolidados en 4 tablas, las cuales se describen a continuacion:
(i) Datos de Grupos Relacionados de Diangostico: Los Grupos Relacionados de Di-
angostico (GRD) se refieren a un proceso de codificacion clınica para establecer
el consumo de recursos de un episodio y se usan para el pago de aseguradoras.
Esta tabla consolida los datos del registro clınico mas la base de datos de los
GRD. (Ver Anexo A.1).
(ii) Datos de Procedimientos: Corresponde a los registros asociados a los proced-
imientos y examenes clınicos aplicados a los pacientes durante su hospital-
izacion. (Ver Anexo B.1).
7
(iii) Datos de Urgencias: Corresponde a los registros de hospitalizaciones de la
unidad de urgencias del hospital. (Ver Anexo C.1).
(iv) Datos de Consultas Medicas: Corresponde a los registros asociados a las con-
sultas ambulatorias de los pacientes en el centro hospitalario. (Ver Anexo D.1).
3.2. Grupos relacionados de Diagnostico
La base para la clasificacion de pacientes utilizada en CH-PUC utiliza el sistema de
clasificacion Grupos Relacionados de Diagnostico (GRD). Los GRD corresponden a un
sistema de clasificacion de pacientes, utilizados para medir la produccion hospitalaria
(Clınicas de Chile, 2021). Se obtienen a partir de la informacion que se registra en la
historia clınica de cada paciente y relacionan las caracterısticas clınicas de estos con el
uso de recursos (Clınicas de Chile, 2021). El sistema GRD agrupa a los pacientes que
egresan del establecimiento hospitalario, donde los grupos se conforman segun criterios
de coherencia clınica y consumo similar de recursos. Para los datos proporcionados, cada
uno de los GRD incluye informacion de descripcion, peso y codigo de prestacion asociada
a la hospitalizacion del paciente (ver Anexo A.1).
3.3. Episodio Indice y Readmision
Para identificar a los pacientes que tuvieron una readmision, fue necesario definir al-
gunas convenciones. Se conoce como episodio (ver Anexo A.1) al registro del paciente
en el sistema, cuya informacion es obtenida del cruce de las tablas disponibles en los
Anexos A.1, B.1, C.1 y D.1 asociadas al periodo de hospitalizacion. El criterio utilizado
para identificar la readmision se baso en la seleccion de pacientes que tuvieran referencias
a otros episodios en el hospital.
Se dispone de 31,187 pacientes registrados (ver Fig. 3.1). Aproximadamente un 17.7%
de los episodios registrados puede considerarse un reingreso, ya que referencia a un episo-
dio previo. El episodio al cual se hace referencia lo hemos denominado como episodio
8
Figura 3.1. Proporcion de episodios ındices por sexo
Figura 3.2. Pasos seguidos para la identificacion de registros consideradoscomo readmision a partir de los episodios ındices. El cuadro destacadoen rojo identifica dos posibles escenarios de reingreso. Para este estu-dio, solo seran considerados como readmision los epidosios de reingresomenor/igual a 30 dıas (cuadro azul)
9
ındice (ver Anexo A.1). El episodio de reingreso es considerado como episodio de read-
mision si ocurre en un perıodo menor o igual a 30 dıas despues que el correspondiente
episodio ındice (Ver Fig.3.2). En ocasiones, fue posible observar que algunos episodios
hacıan referencias a reingresos en la misma fecha, duplicando los registros. Este tipo de
comportamiento se debe a errores en los registros o por decisiones administrativas. Para
el analisis realizado, estos registros fueron eliminados.
3.4. Tipos de Readmision
La Tabla 3.1 presenta el top 10 de los GRD que tienen algun episodio ındice. Sumado
a esto, se presenta la cantidad de episodios ındice asociados a cada GRD; el porcentaje
respecto al total de casos y la cantidad de readmisiones ocurridas en un periodo menor
o igual a 30 dıas. Los procedimientos relacionados a PH Colecistectomıa Laparoscopica
(GRD Code: 71141) son las intervenciones y causas de hospitalizacion mas frecuentes
en el hospital clınico. Por otra parte, para los GRD asociados a enfermedades del tejido
conectivo u otras relacionadas a hospitalizaciones por cancer, es esperable observar que
los pacientes requieren ser hospitalizados frecuentemente por las caracterısticas de su
condicion. Mas aun, se observa que un 59.23% de los episodios ındices que gatillan una
potencial readmision provienen de GRD asociados a dichos diagnosticos.
3.5. Readmisiones posterior a parto
En este trabajo, hemos seleccionado un grupo de pacientes asociados a los GRD de
mujeres que han tenido sus partos en el hospital. Es de interes clınico analizar a estas pa-
cientes porque habitualmente son pacientes sanas por lo que la probabilidad de reingreso
debiese ser naturalmente baja. La Tabla 3.2 muestra la descripcion de las pacientes hospi-
talizadas asociadas a los ingresos de partos. Para efectos de este estudio se contabilizaron
1,866 episodios, de los cuales solo 32 corresponden a readmisiones. Esto conduce a que
10
Tabla 3.1. Top 10 de los GRD mas frecuentes
GRD Codigo Frecuencia Episodiono Indice
EpisodioIndice
30dıas
% Read-mision
71141 860 837 23 10 1.2 %146101 693 676 17 12 1.7 %61201 497 453 44 15 3.0 %
131201 487 457 30 6 1.2 %31151 458 443 15 6 1.3 %84161 439 179 260 63 14.4 %
146131 419 413 6 4 0.9 %61131 410 396 14 9 2.2 %81601 398 379 19 9 2.3 %
131301 388 356 32 9 2.3 %
(a) a (b) b
Figura 3.3. (a) Histrograma de la edad de las pacientes. (b) Histrogramade los dıas de hospitalizacion.
la tarea de prediccion de readmision sea particularmente difıcil, debido al alto desbalance
que presentan los datos.
En la Figura 3.3 es posible apreciar la distribucion de edades de las pacientes hospi-
talizadas, al igual que los dıas de hospitalizacion en el episodio ındice. De un total de 32
pacientes, un 87.5% tiene una estancia menor a 5 dıas de hospitalizacion en su episodio
11
Tabla 3.2. Frecuencia de diagnosticos asociados a partos
Diagnostico de parto Comorbilidades(media)
Dıashospitalizada
(media)
Total depa-
cientes
Total dereadmi-siones
% dereadmi-siones
PH CESAREA 4 3,7 648 10 1,5%
PH CESAREA W/CC 5,8 5,9 238 5 2,1%
PH CESAREA W/MCC 6,6 7,7 61 3 4,9%
PH PARTO VAGINAL 3,8 3 400 4 1,0%
PH PARTO VAGINAL CON ESTER-ILIZACION Y/O DILATACION YLEGRADO
3 2 1 0 0,0%
PH PARTO VAGINAL CON ESTER-ILIZACION Y/O DILATACION YLEGRADO W/MCC
5 1 1 0 0,0%
PH PARTO VAGINAL CONPROCED., EXCEPTO ESTERIL-IZACION Y/O DILATACION YLEGRADO
4,6 2,9 319 4 1,3%
PH PARTO VAGINAL CONPROCED., EXCEPTO ESTERIL-IZACION Y/O DILATACION YLEGRADO W/CC
6,5 3,2 97 4 4,1%
PH PARTO VAGINAL CONPROCED., EXCEPTO ESTERIL-IZACION Y/O DILATACION YLEGRADO W/MCC
8 9 21 0 0,0%
PH PARTO VAGINAL W/CC 6,6 3,4 60 2 3,3%
PH PARTO VAGINAL W/MCC 6,2 5,2 20 0 0,0%
Total 4,66 3,86 1866 32 1,7%
ındice. Acorde a la contraparte medica, estos tiempos de hospitalizacion resultan nor-
males cuando las pacientes no presentan mayores complicaciones y se ajustan al estandar
del Hospital.
El Anexo E.1 presenta algunas correlaciones de las variables numericas asociadas a los
episodios de partos. De la misma forma, es posible identificar dos grupos de partos im-
portantes: parto cesarea y parto vaginal. Para ambos casos se presenta la correlacion de
ambos grupos en el Anexo F.1.
12
4. METODO PROPUESTO
El metodo propuesto en este trabajo busca desarrollar un modelo predictivo para lidiar
con casos infrecuentes de readmision. El metodo consta de una serie de etapas que involu-
cran la recoleccion de datos, el procesamiento de datos, la construccion del modelo y la
evaluacion de este (vease la Figura 4.1).
Figura 4.1. Etapas seguidas para la recoleccion y tratamiento de los datos,la aplicacion del modelo y la evaluacion del mismo.
A continuacion, se procedera a describir cada etapa del metodo, ilustrando cada una
de ellas a traves de su aplicacion en el caso de estudio descrito en la seccion 3.
4.1. Recoleccion de Datos
En la etapa de recoleccion de datos se busca recolectar la informacion de los pacientes
registrada en los EHRs. Inicialmente se obtuvo datos de mas de 2.5 millones de registros
de hospitalizaciones, procedimientos clınicos, examenes realizados (sin sus resultados) y
consultas relacionados a hospitalizaciones ocurridas en el perıodo comprendido entre el
1 de enero de 2017 y el 30 de junio de 2018, obtenidos desde los EHR descritos en la
seccion 3.
4.2. Procesamiento de Datos
La etapa de procesamiento de datos busca transformar los datos recolectados en in-
formacion utilizable como input de un modelo predictivo. En nuestro metodo, la etapa
13
de Procesamiento de Datos contempla 4 subetapas que seran descritas a continuacion:
Extraccion y Consolidacion, Limpieza de Datos, Seleccion de Atributos y Manejo del
desbalance de datos.
4.2.0.1. Extraccion y consolidacion
Para disponer de los datos en un formato adecuado y ser empleados en los mode-
los, se procede a consolidar todo en una tabla, en donde cada registro esta asociado a
un unico episodio de hospitalizacion. Los atributos considerados corresponden a infor-
macion demografica del paciente, tipo de episodio clınico (hospitalizacion o readmision),
diagnosticos y prestaciones medicas recibidas durante la hospitalizacion.
Para lograr esto, se utiliza una clave conjunta entre el ID del paciente y el ID del episo-
dio de hospitalizacion, y se procede al cruce sobre las 4 tablas originalmente disponibles,
para consolidar todo en una unica tabla maestra. Esta tabla contiene el historial del pa-
ciente desde el primer evento del episodio hasta el final de su hospitalizacion.
4.2.0.2. Limpieza de Datos
La limpieza de datos es el acto de descubrimiento y correccion o eliminacion de reg-
istros de datos erroneos de una tabla o base de datos.
De los 2,000 registros de pacientes que tuvieron sus partos en el hospital, 134 cor-
responden a registros duplicados debido a que se repite el mismo ID de paciente, ID de
episodio, y diagnostico de hospitalizacion.
Tras eliminar estos registros, la cantidad de pacientes totales considerados desciende a
1,866, de las cuales 1,834 no presentan readmision, mientras que los casos con readmision
corresponden a 32.
14
Una serie de atributos han sido excluidos del analisis puesto que no aportan mayor
informacion al presentar problemas de calidad o consistencia. Ejemplos de estos atrib-
utos son: los relacionados al medico especialista que atiende a la paciente, detalles de
convenios de salud de la paciente, o codigos de registros administrativos. En estos reg-
istros se apreciaban campos nulos, informacion corrupta o simplemente no aportaban un
conocimiento claro respecto al paciente.
4.2.0.3. Seleccion de atributos
Los principales atributos extraıdos para el modelo corresponden a caracterısticas del
paciente como la edad y sus comorbilidades; mientras que entre los datos asociados a su
hospitalizacion, se selecciono la informacion relacionada a los diagnosticos principales,
el tiempo de estadıa durante el episodio ındice, tipo de episodio (admision ındice o read-
mision), y asistencia a consultas medicas posterior a ser dada de alta.
La Tabla 4.1 presenta la seleccion completa de atributos empleados en el caso de es-
tudio. Algunas de estas variables fueron modificadas para poder facilitar su uso en los
modelos predictivos. Ejemplo de esto fue lo realizado para considerar los procedimien-
tos y examenes realizados a la paciente durante su hospitalizacion. Los datos disponibles
presentaban un registro por cada examen o procedimiento que era aplicado a la paciente
(entiendase un registro como una nueva fila en una tabla por cada procedimiento real-
izado). Si bien no se dispone de los resultados de dichos procedimientos o examenes, si
resulta valioso comprender si la paciente fue sometida a alguno de estos. Se procedio a
crear una columna por cada opcion posible de procedimiento y examenes entre todos lo
realizados a las pacientes que se disponıa. Esto configura mas de 200 columnas con difer-
entes procedimientos o examenes que una paciente podrıa recibir y que fueron observados
en el perıodo de estudio. Luego, se creo una marca binaria para identificar si la paciente
habıa sido sometida o no al procedimiento o examen durante el correspondiente episodio
de hospitalizacion.
15
Existen otras tareas habituales que se pueden realizar sobre los atributos seleccionados,
por ejemplo, agrupar las admisiones que estan relacionados ya sea a partos vaginales o a
cesareas. Esto nos sirve para comprender como afecta algun tipo de parto en particular y
si, por ejemplo, las causas de readmision pudiesen estar relacionadas a alguna de estas dos
agrupaciones.
Los atributos restantes siguen un tratamiento de datos que permite normalizar vari-
ables numericas o crear categorıas para los posibles valores que pueda tomar algun atrib-
uto. Variables como la edad, la cantidad de diagnosticos secundarios o comorbilidades
y los dıas en hospitalizacion, al ser variables numericas, son normalizadas para que los
modelos predictivos puedan operar mejor con los valores de estas variables en un rango
definido (Singh & Singh, 2020). Por otro lado, atributos como el diagnostico principal,
los diagnosticos secundarios, la identificacion si la paciente asistio a alguna consulta, o
si su caso es considerado como una readmision, son tratadas como variables categoricas,
es decir, se crea una marca por cada categorıa que permite identificar cual es el valor que
toma la variable en un rango conocido de opciones.
16
Tabla 4.1. Atributos seleccionados para el modelo predictivo
Atributos seleccionados Descripcion
ID Paciente ID de la paciente
Edad Edad en anos
Diagnostico Principal Descripcion del diagnostico principal de hospital-
izacion
Diagnostico Secundario Descripcion de los diagnosticos secundarios o comor-
bilidades
Cantidad de Diagnosticos Se-
cundarios
Cantidad de comorbilidades asociadas a la estadıa de
la paciente
Dıas en Hospitalizacion Cantidad de dıas de la paciente en hospitalizacion
Peso del Diagnostico Valor que expresa el peso asociado al uso de sumin-
istros medicos en la hospitalizacion
Tipo de Parto Etiqueta para identificar un parto cesarea o vaginal
Consulta Medica Cantidad de las consultas medicas realizadas por la
paciente despues del primer alta
Mes de Hospitalizacion Mes donde la paciente fue hospitalizada
Readmision etiqueta que indica si el episodio asociado a la pa-
ciente es readmision o no
Procedimientos Lista de los procedimientos recibidos por la paciente
Examenes Lista de los examenes recibidos por la paciente
4.3. Manejo del desbalance de Datos
El aprendizaje de modelos que deben lidiar con set de datos desbalanceados es cono-
cido como una tarea difıcil (Batista et al., 2004). El desbalance de datos es la situacion en
que se presenta una clase que es minoritaria (por ejemplo, readmision) y una clase que es
mayoritaria (por ejemplo, no readmision). Los problemas de prediccion pertenecientes al
17
(a) Balanceado (b) Desbalanceado
Figura 4.2. Conjunto de datos balanceado (a) versus muchos casos nega-tivos frente a algunos casos positivos (b)
dominio de la salud frecuentemente estan sujetos a este comportamiento (Mena & Gon-
zalez, 2006)(Yin & Leong, 2010)(Bach, Werner, Zywiec, & Pluskiewicz, 2017). En la
informacion extraıda de los EHRs, los eventos de readmision no son tan frecuentes, lo que
se aprecia en la proporcion de readmisiones presente en la Tabla 3.1 para diferentes GRD.
Para comprender esta situacion, la Fig.4.2 representa un escenario en que se ilustra
el desbalance entre una clase positiva (+) que es minoritaria (por ejemplo, readmision) y
una clase negativa (-) que es mayoritaria (por ejemplo, no readmision). En algunos casos,
las clases de interes pueden presentar algunos grados de superposicion. Los modelos
presentan diversos problemas al lidiar con set de datos que posean estas caracterısticas,
por ejemplo, en los casos de superposicion los arboles de decision deben crear demasiadas
ramas para distinguir la clase minoritaria de la clase mayoritaria (Batista et al., 2004).
Los episodios de readmision asociados a partos representan un 1.7% del total, ilus-
trando que existe un alto desbalance en comparacion a los casos que no son readmision. A
modo de comparacion, las enfermedades asociadas al tejido conectivo, presentan rangos
en torno al 12%. Estas enfermedades tienen la caracterıstica de tener episodios ındices
sujetos a un tratamiento que involucra la necesidad de un reingreso posterior planificado.
Este no es el caso de las pacientes con partos, puesto que son pacientes sanas y no se
espera que sean readmitidas, lo que explica el bajo porcentaje.
18
Diferentes tecnicas han sido desarrolladas para lidiar con el desbalance (Batista et al.,
2004). En nuestro caso particular, se ha decidido lidiar con esta situacion mediante la
exploracion de tecnicas de under-sampling, que corresponde a considerar menos casos
de la clase mayoritaria, y tecnicas de over-sampling, que corresponde a generar muestras
sinteticas de la clase minoritaria. Para reforzar las tecnicas tradicionales con las que se
comparara los modelos propuestos en esta tesis, se empleara la tecnica Synthetic Minority
Over-sampling Technique (SMOTE), que corresponde a un algoritmo para generar nuevas
instancias. Los nuevos casos de readmision generados por SMOTE no son meras copias
de los casos minoritarios existentes, sino que el algoritmo toma muestras del espacio de
caracterısticas para cada clase objetivo y sus vecinos mas cercanos, y genera nuevos casos
sinteticos que combinan caracterısticas del caso objetivo con caracterısticas de sus vecinos.
(Chawla, Bowyer, Hall, & Kegelmeyer, 2002).
4.4. Construccion de Modelo Predictivo
En este estudio, se entrenaron y probaron dos modelos predictivos para las readmi-
siones hospitalarias. El primero basado en arboles de decision (Random Forest) y tecnicas
de under-sampling (Repeated Random Subsampling); el segundo basado en Support Vec-
tor Machines (Exemplar SVM). A continuacion, se describe los modelos empleados, las
tecnicas para lidiar con el desbalance y los detalles de la implementacion elegida.
4.4.0.1. Random Forest con Repeated Random Subsampling
Random Forest (RF) corresponde a un modelo predictivo basado en el ensamblaje de
un conjunto de arboles de decision. Un ensamblaje se conoce como la tecnica de usar
multiples algoritmos de aprendizaje (en este caso arboles de decision) para obtener un
mejor rendimiento de prediccion que el que se pudiese obtener con cada modelo de forma
independiente. Generalmente, se combinan multiples arboles de decision con la finalidad
de reducir la varianza en la prediccion a traves de la combinacion de los resultados de
cada arbol, proceso conocido como bagging (Buhlmann, 2012). Los modelos de RF son
19
Figura 4.3. Metodo Repeated Random Subsampling con Random Forest
practicos para lidiar con datos de multiples variables, debido a que pueden usar una gran
cantidad de arboles para construir el ensamblaje (Breiman, 2001).
Las razones mas importantes por las cuales se selecciona este tipo de modelos son: (1)
su efectividad estimando datos faltantes, (2) existen metodologıas para lidiar con el desbal-
ance de datos (e.g., weighted random forest), y (3) la capacidad de estimar la importancia
de las variables usadas en la prediccion (Khalilia, Chakraborty, & Popescu, 2011).
Para adaptar RF a conjuntos de datos desbalanceados, utilizamos el metodo de Re-
peated Random Subsampling (Khalilia et al., 2011). Este metodo fue desarrollado para
lidiar con el desbalance presente entre dos clases (por ejemplo, pacientes con readmision
y sin readmision) en un set de datos con una baja frecuencia de casos en ambas clases
(Khalilia et al., 2011). La Figura 4.3 describe los pasos que sigue el metodo (Khalilia et
al., 2011).
Primero, se divide el set de datos en instancias activas (pacientes con readmision) e
inactivas (pacientes sin readmision), a partir de las cuales se generan conjuntos de datos
de entrenamiento y testeo (Khalilia et al., 2011).
20
A continuacion, se separa una porcion de las instancias activas e inactivas como set de
testeo. El resto de los casos conforman el set de entrenamiento. En nuestro caso de estudio,
construimos un set de testeo aleatorio con 40 casos, donde 20% corresponde a casos de
readmision y 80% corresponde a casos de no readmision. El tamano y composicion del
set de testeo se determino por ensayo y error; debido a la baja frecuencia de los casos
de readmision, se busco tratar de dejar la mayor cantidad de casos posibles para el set de
entrenamiento.
4.4.0.2. Exemplar-SVMs
Support Vector Machines (SVM) corresponden a un algoritmo de aprendizaje super-
visado usado comunmente para tareas de clasificacion o regresion (Hearst, Dumais, Os-
una, Platt, & Scholkopf, 1998). Como se aprecia en la Figura 4.4, si consideramos un con-
junto de datos de entrenamiento donde cada uno pertenece a alguna categorıa, por ejem-
plo pacientes con readmision (clase positiva) o no readmision (clase negativa). Cada caso
(positivo o negativo) se representa por un punto en el espacio multidimensional definido
por las distintas variables de interes que lo caracteriza. Un modelo SVM busca determinar
un hiperplano en dicho espacio multidimensional tal que separa al espacio en dos: uno
en que estan contenidos todos los casos positivos y otro en que estan contenidos todos
los casos negativos. Ademas, dicho hiperplano maximiza la distancia (margen) entre los
vectores de soporte que representan a los casos positivos y a los casos negativos. El vector
de soporte de cada clase (positiva o negativa) esta definido por los casos de cada clase mas
cercanos al hiperplano.
El metodo de Exemplar-SVMs propuesto por Malisiewicz (Malisiewicz Tomasz, 2011)
corresponde a un ensamblaje que reune multiples modelos de clasificacion lineal basa-
dos en Support Vector Machines (SVM) (Hearst et al., 1998) que aprenden de un unico
caso positivo, llamado comunmente exemplar, y un conjunto de casos negativos. Este
metodo originalmente fue implementado para la deteccion de objetos en imagenes, sin
21
Figura 4.4. Support Vector Machine Categorico (SVM). La readmision depacientes corresponde a la clase positiva y las no readmisiones a la clasenegativa.
Figura 4.5. SVM Categorico vs Metodo Exemplar SVM.
embargo, en este trabajo lo hemos utilizado para la prediccion de readmision de pacientes.
La Figura 4.5 ilustra el metodo de Exemplars-SVMs aplicado a la readmision de pacientes.
El objetivo de utilizar este enfoque es obtener un modelo muy ajustado a cada caso de
readmision. Se basa en una idea muy simple: crear un modelo de prediccion para cada
caso de readmision (examplar). Cada uno de estos modelos puede predecir si un nuevo
caso se parece al caso de readmision particular con que fue entrenado. Cada modelo, al
22
ser entrenado con solo un caso de readmision y todos los casos de no readmision, es ca-
paz de discriminar que diferencia a un caso de readmision particular de todos los casos
de no readmision. En ese sentido, es muy preciso, pero solo para dicho caso particular
(overfit). Sin embargo, al considerar en su conjunto todos los modelos generados se ob-
tiene una buena generalizacion, aun cuando se tiene un pequeno conjunto de exemplars
(casos de readmision) (Malisiewicz Tomasz, 2011). Por otro lado, al disponer de pocos
casos, resulta menos costoso computacionalmente entrenar un modelo por cada caso de
readmision, ademas de permitir paralelizar el entrenamiento de los modelos.
Para tomar la decision final de prediccion, se procede a predecir un nuevo caso de
readmision en base a cada Exemplar-SVM entrenado. Particularmente, en nuestro caso
de estudio se decidio considerar que si al menos uno de los exemplars-SVM es capaz de
predecir la readmision, entonces se considerara como resultado final de la prediccion que
el paciente sı corresponde a un caso de readmision.
Un aspecto central de Exemplar-SVM es el manejo del extremo desbalance de clases
que cada elemento del ensamblaje enfrenta (1 readmision vs miles de no readmisiones).
Para controlar esto, en (Malisiewicz Tomasz, 2011) proponen utilizar constantes de reg-
ularizacion separadas para cada clase (C0 y C1), con C1 al menos 50 veces mayor que
C0.
4.5. Evaluacion del Modelo
Para evaluar el rendimiento de los modelos predictivos, usualmente se observan los re-
sultados organizados en la matriz de confusion (Stehman, 1997). Una matriz de confusion
corresponde a una herramienta de tabulacion de los casos correctamente predichos como
readmision (TP), los casos erroneamente predichos como readmision (FP), los casos que
no siendo readmision son predichos como tal (TN), y los casos que siendo readmision son
erroneamente predichos como casos que no lo son (FN).
23
PrediccionPositiva (Predicho
Readmision)
PrediccionNegativa
(Predicho NoReadmision)
Clase Positiva(Readmision Real)
VerdaderoPositivo (TP)
Falso Negativo(FN)
Clase Negativa (NoReadmision Real)
Falso Positivo(FP)
VerdaderoNegativo (TN)
Tabla 4.2. Matriz de confusion usada para la evaluacion del modelo dereadmisiones
Existe una variedad de metricas empleadas para evaluar el desempeno de un modelo
en base a los resultados de la matriz de confusion. Usualmente, para medir la calidad de
un modelo de prediccion se utilizan tres metricas: Exactitud, Precision y Sensibilidad. Sin
embargo, en este caso consideramos relevante utilizar otras metricas, tal como se explica
a continuacion. Primero se describiran las metricas ya senaladas, y luego las metricas
adicionales que consideramos pertinente utilizar:
4.5.0.1. Exactitud
La exactitud es una metrica que se utiliza para determinar la proporcion de episodios
(con o sin readmision) que son correctamente predichos. Su formula de calculo es:
Acc =TP + TN
TP + TN + FP + FN(4.1)
4.5.0.2. Precision
Precision es la relacion entre el numero de casos correctamente predichos como read-
mision sobre el total de casos predichos como readmision. Su formula de calculo es:
Pre =TP
TP + FP(4.2)
24
4.5.0.3. Especificidad
Especificidad es la relacion entre el numero de casos correctamente predichos como
no readmision sobre el total de casos que no son readmision. Su formula de calculo es:
Spe =TN
FP + TN(4.3)
4.5.0.4. Sensibilidad (Recall)
La exhaustividad es la relacion entre el numero de casos correctamente predichos
como readmision sobre el total de casos de readmision. Su formula de calculo es:
Sen =TP
TP + FN(4.4)
Nuestro objetivo es poder predecir correctamente que un paciente sera readmitido.
Esto se mide utilizando la Sensibilidad (la relacion entre el numero de casos correctamente
predichos como readmision sobre el total de casos de readmision), por lo que aspiramos
tener un modelo predictivo con una Sensibilidad alta. Sin embargo, no puede ser a ex-
pensas de tener muchos falsos positivos, i.e., pacientes que se prediga seran readmitidos
cuando al final no lo seran. Si quisieramos asegurar una sensibilidad alto, serıa facil decir
que todas las pacientes seran readmitidas, lo cual no es adecuado. Esto se mide utilizando
la tasa de falsos positivos.
4.5.0.5. Tasa de Falsos Positivos (FPR)
La tasa de falsos positivos es la relacion entre el numero de casos incorrectamente
predichos como readmision sobre el total de casos que no son considerados como read-
mision. Su formula de calculo es:
FPR =FP
FP + TN(4.5)
25
4.5.0.6. Likelihood Ratio
Una metrica que engloba estas ultimas dos metricas (Sensibilidad y tasa de falsos
positivos) es el Likelihood Ratio. En particular, nos interesa la version que calcula los
resultados positivos del test, conocido como LR+, ya que mide la razon entre la Sensibil-
idad y la tasa de falsos positivos. Si tenemos una Sensibilidad alta, pero al mismo tiempo
una tasa de falsos positivos alta, el LR+ sera bajo, indicando que el modelo de prediccion
no es tan bueno. Si, por el contrario, tenemos un recall alto y al mismo tiempo una tasa de
falsos positivos bajo, el LR+ sera alto, indicando que el modelo de prediccion es bueno.
La formula de calculo del LR+ es:
LR+ =TP/(TP + FN)
FP/(FP + TN)(4.6)
Que es equivalente a:
LR+ =Sen
1� Spe(4.7)
4.5.0.7. Probabilidad pre test y post test
El modelo de prediccion propuesto puede ser visto como un modelo o prueba para
pronosticar la probabilidad de readmision de una paciente. Al estimar las probabilidades
de tener una readmision antes y despues de la prueba, podemos observar si producto del
resultado obtenido por la aplicacion del modelo, aumenta la probabilidad de readmision.
Esto implicarıa que el modelo predictivo es capaz de incorporar informacion prove-
niente de las variables del paciente que son usadas en la prediccion de la readmision. En
otras palabras, si determinamos que una paciente sera readmitida, la prueba nos indica que
esa readmision podrıa ocurrir con mayor probabilidad en comparacion a la lınea base es-
tablecida por la probabilidad a priori, es decir, su probabilidad de readmision incrementa
en un cierto porcentaje producto del resultado positivo de la prueba.
En base a la probabilidad pre test y el LR+, es posible calcular la probabilidad post
test de la siguiente manera (Ebell, 2001):
26
pretest odds =probabilidad pretest
1� probabilidad pretest(4.8)
posttest odds = (pretest odds)⇥ LR+ (4.9)
probabilidad posttest =posttest odds
1 + posttest odds(4.10)
27
5. RESULTADOS
Los modelos predictivos fueron implementados a traves de librerıas de Machine Learn-
ing y procesamiento de datos disponibles en Python. En especifico, se emplearon las
librerıas de scikit-learn para los modelos, mientras que pandas y numpy para el proce-
samiento de datos. Los experimentos fueron realizados sobre un sistema OSX con Intel
Core i5 de 2 GHz y 8GB RAM.
5.1. Comparacion de los resultados de los modelos
Para evaluar los modelos y comparar sus resultados, se implementaron diferentes mod-
elos tradicionales: Random Subsampling, ESVM, k-Nearest Neighbors (KNN), Logistic
Regression, Naive Bayes, Decision Trees, SVM, y Random Forest.
Tras implementar cada modelo, se realizo una validacion cruzada consistente en 50
iteraciones sobre cada modelo para probar el efecto de la aleatoriedad de los algoritmos
de submuestreo. El resultado final corresponde al calculo final de las metricas presentadas
en la seccion 4.5 sobre la suma de los resultados obtenidos en cada iteracion. En cada
iteracion, se empleo un set de testeo aleatorio distinto con 40 casos, donde el 20% cor-
responde a casos de readmision y el 80% a casos que no son readmision. El tamano y
composicion del set de testeo se determino por ensayo y error; debido a la baja frecuencia
de los casos de readmision; se busco tratar de dejar la mayor cantidad de casos posibles
para el set de entrenamiento. En los experimentos realizados fue posible observar que el
set de testing afecta fuertemente el nivel de predictibilidad del modelo. Esto se explica en
parte por la similitud que existıa para algunos ejemplos entre ambas clases, y la limitada
cantidad de estos.
5.1.0.1. Resultados de Repeated Random Subsampling con Random Forest
Cada RF fue configurado empleando 500 arboles, un maximum depth tree de 8, y una
funcion de quality split gini. Las pruebas fueron realizadas utilizando la funcionalidad de
28
Figura 5.1. Resultados del Pre-test y Post-Test empleando Repeated Ran-dom Subsampling con Random Forest.
grid search provista por scikit-learn para la busqueda de los mejores parametros para cada
Random Forest. El set de testeo se separa solo una vez para ambas clases, como indica el
proceso original propuesto por (Khalilia et al., 2011).
Los resultados obtenidos tras aplicar el modelo de Repeated Random Subsampling
con Random Forest presentan una Sensitividad de 0.47, un FPR de 0.41 y un LR+ de
1.14. En la poblacion estudiada, solo el 1.7% de los casos son readmisiones. Por ende, la
probabilidad pre test de que una paciente vaya a ser readmitida es de 0.017. Que el modelo
obtenga un LR+ de 1.14 sobre el set de testeo, significa que, si el modelo predice que una
paciente va a ser readmitida, la probabilidad de que realmente lo sea se incrementa en un
12%, i.e. la probabilidad post test es de 0.019.
Para diferentes escenarios de probabilidad pre test, el AUC del modelo corresponde a
0.52. En la Figura 5.1 se aprecian distintos escenarios simulados de probabilidad de pre
test y su posterior probabilidad post test en base al LR+ obtenido.
29
5.1.0.2. Resultados de ESVM
Cada SVM fue configurado empleando un kernel lineal, una tolerancia de 1e�7 y un
maximo de 1000 iteraciones. El balance de la clase fue definido a traves del parametro
class weight y la configuracion del parametro de regularizacion C. Se configuro el parametro
class weight como C0 = 0.01 y C1 = 0.6 para todos los exemplars. Otro parametro que
resulta importante es la configuracion del parametro C, asociado a la penalizacion que re-
aliza el modelo. Se probaron distintos valores de C (1, 10, 100, 200, 500, 1000, 10000),
donde finalmente se utilizo un valor de 100. Se realizaron 50 iteraciones para probar
diferentes criterios de regularizacion (L1 o L2), presentando mejores resultados con L2.
Los resultados obtenidos tras aplicar el modelo de ESVM presentan una Sensitividad
de 0.44, un FPR de 0.24 y un LR+ de 1.82. En la poblacion estudiada, solo el 1.7% de
los casos son readmisiones. Por ende, la probabilidad pre test de que una paciente vaya a
ser readmitida es de 0.017.Que el modelo obtenga un LR+ de 1.82 sobre el set de testeo,
significa que, si el modelo predice que una paciente va a ser readmitida, la probabilidad de
que realmente lo sea se incrementa en un 80%, i.e. la probabilidad post test es de 0.031.
Para diferentes escenarios de probabilidad pre test, el AUC del modelo corresponde a
0.6. En la Figura 5.2 se aprecia distintos escenarios simulados de probabilidad pre test y
su posterior probabilidad post test en base al LR+ de 1.82.
5.1.0.3. Resultados de modelos de prediccion tradicionales
En este caso, debido al alto desbalance, se probo adoptar una tecnica de generacion
de datos sintetica SMOTE o modificar el class weight de los modelos de prediccion. Para
este experimento, se obtuvieron mejores resultados utilizando la estrategia de over sam-
pling SMOTE. De la misma forma, se optimizo el parametro de cada modelo utilizando la
funcionalidad de grid search de scikit-learn.
La Tabla 5.1 presenta los resultados obtenidos para las metricas propuestas en base
al promedio de 50 iteraciones realizadas para cada modelo considerando diferentes set de
30
Figura 5.2. Resultados del Pre-test y Post-Test empleando ESVM.
Tabla 5.1. Rendimiento de los modelos predictivos en el set de testeo
Modelo Precision Sensitividad (Recall) FPR LR+ AUCRSS RF 0.22 [0.20, 0.24] 0.47 [0.43, 0.51] 0.41 [0.39, 0.43] 1.14 [1.02, 1.26] 0.52
ESVM 0.31 [0.29, 0.35] 0.44 [0.40, 0.48] 0.24 [0.22, 0.26] 1.82 [1.51, 2.17] 0.60Random Forest + SMOTE 0.27 [0.23, 0.31] 0.22 [0.19, 0.25] 0.14 [0.12, 0.16] 1.49 [1.16, 1.82] 0.56
Logistic Regression + SMOTE 0.22 [0.16, 0.28] 0.09 [0.06, 0.12] 0.08 [0.07, 0.09] 1.13 [0.58, 1.68] 0.52KNN + SMOTE 0.18 [0.11, 0.19] 0.10 [0.07, 0.13] 0.11 [0.09, 0.13] 0.90 [0.51, 1.29] 0.48
Decision Tree + SMOTE 0.17 [0.10, 0.24] 0.02 [0.01, 0.03] 0.02 [0.01, 0.03] 0.80 [0.25, 1.35] 0.46SVM + SMOTE 0.16 [0.11, 0.21] 0.06 [0.04, 0.08] 0.07 [0.06, 0.08] 0.75 [0.25, 1.25] 0.45
Naive Bayes + SMOTE 0.14 [0.12, 0.16] 0.23 [0.19, 0.27] 0.37 [0.35, 0.39] 0.63 [0.54, 0.78] 0.42
entrenamiento y testeo; para cada metrica se muestra un intervalo de confianza (CI) del
95%.
5.2. Interpretacion
Para entender la relevancia que tienen las variables elegidas en el modelo ESVM de
prediccion de readmision, hemos utilizado Shapley Additive Explanations (SHAP), una
tecnica que provee estimaciones locales para estudiar la contribucion de las variables em-
pleadas en un modelo de prediccion (Molnar, 2019). La tecnica asigna una puntuacion
(conocida como SHAP Value) a cada una de las variables empleadas; entre mayor sea,
mas relevante es la contribucion de la variable en el modelo.
31
Se aplico la tecnica por separado para cada uno de los 24 exemplars entrenados.
La Figura 5.3 muestra las 20 variables identificadas como las de mayor impacto en la
prediccion para tres exemplars distintos. Las variables identificadas estan detalladas en el
Anexo G.1. En el Anexo H.1 se muestran graficos equivalentes para los 24 Exemplars que
componen el modelo de prediccion de readmision.
Se considera que las variables mas relevantes para el modelo de prediccion de read-
mision son aquellas que aparecen mas frecuentemente entre las 10 variables mas impor-
tantes para cada uno de los Examplars. La Tabla 5.2 muestra las 13 variables mas rele-
vantes, con frecuencias entre 11 y 6.
Aunque este estudio no incluyo el acceso a las notas clınicas, algunas de las 13 vari-
ables principales sugieren que el modelo esta identificando variables asociadas con la
hemorragia, una causa frecuente de morbilidad materna (recuento sanguıneo completo
o hemograma, hematocrito, recuento de plaquetas, reparacion del desgarro obstetrico) y
factores conocidos de morbilidad perinatal (edad, diabetes gestacional).
Figura 5.3. Impacto obtenido segun SHAP Values en las variables em-pleadas por el modelo. Se presenta el top 20 de las variables de 3 Exemplarsdistintos.
32
Tabla 5.2. Ranking de variables considerando la frecuencia con que apare-cen entre las 10 variables mas importantes para cada Exemplar.
Variable Frecuencia Descripcion
Var 47 11 Hemograma Y VHS
Var 90 10 Parto asistido especificado NCOP
Var 0 8 Edad
Var 77 7 Cesarea Cervical Baja
Var 45 7 Hematocrito
Var 59 6 Recuento de Plaquetas
Var 3 6 GRD Peso
Var 64 6 GRD PH Cesarea W/CC
Var 76 6 Reparacion de Otro Desgarro Obstetrico
Var 29 6 Parto Unico o Gemelar Vıa Vaginal
Var 63 6 GRD PH Cesarea
Var 12 6 R.P.R. Cualitativo/Cuantitativo
Var 78 6 Diabetes Mellitus Gestacional
5.3. Traduccion clınica de los resultados
Inicialmente, podrıa parecer que las metricas de precision obtenidas por el modelo en-
trenado no son lo suficientemente altas como para contribuir a los procesos de toma de
decisiones clınicas en relacion con la gestion del riesgo de readmision. Sin embargo, un
Likelihood Ratio de 1,82 significa que un paciente con una probabilidad previa de 0,1 de
ser readmitido, despues de que el modelo de prediccion prediga que podrıa ser readmitido,
la probabilidad posterior a la prueba se eleva a 0,168, un aumento del 68% en el riesgo
relativo de ser readmitido. Esto es comparable a los cocientes de probabilidad utilizados
33
en la toma de decisiones clınicas diarias, como el dolor abdominal en el cuadrante infe-
rior derecho y el diagnostico de apendicitis aguda, un signo clınico con un cociente de
probabilidad de entre 1,52 y 2,48.
34
6. DISCUSION, IMPLICACIONES Y LIMITACIONES
El desafıo de construir modelos de prediccion basados en Machine Learning en el
campo de la medicina ha sido un area que ha ido creciendo en la medida que se dispone
de mayor cantidad de datos. Muchos de estos datos requieren de un nivel de pre proce-
samiento profundo. Una vez definido el problema de estudio, se debe proceder a solu-
cionar problemas asociados a la calidad de los datos.
En Chile, no se ha realizado un estudio previo al trabajo de readmisiones hospitalarias
en el contexto de partos en un sistema de salud. El estudio realizado marca un precedente
en el uso de la informacion para comprender como una paciente tras ser dada de alta pueda
llegar a requerir ser readmitida en el centro hospitalario.
La situacion de las readmisiones ha sido abordada en diferentes estudios. En particular,
cuando los modelos cuentan con poca cantidad de muestras y con problemas de desbalance
entre las clases, la tarea es aun mas desafiante.
El metodo de Repeated Random Subsampling con Random Forest y de Exemplar SVM
resultan ser un buen approach al momento de lidiar con el desbalance de las clases. Ambos
modelos propuestos son capaces de obtener una mejor Sensitividad en comparacion con
otros modelos clasicos. Entre estos ultimos, con Random Forest con SMOTE fue posible
observar que dos metricas de interes, FPR y LR+, presentaban buenos resultados. Sin
embargo, este modelo no lograba conseguir una buena Sensitividad.
Entre los dos modelos propuestos, el metodo de ESVM presenta mejores resultados.
Con dicho modelo de prediccion, se obtuvo un LR+ de 1.82, con una Sensitividad de 0.44.
A su vez, el modelo de Repeated Random Subsampling con Random Forest, propuesto
originalmente por Khalilia et al (Khalilia et al., 2011), presenta una buena Sensitividad
(0.47), pero un bajo LR+ (1.14). El bajo LR se puede explicar debido a que el modelo
tiende a caer en mayor medida en falsos positivos, tal como es posible apreciar por el FPR
de 0.41 que obtuvo.
35
Tomando en cuenta los factores anteriormente mencionados, consideramos que el
metodo ESVM serıa recomendado para crear un modelo de prediccion para la readmision
de pacientes basado en datos, cuando se deba lidiar con un alto desbalance entre las clases
a predecir y pocos casos disponibles. Nuestro approach ha buscado implementar el ESVM
con el espıritu de explorar si la iniciativa de clasificacion de objetos en imagenes para la
cual fue disenado preliminarmente, era capaz de discriminar los casos de readmision (poco
frecuentes) entre los casos de no readmision (clase mayoritaria) con tal de predecir dicha
condicion.
Nuestro modelo propuesto presenta varias limitaciones. Primero, no disponemos de
los resultados de los procedimientos y examenes que se le realizan a la paciente. Esto
implica que desconocemos como su resultado puede afectar a la readmision, lo cual hu-
biera sido un atributo deseable. Por otra parte, las pruebas de validacion se ven altamente
afectadas al tener pocos casos de hospitalizaciones con los cuales testear. Si bien el de-
safıo principal fue lidiar con esta situacion, se reconoce la importancia de disponer de mas
casos para mejorar el rendimiento de los modelos y las metricas propuestas. Finalmente,
este estudio fue aplicado en un hospital particular; si se desea replicar estos resultados en
otros hospitales, hay que considerar como son almacenados los registros clınicos de los
pacientes en los otros hospitales, y abordar nuevos problemas asociados a la calidad de
datos que puedan tener.
36
7. CONCLUSIONES
En este estudio se propone un metodo para construir un modelo para predecir read-
misiones considerando una cantidad de datos reducida y un alto desbalance entre la clase
de interes (readmision) y la clase mayoritaria (no readmision), basado en tecnicas de Data
Analytics y Machine Learning.
El metodo se aplico para desarrollar un modelo para predecir readmision de pacientes
que tuvieron su parto, utilizando registros de datos historicos del hospital clınico UC-
CHRISTUS en Santiago de Chile.
El trabajo con datos provenientes de los registros electronicos de salud es una tarea
desafiante. La mayorıa de estos datos presenta problemas relacionados a la calidad de los
datos. Producto de estos problemas, la principal tarea inicial es el correcto depuramiento
de los datos antes de ser empleados como input para un modelo.
El problema del desbalance entre las clases de readmision y no readmision de este
conjunto de pacientes fue el principal desafıo para crear el modelo de prediccion. Se opto
por emplear una estrategia de submuestreo aleatorio basado en modelos de Random Forest
y un modelo basado en Support Vector Machines, conocido como Exemplar SVM.
Los resultados del metodo propuesto nos muestran que es posible elaborar un modelo
de prediccion basados en tecnicas de Machine Learning con el objetivo de predecir las
readmisiones hospitalarias. En particular, nuestros experimentos muestran que a traves
del modelo basado en Exemplar SVM se pueden obtener mejores resultados comparados
con tecnicas clasicas. La probabilidad post test de readmision aumenta en un 80% con
respecto a la probabilidad pre test. Esto implica un AUC del modelo basado en Exemplar
SVM de 0.6.
El modelo propuesto ofrece una oportunidad para mejorar la prediccion de readmi-
siones de pacientes que tengan sus partos en un hospital. Mas aun, dado que el problema
de readmisiones se presenta en otros tipos de condiciones clınicas, el metodo propuesto
37
ofrece una oportunidad para abordar condiciones similares que tengan caracterısticas de
desbalance y baja frecuencia de casos, incluso mas alla del area de la salud.
Como trabajo futuro, se desea aplicar este metodo en otros casos de readmision den-
tro de la misma red de salud, y posteriormente extender sus resultados a otros centros
hospitalarios, lo que nos permitirıa validarlo como un metodo general para la prediccion
de readmisiones. Idealmente, deseamos buscar otros diagnosticos que tengan una mayor
cantidad de variables disponibles que podrıan aprovechar el metodo propuesto.
Por otra parte, dado que el metodo de Repeated Random Subsampling implementado
es suficientemente general, se podrıa explorar su combinacion con modelos de clasifi-
cacion que resultaron ser altamente sensibles al desbalance de clases en evaluaciones pre-
liminares, como XGBoost, donde el sobreentrenamiento impidio que obtuviera resultados
competitivos.
38
REFERENCIAS
Adler-Milstein, J., Holmgren, A. J., Kralovec, P., Worzala, C., Searcy, T., & Patel, V.
(2017). Electronic health record adoption in US hospitals: The emergence of a digital
”advanced use” divide. Journal of the American Medical Informatics Association, 24(6),
1142–1148. doi: 10.1093/jamia/ocx080
Arias, M., Rojas, E., Aguirre, S., Cornejo, F., Munoz-Gama, J., Sepulveda, M., & Ca-
purro, D. (2020). Mapping the patient’s journey in healthcare through process mining.
International Journal of Environmental Research and Public Health, 17(18), 1–16. doi:
10.3390/ijerph17186586
Bach, M., Werner, A., Zywiec, J., & Pluskiewicz, W. (2017). The study of under-and
over-sampling methods’ utility in analysis of highly imbalanced data on osteoporosis. In-
formation Sciences, 384, 174–190.
Bailey, S. C., Fang, G., Annis, I. E., O’Conor, R., Paasche-Orlow, M. K., & Wolf, M. S.
(2015). Health literacy and 30-day hospital readmission after acute myocardial infarction.
BMJ Open, 5(6). Retrieved from https://bmjopen.bmj.com/content/5/6/
e006975 doi: 10.1136/bmjopen-2014-006975
Batista, G. E., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of sev-
eral methods for balancing machine learning training data. ACM SIGKDD explorations
newsletter, 6(1), 20–29.
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5–32.
Buhlmann, P. (2012). Bagging, boosting and ensemble methods. In Handbook of compu-
tational statistics (pp. 985–1022). Springer.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). Smote: synthetic
39
minority over-sampling technique. Journal of artificial intelligence research, 16, 321–
357.
Cheney, J., Barber, S., Altamirano, L., Medico-Cirujano, Cheney, M., Williams, C., . . .
Wainwright, C. (2005). A clinical pathway for bronchiolitis is effective in reducing read-
mission rates. Journal of Pediatrics, 147(5), 622–626. doi: 10.1016/j.jpeds.2005.06.040
Clınicas de Chile. (2021, May). Clınicas de Chile A.G. Grupos Relacionados
de Diagnostico (GRD): Marco Teorico y Experiencias Practicas. https://www
.clinicasdechile.cl/.
Corrigan, J. M., & Martin, J. B. (1992). Identification of factors associated with hospital
readmission and development of a predictive model. Health services research, 27(1), 81.
Ebell, M. H. (2001). Evidence-based diagnosis: a handbook of clinical prediction rules.
Springer Science & Business Media.
Gatta, R., Vallati, M., Lenkowicz, J., Rojas, E., Damiani, A., Sacchi, L., . . . Valen-
tini, V. (2017). Generating and comparing knowledge graphs of medical processes us-
ing pMineR. Proceedings of the Knowledge Capture Conference, K-CAP 2017. doi:
10.1145/3148011.3154464
Hasan, O., Meltzer, D. O., Shaykevich, S. A., Bell, C. M., Kaboli, P. J., Auerbach, A. D.,
. . . Schnipper, J. L. (2010). Hospital readmission in general medicine patients: A predic-
tion model. Journal of General Internal Medicine, 25(3), 211–219. doi: 10.1007/s11606-
009-1196-1
Hassler, A. P., Menasalvas, E., Garcıa-Garcıa, F. J., Rodrıguez-Manas, L., & Holzinger,
A. (2019). Importance of medical data preprocessing in predictive modeling and risk
factor discovery for the frailty syndrome. BMC medical informatics and decision making,
19(1), 1–17.
40
Hearst, M., Dumais, S., Osuna, E., Platt, J., & Scholkopf, B. (1998). Support vec-
tor machines. IEEE Intelligent Systems and their Applications, 13(4), 18-28. doi:
10.1109/5254.708428
Hilbert, J. P., Zasadil, S., Keyser, D. J., & Peele, P. B. (2014). Using decision trees
to manage hospital readmission risk for acute myocardial infarction, heart failure, and
pneumonia. Applied health economics and health policy, 12(6), 573–585.
Kansagara, D., Englander, H., Salanitro, A., Kagen, D., Theobald, C., Freeman, M., &
Kripalani, S. (2011). Risk prediction models for hospital readmission: a systematic review.
Jama, 306(15), 1688–1698.
Khalilia, M., Chakraborty, S., & Popescu, M. (2011). Predicting disease risks from highly
imbalanced data using random forest. BMC Medical Informatics and Decision Making,
11(1). doi: 10.1186/1472-6947-11-51
Kotsiantis, S., Kanellopoulos, D., Pintelas, P., et al. (2006). Handling imbalanced datasets:
A review. GESTS International Transactions on Computer Science and Engineering,
30(1), 25–36.
Kristensen, S. R., Bech, M., & Quentin, W. (2015). A roadmap for comparing read-
mission policies with application to Denmark, England, Germany and the United States.
Health Policy, 119(3), 264–273. Retrieved from http://dx.doi.org/10.1016/
j.healthpol.2014.12.009 doi: 10.1016/j.healthpol.2014.12.009
Malisiewicz Tomasz. (2011). Ensemble of Exemplar-SVMs for Object Detection and
Beyond Tomasz. 2011 International Conference on Computer Vision.
Mans, R. S., van der Aalst, W. M. P., & Vanwersch, R. J. B. (2015). Process Mining
Operational Healthcare Evaluating and Exploiting in Healthcare Processes. Springer
International Publishing. doi: 10.1007/978-3-319-16071-9 6
41
Mena, L. J., & Gonzalez, J. A. (2006). Machine learning for imbalanced datasets: Appli-
cation in medical diagnostic. In Flairs conference (pp. 574–579).
Molnar, C. (2019). Interpretable machine learning.
Press, V. G., Konetzka, R. T., & White, S. R. (2018). Insights about the economic impact
of copd readmissions post implementation of the hospital readmission reduction program.
Current opinion in pulmonary medicine, 24(2), 138.
Rogith, D. (2015). Process mining of medication revisions in electronic health records.
Rojas, E., Munoz-Gama, J., Sepulveda, M., & Capurro, D. (2016). Process mining
in healthcare: A literature review. Journal of Biomedical Informatics, 61, 224–236.
Retrieved from http://dx.doi.org/10.1016/j.jbi.2016.04.007 doi:
10.1016/j.jbi.2016.04.007
Singh, D., & Singh, B. (2020). Investigating the impact of data normalization on classifi-
cation performance. Applied Soft Computing, 97, 105524.
Stehman, S. V. (1997). Selecting and interpreting measures of thematic classification
accuracy. Remote sensing of Environment, 62(1), 77–89.
Turgeman, L., & May, J. H. (2016). A mixed-ensemble model for hospital readmis-
sion. Artificial Intelligence in Medicine, 72, 72-82. Retrieved from https://www
.sciencedirect.com/science/article/pii/S0933365716301622 doi:
https://doi.org/10.1016/j.artmed.2016.08.005
Veloso, R., Portela, F., Santos, M. F., Silva, A., Rua, F., Abelha, A., & Machado, J. (2014).
A clustering approach for predicting readmissions in intensive medicine. Procedia Tech-
nology, 16, 1307–1316.
Wadhera, R. K., Maddox, K. E., Kazi, D. S., Shen, C., & Yeh, R. W. (2019). Hospital
revisits within 30 days after discharge for medical conditions targeted by the Hospital
42
Readmissions Reduction Program in the United States: National retrospective analysis.
The BMJ, 366. doi: 10.1136/bmj.l4563
Weiskopf, N. G., & Weng, C. (2013). Methods and dimensions of electronic health record
data quality assessment: Enabling reuse for clinical research. Journal of the American
Medical Informatics Association, 20(1), 144–151. doi: 10.1136/amiajnl-2011-000681
Yin, H.-L., & Leong, T.-Y. (2010). A model driven approach to imbalanced data sampling
in medical decision making. In Medinfo 2010 (pp. 856–860). IOS Press.
Zheng, B., Zhang, J., Yoon, S. W., Lam, S. S., Khasawneh, M., & Poranki, S. (2015).
Predictive modeling of hospital readmissions using metaheuristics and data mining. Expert
Systems with Applications, 42(20), 7110–7120.
43
ANEXO
44
A. DESTALLE DE DATOS DE LOS GRUPOS RELACIONADOS DE DIAGNOSTICO
Tabla A.1. Elementos de datos asociados a los Grupos Relacionados deDiagnostico
Elemento DescripcionEPISODIO ID del episodio de ingresoEPISODIO INDICE Referencia a un episodio previo de ingresoID PACIENTE ID del pacienteEDAD Edad en anosFECHA NACIMIENTO Fecha de nacimientoSEXO Indicador de sexoFECHA INGRESO Fecha de hospitalizacionFECHA ALTA Fecha del altaGRD CODIGO Codigo de GRDGRD DESCRIPCION GRD descripcionGRD PESO GRD pesoDIAG PRIN COD Codigo diagnostico principalDIAG PRIN DESCR Descripcion diagnostico principalDIAG SEC Diagnostico secundarioPROC PRIN COD Codigo del procedimiento principalPROC SEC COD Codigo del procedimiento secundarioPROC PRIN DESCR Descripcion del procedimiento principalEPISODIO INDICE FLAG Indicador de episodio ındice
45
B. DETALLE DE DATOS DE LOS PROCEDIMIENTOS
Tabla B.1. Elementos de datos asociados a Procedimientos
Elementos DescripcionFECHA CREACION Fecha de creacion del procedimientoID REGISTRO ID del registro de procedimientoCOD PROC Codigo del procedimientoDESC PROC Descripcion del procedimientoTIPO PROC Tipo de procedmiento (Procedimiento Medico, Im-
agenologıa, Procedimiento No Medico, Examenes Lab.,Cirugıa, Consulta)
GRUPO PROC Medical procedure groupID PACIENTE ID del pacienteESP MED Especialidad medicaHOSPITAL Centro HospitalarioFECHA PROC Fecha de la ejecucion del procedimientoMED ID ID del medico anonimizadoSEXO Indicador de sexo
46
C. DETALLE DE DATOS DE LAS URGENCIAS
Tabla C.1. Elementos de datos asociados a Urgencia
Elementos DescripcionFECHA CREACION Fecha de creacion del registro de urgenciaTRIAGE EP Color del triage asociado al episodioMD ESP Especialidad medicaCIUDAD Ciudad del pacienteID PACIENTE ID del pacienteID EPISODIO INDICE ID Episodio ındice (asociado a urgencias)UT DESC Descripcion del ultimo triageC5 Categorıa del diagnostico principalCIE-10 Codigo de diagnosticoUA DESC Descripcion de la ultima altaUA DEST Destino del ultimo altaNEP Numero de episodios previosFECHA INGRESO Fecha de ingresoFECHA UT Fecha del ultimo triageFECHA POM Fecha de primera observacion medicaSEXO Indicador de sexo
47
D. DETALLE DE DATOS DE LAS CONSULTAS
Tabla D.1. Elementos de datos asociados a Consultas Medicas
Elementos DescripcionID REGISTRO Registro de consultaFECHA RESERVA Fecha de reserva de consultaID MEDICO ID anonimizado del medicoEPISODIO ID del episodio de consultaCODIGO PROC Codigo del procedimientoID PACIENTE ID del pacienteSEXO Indicador de sexoFECHA NACIMIENTO Fecha de nacimientoDETALLE ATENCION Detalle de la atencion medicaTIPO CONS Tipo de consulta medicaESP MEDICA Especialidad medicaLOCALIZACION Centro Hospitalario
48
E. CORRELACIONES DE VARIABLES NUMERICAS ASOCIADAS A EPISO-
DIOS DE PARTOS
Figura E.1. Correlacion de variables numericas asociadas a episodios de partos.
49
F. CORRELACIONES DE VARIABLES NUMERICAS POR TIPO DE PARTO
Figura F.1. Correlacion de variables numericas por tipo de parto. Ennaranjo los casos bajo la descripcion de parto por cesarea. En celeste, bajola descripcion de parto vaginal. Las variables identificadas son: edad, can-tidad de diagnosticos secundarios, dıas en episodio ındice, dıas en perıodointermedio y dıas en reingreso.
50
G. VARIABLES EMPLEADAS PARA SHAP VALUES
Variables Nombre FrecuenciaVar 0 edad 12Var 47 HEMOGRAMA Y VHS 11Var 90 O83.8 10
Var 398 O32.1 10Var 402 O33.9 9Var 401 O20.8 9Var 400 Q27.0 9Var 399 Q51.3 9Var 397 L40.0 9Var 395 G90.9 8Var 394 O64.1 7Var 404 O44.1 7Var 403 R10.2 7Var 396 R00.1 7Var 45 HEMATOCRITO 7
Var 392 O82.1 7Var 77 pcp 74 7
Var 390 O66.4 7Var 393 O30.0 6Var 29 PARTO UNICO O GEMELAR VIA VAGINAL 6Var 3 grd peso 6Var 59 RECUENTO DE PLAQUETAS 6
Var 405 K90.0 6Var 76 pcp 75 6Var 78 O24.4 6Var 63 grd desc PH CESAREA 6Var 64 grd desc PH CESAREA W/CC 6Var 12 R.P.R. CUALITATIVO/CUANTITATIVO 6Var 25 PERFIL HEPATICO (PRUEBAS HEPATICAS) 5
Var 391 O45.9 5Var 388 O61.0 5Tabla G.1. Variables identificadas mediante los SHAP Values. La frecuen-cia indica cuantos exemplars reconocieron la variable dentro de su top 20.
51
H. FORCE PLOT SHAP VALUES
52
53
Figura H.1. Impacto promedio de las variables en base a los SHAP Valuesde cada Exemplar