PREDICCION DE READMISIONES´ HOSPITALARIAS …

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE

ESCUELA DE INGENIERIA

PREDICCION DE READMISIONES

HOSPITALARIAS INFRECUENTES

USANDO MACHINE LEARNING: CASO DE

ESTUDIO APLICADO A PARTOS EN UN

HOSPITAL CLINICO.

FELIPE ALEJANDRO EDUARDO CORNEJO RIVAS

Tesis para optar al grado de

Magıster en Ciencias de la Ingenierıa

Profesor Supervisor:

MARCOS SEPULVEDA FERNANDEZ

Santiago de Chile, Diciembre 2021

c� MMXV, FELIPE A. E. CORNEJO RIVAS

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE

ESCUELA DE INGENIERIA

PREDICCION DE READMISIONES

HOSPITALARIAS INFRECUENTES

USANDO MACHINE LEARNING: CASO DE

ESTUDIO APLICADO A PARTOS EN UN

HOSPITAL CLINICO.

FELIPE ALEJANDRO EDUARDO CORNEJO RIVAS

Miembros del Comite:

MARCOS SEPULVEDA FERNANDEZ

HANS LOBEL DIAZ

ERIC ROJAS CORDOBA

DANIEL CAPURRO NARIO

RODRIGO ESCOBAR MORAGAS

Tesis para optar al grado de

Magıster en Ciencias de la Ingenierıa

Santiago de Chile, Diciembre 2021

c� MMXV, FELIPE A. E. CORNEJO RIVAS

A mis padres, la Telle, y los amigos

que me acompanaron en este

camino

AGRADECIMIENTOS

En primer lugar deseo agradecer a mi profesor supervisor, Marcos Sepulveda por

haberme entregado la confianza y la gran oportunidad de emprender esta tesis. No solo

ha sido un mentor en este camino, si no que me ha permitido conocer el emocionante (y

desafiante) mundo de la investigacion. De la misma forma agradezco a Eric Rojas, ya

que sin su aporte y gestion en la obtencion de la informacion clınica, esta investigacion no

podrıa haber sido posible. Tambien a Daniel Capurro y Hans Lobel, quienes nos brindaron

un increıble apoyo en la investigacion en base a los dominios sobre los que son expertos.

Tambien agradecer a la red de salud UC CHRISTUS, quienes han proporcionado la

informacion relevante asociada a los registros historicos de los pacientes de esta investi-

gacion.

Finalmente, deseo entregar un especial agradecimiento a mi familia, quienes sopor-

taron arduas horas de trabajo y estres de mi parte. En especial a mi madre, Norma Rivas,

que en su felicidad y orgullo puedo notar el camino recorrido hasta hoy.

iv

INDICE DE CONTENIDOS

AGRADECIMIENTOS iv

INDICE DE FIGURAS vii

INDICE DE TABLAS viii

ABSTRACT ix

RESUMEN x

1. Introduccion 1

2. Background 4

3. Caso de estudio 6

3.1. Sistemas de Informacion . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.2. Grupos relacionados de Diagnostico . . . . . . . . . . . . . . . . . . . . 7

3.3. Episodio Indice y Readmision . . . . . . . . . . . . . . . . . . . . . . . 7

3.4. Tipos de Readmision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.5. Readmisiones posterior a parto . . . . . . . . . . . . . . . . . . . . . . . 9

4. Metodo Propuesto 12

4.1. Recoleccion de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.2. Procesamiento de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.3. Manejo del desbalance de Datos . . . . . . . . . . . . . . . . . . . . . . 16

4.4. Construccion de Modelo Predictivo . . . . . . . . . . . . . . . . . . . . . 18

4.5. Evaluacion del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5. Resultados 27

5.1. Comparacion de los resultados de los modelos . . . . . . . . . . . . . . . 27

5.2. Interpretacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.3. Traduccion clınica de los resultados . . . . . . . . . . . . . . . . . . . . 32v

6. Discusion, implicaciones y limitaciones 34

7. Conclusiones 36

REFERENCIAS 38

ANEXO 43

A. Datos de los Grupos Relacionados de Diagnostico . . . . . . . . . . . . . . 44

B. Datos de los procedimientos . . . . . . . . . . . . . . . . . . . . . . . . . 45

C. Datos de las urgencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

D. Datos de las consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

E. Correlaciones de variables numericas . . . . . . . . . . . . . . . . . . . . 48

F. Correlaciones de variables numericas por tipo de parto . . . . . . . . . . . . 49

G. Variables empleadas para SHAP Values . . . . . . . . . . . . . . . . . . . 50

H. Force Plot SHAP Values . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

vi

INDICE DE FIGURAS

3.1 Proporcion de episodios ındices . . . . . . . . . . . . . . . . . . . . . . . . 8

3.2 Identificacion de registros considerados como Readmision . . . . . . . . . . 8

3.3 Histograma de la edad y estadıa de las pacientes . . . . . . . . . . . . . . . 10

4.1 Etapas del metodo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.2 Desbalance de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.3 Metodo Repeated Random Subsampling con Random Forest . . . . . . . . . 19

4.4 Support Vector Machine Categorico . . . . . . . . . . . . . . . . . . . . . . 21

4.5 SVM Categorico vs Metodo Exemplar SVM. . . . . . . . . . . . . . . . . . 21

5.1 Resultados del Pre-test y Post-Test empleando Repeated Random Subsampling

con Random Forest. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5.2 Resultados del Pre-test y Post-Test empleando ESVM. . . . . . . . . . . . . 30

5.3 Impacto obtenido segun SHAP Values en las variables empleadas por el modelo 31

E.1 Correlacion de variables numericas asociadas a episodios de partos . . . . . . 48

F.1 Correlacion de variables numericas por tipo de parto . . . . . . . . . . . . . 49

H.1 Impacto promedio de las variables en base a los SHAP Values de cada

Exemplar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

vii

INDICE DE TABLAS

3.1 Top 10 de los GRD mas frecuentes . . . . . . . . . . . . . . . . . . . . . . 10

3.2 Frecuencia de diagnosticos asociados a partos . . . . . . . . . . . . . . . . 11

4.1 Atributos seleccionados para el modelo predictivo . . . . . . . . . . . . . . 16

4.2 Matriz de confusion usada para la evaluacion del modelo de readmisiones . . 23

5.1 Rendimiento de los modelos predictivos en el set de testeo . . . . . . . . . . 30

5.2 Ranking de variables considerando la frecuencia con que aparecen entre las 10

variables mas importantes para cada Exemplar. . . . . . . . . . . . . . . . . 32

A.1 Elementos de datos asociados a los Grupos Relacionados de Diagnostico . . . 44

B.1 Elementos de datos asociados a Procedimientos . . . . . . . . . . . . . . . . 45

C.1 Elementos de datos asociados a Urgencia . . . . . . . . . . . . . . . . . . . 46

D.1 Elementos de datos asociados a Consultas Medicas . . . . . . . . . . . . . . 47

G.1 Variables empleadas para los SHAP Values . . . . . . . . . . . . . . . . . . 50

viii

ABSTRACT

Hospital readmissions occur when patients discharged from a hospital are readmitted

after a short period of time. This is an undesirable and costly situation, and it is of great

clinical interest to prevent it. Thanks to Electronic Health Records (EHRs), it is possible

to take advantage of the clinical history of patients for the prediction of hospital readmis-

sions. However, developing predictive models from the clinical history is a complex task,

particularly when the availability of cases is limited and readmissions are infrequent.

In this thesis, we have developed a method to estimate the probability of readmission

based on machine learning techniques, using two strategies, Repeated Random Subsam-

pling with Random Forest and Exemplar SVM, to deal with the imbalance between the

classes of interest. This thesis describes the proposed method and its application to a set

of patients who gave birth in a clinical hospital in Chile.

Our results show that it is possible to obtain a Likelihood Ratio (LR) of 1.82, corre-

sponding to an AUC prediction level of 0.6. In the studied population, only 1.7% of the

cases are readmissions. Hence, the pre-test probability that a patient will be readmitted

is 0.017. The fact that the model obtains an LR+ of 1.82 on the test set implies that, if

the model predicts that a patient will be readmitted, the probability that she really will be

readmitted increases by 80%, i.e. the post-test probability is 0.031.

The proposed method could be used to estimate the probability of readmission in other

types of diagnosis, particularly in those with a low risk of readmission.

Keywords: Hospital Readmission, Risk Factors, Machine Learning, Data Analyticsix

RESUMEN

Las readmisiones hospitalarias ocurren cuando los pacientes dados de alta de un hospi-

tal son readmitidos luego de un corto perıodo de tiempo. Esta es una situacion no deseada

y costosa, siendo de alto interes clınico prevenirla. Gracias a los Electronic Health Records

(EHRs), es posible aprovechar el historial clınico de los pacientes para la prediccion de

las readmisiones hospitalarias. Sin embargo, desarrollar modelos predictivos a partir del

historial clınico es una tarea compleja, en particular cuando la disponibilidad de casos es

limitada y las readmisiones poco frecuentes.

En este trabajo, hemos desarrollado un metodo para estimar la probabilidad de read-

mision en base a tecnicas de machine learning, utilizando dos estrategias, Repeated Ran-

dom Subsampling con Random Forest y Exemplar SVM, para lidiar con el desbalance

entre las clases de interes. Este articulo describe el metodo propuesto y su aplicacion a un

conjunto de pacientes que tuvieron sus partos en un hospital clınico en Chile.

Nuestros resultados muestran que es posible obtener un Likelihood Ratio (LR) de 1.82,

correspondiente a un nivel de prediccion AUC de 0.6. En la poblacion estudiada, solo el

1.7% de los casos son readmisiones. Por ende, la probabilidad pre test de que una paciente

vaya a ser readmitida es de 0.017. Que el modelo obtenga un LR+ de 1.82 sobre el set

de testeo, significa que, si el modelo predice que una paciente va a ser readmitida, la

probabilidad de que realmente lo sea se incrementa en un 80%, i.e. la probabilidad post

test es de 0.031.

Este metodo puede ser utilizado para estimar la probabilidad de readmision en otros

tipos de diagnostico, particularmente en aquellos en que hay un bajo riesgo de readmision.

Palabras Claves: Readmisiones hospitalarias, Factores de riesgo, Machine Learning,

Data Analytics.x

1

1. INTRODUCCION

Las readmisiones hospitalarias son aquellas en que un paciente dado de alta reciente-

mente reingresa al hospital antes de 30 dıas (Wadhera, Maddox, Kazi, Shen, & Yeh, 2019).

Esta es una situacion inusual, pero negativa para el paciente y altamente costosa. Resulta

importante prevenirla, siendo de alto interes clınico comprender para un diagnostico en

particular cual es la probabilidad de readmision de un paciente al momento del alta (Gatta

et al., 2017)(Hasan et al., 2010).

Varios paıses, incluyendo Estados Unidos (USA), Inglaterra, Dinamarca y Alemania,

han trabajado en polıticas orientadas a mejorar la calidad de atencion para reducir las

readmisiones hospitalarias (Kristensen, Bech, & Quentin, 2015). Como parte del Hospital

Readmissions Reduction Program (HRRP) del Center for Medicare and Medicaid Services

(CMS) en USA, se han propuesto varias iniciativas de reporte y mejoras, para mejorar la

planificacion del alta y las transiciones asistenciales (Wadhera et al., 2019). Pese a los

intensos esfuerzos por parte de los hospitales y clınicas en el tratamiento de los pacientes

que reingresan, se requiere de herramientas que puedan predecir adecuadamente el riesgo

de reingreso, para poder ası gestionarlo oportunamente.

El uso de tecnologıas de informacion en salud, especialmente Electronic Health Records

(EHRs), resulta clave para apoyar los procesos de atencion y tratamiento clınicos de los

pacientes (Adler-Milstein et al., 2017). La adopcion de EHRs genera la oportunidad de

utilizar los datos recolectados para estimar el riesgo de readmision.

Son diversos los caminos que se han tomado para explorar el problema de las readmi-

siones, donde los principales campos de estudio se centran en pacientes con diagnosticos

asociados a la oncologıa y cirugıa (Rogith, 2015), fallas al corazon, neumonıa (Wadhera

et al., 2019) o pacientes que provienen de unidades de cuidados intensivos (Veloso et al.,

2014). Algunos ejemplos de aproximaciones a traves de las cuales se intenta reducir las

readmisiones involucran generar modelos predictivos (Hasan et al., 2010)(Kansagara et

2

al., 2011), estrategias de clustering (Veloso et al., 2014), o el analisis del Journey de los

pacientes (Arias et al., 2020)(Cheney et al., 2005).

Los modelos predictivos buscan descubrir las relaciones subyacentes entre variables

predictoras y resultados, para clasificar y predecir el comportamiento de los pacientes

(Press, Konetzka, & White, 2018). Esto se realiza mediante el uso de datos historicos.

Especıficamente en el area de readmisiones hospitalarias, diversos algoritmos han sido

utilizados como modelos predictores, ejemplos de estos son: Decision trees (Kansagara

et al., 2011), Artificial Neural Networks (Rojas, Munoz-Gama, Sepulveda, & Capurro,

2016), Logistic Regression (Hasan et al., 2010), Ensamble Models (Turgeman & May,

2016) y Bayesian Models (Gatta et al., 2017). Desafortunadamente, estos modelos no

se comportan bien frente a escenarios con baja probabilidad de readmision y pocos ca-

sos, problematica conocida en Data Science como desbalance de datos (Batista, Prati, &

Monard, 2004).

En este escenario, la capacidad de predecir de los modelos se reduce, puesto a que

tienden a caer en problemas de sobreajuste o perdida de generalidad (Kotsiantis, Kanel-

lopoulos, Pintelas, et al., 2006). Por otro lado, la informacion requerida para construir

estos modelos requiere lidiar con problematicas relacionadas con la calidad de los datos,

como la consistencia, completitud, correctitud o temporalidad (Rojas et al., 2016; Mans,

van der Aalst, & Vanwersch, 2015). Para lidiar con estas complicaciones, se debe re-

alizar un procesamiento que permita depurar y limpiar los datos apropiadamente (Hassler,

Menasalvas, Garcıa-Garcıa, Rodrıguez-Manas, & Holzinger, 2019).

El objetivo principal de este estudio es lograr estimar la probabilidad de readmision de

un paciente dado de alta, utilizando modelos predictivos y estrategias de analisis de datos.

Para lograr este objetivo, se recopilan desde los EHRs datos asociados a las atenciones de

los pacientes en las diferentes etapas de su ciclo de vida (Arias et al., 2020), por ejemplo,

los registros de prestaciones, procedimientos, examenes, consultas y diagnosticos realiza-

dos al paciente durante su hospitalizacion.

3

Esta tesis describe un metodo para aplicar modelos predictivos que permitan entregar

una probabilidad de readmision hospitalaria asociada a una condicion o diagnostico de in-

greso, a partir de un set de datos con alto desbalance y poca frecuencia de casos. Nuestro

estudio sugiere que es posible aplicar extensiones de los modelos de aprendizaje tradi-

cionales, utilizando estrategias de submuestreo aleatorio o ensamblajes, que combinan

diferentes predicciones y permiten proporcionar una mejor probabilidad de readmision.

Se emplearon dos estrategias que permiten lidiar con el desbalance de los datos. La

primera, Random Sub Sampling con Random Forest, y la segunda, Exemplar SVM. Am-

bos metodos fueron comparados con modelos tradicionales como Regresiones Logısticas,

Support Vector Machines, Random Forest, k-Nearest Neighbors, y modelos Bayesianos.

4

2. BACKGROUND

Varias investigaciones han explorado el uso de los datos contenidos en Electronic

Healthcare Records (EHRs) para la creacion de modelos predictivos basados en apren-

dizaje supervisado para el analisis de las readmisiones hospitalarias (Kansagara et al.,

2011). Algunos estudios hacen un analisis retrospectivo de los datos (Wadhera et al.,

2019), algunos identifican factores de riesgo en los pacientes (Hasan et al., 2010), y otros

construyen modelos predictivos (Kansagara et al., 2011)(Corrigan & Martin, 1992). Como

definicion de readmision, se considera aquellas hospitalizaciones ocurridas en un perıodo

menor o igual a 30 dıas luego de que el paciente es dado de alta (Wadhera et al., 2019).

Algunos estudios se centran en una condicion o enfermedad en particular (Bailey et al.,

2015), o en un unico sistema hospitalario (Hasan et al., 2010). El estudio de Hasan (Hasan

et al., 2010) propone un analisis para identificar predictores de readmisiones hospitalarias

de diversos pacientes, empleando diferentes cohortes con datos del Multicenter Hospitalist

(MCH) y modelos de regresion logıstica multivariada. El cohorte total considera a 10,946

pacientes, donde la cantidad de pacientes que fueron readmitidos fueron 1,912 (17.5%).

El performance del modelo generado presenta un Area Under the Curve (AUC) de 0.61

sobre la cohorte de validacion.

En la aplicacion de modelos predictivos, los arboles de decision han probado ser una

herramienta descriptiva y viable para comprender las razones por las que determinadas

variables afectan en la clasificacion de las readmisiones (Hilbert, Zasadil, Keyser, & Peele,

2014). Estrategias de clustering, como las propuestas por (Veloso et al., 2014), mediante la

agrupacion de diferentes variables y algoritmos buscan caracterizar los tipos de pacientes

con altas probabilidades de ser readmitidos. Otras investigaciones proponen metodologıas

basadas en metaheurısticas y data mining, (Zheng et al., 2015) incluyendo modelos basa-

dos en redes neuronales, Random Forest y Support Vector Machines (SVM).

La implementacion de estos metodos tiene varios retos; uno de estos esta asociado al

desempeno de los modelos producto de la calidad de los datos (Weiskopf & Weng, 2013).

5

Los datos, en general, tienen una diversidad de problemas. El dominio de la salud no es

la excepcion. The Institute of Medicine (IOM) define la calidad de datos como “datos lo

suficientemente solidos como para respaldar conclusiones e interpretaciones equivalentes

a las derivadas de datos sin errores” (Mans et al., 2015).

El metodo propuesto en este trabajo considera como una etapa relevante (y que toma

una buena parte del esfuerzo) la depuracion de los datos utilizados para alimentar los

modelos predictivos desarrollados.

En general, se ha identificado un bajo rendimiento de los modelos predictivos asoci-

ados a readmisiones hospitalarias, donde la principal conclusion ha sido la necesidad de

mejorar los modelos (Kansagara et al., 2011). Nuestro trabajo busca desarrollar un metodo

de analisis de los pacientes basados en la reconstruccion de su historial clınico y el desar-

rollo de modelos que permitan determinar la probabilidad de readmision y los factores de

riesgo, lidiando con la complejidad de la calidad de los datos subyacentes.

6

3. CASO DE ESTUDIO

En esta tesis se describe un caso de estudio realizado en conjunto con el Hospital

Clınico Universitario de la Pontificia Universidad Catolica de Chile (CH-PUC), donde

se analizo la informacion disponible en los EHRs para los pacientes hospitalizados entre

2017 y 2018. En esta seccion se describe el caso de estudio a partir del universo completo

de pacientes, describiendo los sistemas disponibles para almacenar los datos, las carac-

terısticas demograficas de cada paciente, los distintos tipos de diagnosticos, las diferentes

readmisiones registradas, y la eleccion de los partos como caso de estudio.

3.1. Sistemas de Informacion

Los datos empleados en este estudio provienen de los EHRs de la Red de Salud UC-

CHRISTUS, una red de salud con mas de once centros medicos, 500 camas aproximada-

mente y alrededor de mil medicos, donde se atiende mas de 1,000 partos al ano. Los sis-

temas de informacion del hospital CH-PUC disponen de datos asociados al historial clınico

de los pacientes. Se identifican fuentes con informacion de registros de hospitalizaciones,

procedimientos clınicos y consultas medicas. El uso de los registros de datos historicos

del hospital CH-PUC fue aprobado por el comite de etica institucional (id: 180504002).

Los datos fueron consolidados en 4 tablas, las cuales se describen a continuacion:

(i) Datos de Grupos Relacionados de Diangostico: Los Grupos Relacionados de Di-

angostico (GRD) se refieren a un proceso de codificacion clınica para establecer

el consumo de recursos de un episodio y se usan para el pago de aseguradoras.

Esta tabla consolida los datos del registro clınico mas la base de datos de los

GRD. (Ver Anexo A.1).

(ii) Datos de Procedimientos: Corresponde a los registros asociados a los proced-

imientos y examenes clınicos aplicados a los pacientes durante su hospital-

izacion. (Ver Anexo B.1).

7

(iii) Datos de Urgencias: Corresponde a los registros de hospitalizaciones de la

unidad de urgencias del hospital. (Ver Anexo C.1).

(iv) Datos de Consultas Medicas: Corresponde a los registros asociados a las con-

sultas ambulatorias de los pacientes en el centro hospitalario. (Ver Anexo D.1).

3.2. Grupos relacionados de Diagnostico

La base para la clasificacion de pacientes utilizada en CH-PUC utiliza el sistema de

clasificacion Grupos Relacionados de Diagnostico (GRD). Los GRD corresponden a un

sistema de clasificacion de pacientes, utilizados para medir la produccion hospitalaria

(Clınicas de Chile, 2021). Se obtienen a partir de la informacion que se registra en la

historia clınica de cada paciente y relacionan las caracterısticas clınicas de estos con el

uso de recursos (Clınicas de Chile, 2021). El sistema GRD agrupa a los pacientes que

egresan del establecimiento hospitalario, donde los grupos se conforman segun criterios

de coherencia clınica y consumo similar de recursos. Para los datos proporcionados, cada

uno de los GRD incluye informacion de descripcion, peso y codigo de prestacion asociada

a la hospitalizacion del paciente (ver Anexo A.1).

3.3. Episodio Indice y Readmision

Para identificar a los pacientes que tuvieron una readmision, fue necesario definir al-

gunas convenciones. Se conoce como episodio (ver Anexo A.1) al registro del paciente

en el sistema, cuya informacion es obtenida del cruce de las tablas disponibles en los

Anexos A.1, B.1, C.1 y D.1 asociadas al periodo de hospitalizacion. El criterio utilizado

para identificar la readmision se baso en la seleccion de pacientes que tuvieran referencias

a otros episodios en el hospital.

Se dispone de 31,187 pacientes registrados (ver Fig. 3.1). Aproximadamente un 17.7%

de los episodios registrados puede considerarse un reingreso, ya que referencia a un episo-

dio previo. El episodio al cual se hace referencia lo hemos denominado como episodio

8

Figura 3.1. Proporcion de episodios ındices por sexo

Figura 3.2. Pasos seguidos para la identificacion de registros consideradoscomo readmision a partir de los episodios ındices. El cuadro destacadoen rojo identifica dos posibles escenarios de reingreso. Para este estu-dio, solo seran considerados como readmision los epidosios de reingresomenor/igual a 30 dıas (cuadro azul)

9

ındice (ver Anexo A.1). El episodio de reingreso es considerado como episodio de read-

mision si ocurre en un perıodo menor o igual a 30 dıas despues que el correspondiente

episodio ındice (Ver Fig.3.2). En ocasiones, fue posible observar que algunos episodios

hacıan referencias a reingresos en la misma fecha, duplicando los registros. Este tipo de

comportamiento se debe a errores en los registros o por decisiones administrativas. Para

el analisis realizado, estos registros fueron eliminados.

3.4. Tipos de Readmision

La Tabla 3.1 presenta el top 10 de los GRD que tienen algun episodio ındice. Sumado

a esto, se presenta la cantidad de episodios ındice asociados a cada GRD; el porcentaje

respecto al total de casos y la cantidad de readmisiones ocurridas en un periodo menor

o igual a 30 dıas. Los procedimientos relacionados a PH Colecistectomıa Laparoscopica

(GRD Code: 71141) son las intervenciones y causas de hospitalizacion mas frecuentes

en el hospital clınico. Por otra parte, para los GRD asociados a enfermedades del tejido

conectivo u otras relacionadas a hospitalizaciones por cancer, es esperable observar que

los pacientes requieren ser hospitalizados frecuentemente por las caracterısticas de su

condicion. Mas aun, se observa que un 59.23% de los episodios ındices que gatillan una

potencial readmision provienen de GRD asociados a dichos diagnosticos.

3.5. Readmisiones posterior a parto

En este trabajo, hemos seleccionado un grupo de pacientes asociados a los GRD de

mujeres que han tenido sus partos en el hospital. Es de interes clınico analizar a estas pa-

cientes porque habitualmente son pacientes sanas por lo que la probabilidad de reingreso

debiese ser naturalmente baja. La Tabla 3.2 muestra la descripcion de las pacientes hospi-

talizadas asociadas a los ingresos de partos. Para efectos de este estudio se contabilizaron

1,866 episodios, de los cuales solo 32 corresponden a readmisiones. Esto conduce a que

10

Tabla 3.1. Top 10 de los GRD mas frecuentes

GRD Codigo Frecuencia Episodiono Indice

EpisodioIndice

30dıas

% Read-mision

71141 860 837 23 10 1.2 %146101 693 676 17 12 1.7 %61201 497 453 44 15 3.0 %

131201 487 457 30 6 1.2 %31151 458 443 15 6 1.3 %84161 439 179 260 63 14.4 %

146131 419 413 6 4 0.9 %61131 410 396 14 9 2.2 %81601 398 379 19 9 2.3 %

131301 388 356 32 9 2.3 %

(a) a (b) b

Figura 3.3. (a) Histrograma de la edad de las pacientes. (b) Histrogramade los dıas de hospitalizacion.

la tarea de prediccion de readmision sea particularmente difıcil, debido al alto desbalance

que presentan los datos.

En la Figura 3.3 es posible apreciar la distribucion de edades de las pacientes hospi-

talizadas, al igual que los dıas de hospitalizacion en el episodio ındice. De un total de 32

pacientes, un 87.5% tiene una estancia menor a 5 dıas de hospitalizacion en su episodio

11

Tabla 3.2. Frecuencia de diagnosticos asociados a partos

Diagnostico de parto Comorbilidades(media)

Dıashospitalizada

(media)

Total depa-

cientes

Total dereadmi-siones

% dereadmi-siones

PH CESAREA 4 3,7 648 10 1,5%

PH CESAREA W/CC 5,8 5,9 238 5 2,1%

PH CESAREA W/MCC 6,6 7,7 61 3 4,9%

PH PARTO VAGINAL 3,8 3 400 4 1,0%

PH PARTO VAGINAL CON ESTER-ILIZACION Y/O DILATACION YLEGRADO

3 2 1 0 0,0%

PH PARTO VAGINAL CON ESTER-ILIZACION Y/O DILATACION YLEGRADO W/MCC

5 1 1 0 0,0%

PH PARTO VAGINAL CONPROCED., EXCEPTO ESTERIL-IZACION Y/O DILATACION YLEGRADO

4,6 2,9 319 4 1,3%

PH PARTO VAGINAL CONPROCED., EXCEPTO ESTERIL-IZACION Y/O DILATACION YLEGRADO W/CC

6,5 3,2 97 4 4,1%

PH PARTO VAGINAL CONPROCED., EXCEPTO ESTERIL-IZACION Y/O DILATACION YLEGRADO W/MCC

8 9 21 0 0,0%

PH PARTO VAGINAL W/CC 6,6 3,4 60 2 3,3%

PH PARTO VAGINAL W/MCC 6,2 5,2 20 0 0,0%

Total 4,66 3,86 1866 32 1,7%

ındice. Acorde a la contraparte medica, estos tiempos de hospitalizacion resultan nor-

males cuando las pacientes no presentan mayores complicaciones y se ajustan al estandar

del Hospital.

El Anexo E.1 presenta algunas correlaciones de las variables numericas asociadas a los

episodios de partos. De la misma forma, es posible identificar dos grupos de partos im-

portantes: parto cesarea y parto vaginal. Para ambos casos se presenta la correlacion de

ambos grupos en el Anexo F.1.

12

4. METODO PROPUESTO

El metodo propuesto en este trabajo busca desarrollar un modelo predictivo para lidiar

con casos infrecuentes de readmision. El metodo consta de una serie de etapas que involu-

cran la recoleccion de datos, el procesamiento de datos, la construccion del modelo y la

evaluacion de este (vease la Figura 4.1).

Figura 4.1. Etapas seguidas para la recoleccion y tratamiento de los datos,la aplicacion del modelo y la evaluacion del mismo.

A continuacion, se procedera a describir cada etapa del metodo, ilustrando cada una

de ellas a traves de su aplicacion en el caso de estudio descrito en la seccion 3.

4.1. Recoleccion de Datos

En la etapa de recoleccion de datos se busca recolectar la informacion de los pacientes

registrada en los EHRs. Inicialmente se obtuvo datos de mas de 2.5 millones de registros

de hospitalizaciones, procedimientos clınicos, examenes realizados (sin sus resultados) y

consultas relacionados a hospitalizaciones ocurridas en el perıodo comprendido entre el

1 de enero de 2017 y el 30 de junio de 2018, obtenidos desde los EHR descritos en la

seccion 3.

4.2. Procesamiento de Datos

La etapa de procesamiento de datos busca transformar los datos recolectados en in-

formacion utilizable como input de un modelo predictivo. En nuestro metodo, la etapa

13

de Procesamiento de Datos contempla 4 subetapas que seran descritas a continuacion:

Extraccion y Consolidacion, Limpieza de Datos, Seleccion de Atributos y Manejo del

desbalance de datos.

4.2.0.1. Extraccion y consolidacion

Para disponer de los datos en un formato adecuado y ser empleados en los mode-

los, se procede a consolidar todo en una tabla, en donde cada registro esta asociado a

un unico episodio de hospitalizacion. Los atributos considerados corresponden a infor-

macion demografica del paciente, tipo de episodio clınico (hospitalizacion o readmision),

diagnosticos y prestaciones medicas recibidas durante la hospitalizacion.

Para lograr esto, se utiliza una clave conjunta entre el ID del paciente y el ID del episo-

dio de hospitalizacion, y se procede al cruce sobre las 4 tablas originalmente disponibles,

para consolidar todo en una unica tabla maestra. Esta tabla contiene el historial del pa-

ciente desde el primer evento del episodio hasta el final de su hospitalizacion.

4.2.0.2. Limpieza de Datos

La limpieza de datos es el acto de descubrimiento y correccion o eliminacion de reg-

istros de datos erroneos de una tabla o base de datos.

De los 2,000 registros de pacientes que tuvieron sus partos en el hospital, 134 cor-

responden a registros duplicados debido a que se repite el mismo ID de paciente, ID de

episodio, y diagnostico de hospitalizacion.

Tras eliminar estos registros, la cantidad de pacientes totales considerados desciende a

1,866, de las cuales 1,834 no presentan readmision, mientras que los casos con readmision

corresponden a 32.

14

Una serie de atributos han sido excluidos del analisis puesto que no aportan mayor

informacion al presentar problemas de calidad o consistencia. Ejemplos de estos atrib-

utos son: los relacionados al medico especialista que atiende a la paciente, detalles de

convenios de salud de la paciente, o codigos de registros administrativos. En estos reg-

istros se apreciaban campos nulos, informacion corrupta o simplemente no aportaban un

conocimiento claro respecto al paciente.

4.2.0.3. Seleccion de atributos

Los principales atributos extraıdos para el modelo corresponden a caracterısticas del

paciente como la edad y sus comorbilidades; mientras que entre los datos asociados a su

hospitalizacion, se selecciono la informacion relacionada a los diagnosticos principales,

el tiempo de estadıa durante el episodio ındice, tipo de episodio (admision ındice o read-

mision), y asistencia a consultas medicas posterior a ser dada de alta.

La Tabla 4.1 presenta la seleccion completa de atributos empleados en el caso de es-

tudio. Algunas de estas variables fueron modificadas para poder facilitar su uso en los

modelos predictivos. Ejemplo de esto fue lo realizado para considerar los procedimien-

tos y examenes realizados a la paciente durante su hospitalizacion. Los datos disponibles

presentaban un registro por cada examen o procedimiento que era aplicado a la paciente

(entiendase un registro como una nueva fila en una tabla por cada procedimiento real-

izado). Si bien no se dispone de los resultados de dichos procedimientos o examenes, si

resulta valioso comprender si la paciente fue sometida a alguno de estos. Se procedio a

crear una columna por cada opcion posible de procedimiento y examenes entre todos lo

realizados a las pacientes que se disponıa. Esto configura mas de 200 columnas con difer-

entes procedimientos o examenes que una paciente podrıa recibir y que fueron observados

en el perıodo de estudio. Luego, se creo una marca binaria para identificar si la paciente

habıa sido sometida o no al procedimiento o examen durante el correspondiente episodio

de hospitalizacion.

15

Existen otras tareas habituales que se pueden realizar sobre los atributos seleccionados,

por ejemplo, agrupar las admisiones que estan relacionados ya sea a partos vaginales o a

cesareas. Esto nos sirve para comprender como afecta algun tipo de parto en particular y

si, por ejemplo, las causas de readmision pudiesen estar relacionadas a alguna de estas dos

agrupaciones.

Los atributos restantes siguen un tratamiento de datos que permite normalizar vari-

ables numericas o crear categorıas para los posibles valores que pueda tomar algun atrib-

uto. Variables como la edad, la cantidad de diagnosticos secundarios o comorbilidades

y los dıas en hospitalizacion, al ser variables numericas, son normalizadas para que los

modelos predictivos puedan operar mejor con los valores de estas variables en un rango

definido (Singh & Singh, 2020). Por otro lado, atributos como el diagnostico principal,

los diagnosticos secundarios, la identificacion si la paciente asistio a alguna consulta, o

si su caso es considerado como una readmision, son tratadas como variables categoricas,

es decir, se crea una marca por cada categorıa que permite identificar cual es el valor que

toma la variable en un rango conocido de opciones.

16

Tabla 4.1. Atributos seleccionados para el modelo predictivo

Atributos seleccionados Descripcion

ID Paciente ID de la paciente

Edad Edad en anos

Diagnostico Principal Descripcion del diagnostico principal de hospital-

izacion

Diagnostico Secundario Descripcion de los diagnosticos secundarios o comor-

bilidades

Cantidad de Diagnosticos Se-

cundarios

Cantidad de comorbilidades asociadas a la estadıa de

la paciente

Dıas en Hospitalizacion Cantidad de dıas de la paciente en hospitalizacion

Peso del Diagnostico Valor que expresa el peso asociado al uso de sumin-

istros medicos en la hospitalizacion

Tipo de Parto Etiqueta para identificar un parto cesarea o vaginal

Consulta Medica Cantidad de las consultas medicas realizadas por la

paciente despues del primer alta

Mes de Hospitalizacion Mes donde la paciente fue hospitalizada

Readmision etiqueta que indica si el episodio asociado a la pa-

ciente es readmision o no

Procedimientos Lista de los procedimientos recibidos por la paciente

Examenes Lista de los examenes recibidos por la paciente

4.3. Manejo del desbalance de Datos

El aprendizaje de modelos que deben lidiar con set de datos desbalanceados es cono-

cido como una tarea difıcil (Batista et al., 2004). El desbalance de datos es la situacion en

que se presenta una clase que es minoritaria (por ejemplo, readmision) y una clase que es

mayoritaria (por ejemplo, no readmision). Los problemas de prediccion pertenecientes al

17

(a) Balanceado (b) Desbalanceado

Figura 4.2. Conjunto de datos balanceado (a) versus muchos casos nega-tivos frente a algunos casos positivos (b)

dominio de la salud frecuentemente estan sujetos a este comportamiento (Mena & Gon-

zalez, 2006)(Yin & Leong, 2010)(Bach, Werner, Zywiec, & Pluskiewicz, 2017). En la

informacion extraıda de los EHRs, los eventos de readmision no son tan frecuentes, lo que

se aprecia en la proporcion de readmisiones presente en la Tabla 3.1 para diferentes GRD.

Para comprender esta situacion, la Fig.4.2 representa un escenario en que se ilustra

el desbalance entre una clase positiva (+) que es minoritaria (por ejemplo, readmision) y

una clase negativa (-) que es mayoritaria (por ejemplo, no readmision). En algunos casos,

las clases de interes pueden presentar algunos grados de superposicion. Los modelos

presentan diversos problemas al lidiar con set de datos que posean estas caracterısticas,

por ejemplo, en los casos de superposicion los arboles de decision deben crear demasiadas

ramas para distinguir la clase minoritaria de la clase mayoritaria (Batista et al., 2004).

Los episodios de readmision asociados a partos representan un 1.7% del total, ilus-

trando que existe un alto desbalance en comparacion a los casos que no son readmision. A

modo de comparacion, las enfermedades asociadas al tejido conectivo, presentan rangos

en torno al 12%. Estas enfermedades tienen la caracterıstica de tener episodios ındices

sujetos a un tratamiento que involucra la necesidad de un reingreso posterior planificado.

Este no es el caso de las pacientes con partos, puesto que son pacientes sanas y no se

espera que sean readmitidas, lo que explica el bajo porcentaje.

18

Diferentes tecnicas han sido desarrolladas para lidiar con el desbalance (Batista et al.,

2004). En nuestro caso particular, se ha decidido lidiar con esta situacion mediante la

exploracion de tecnicas de under-sampling, que corresponde a considerar menos casos

de la clase mayoritaria, y tecnicas de over-sampling, que corresponde a generar muestras

sinteticas de la clase minoritaria. Para reforzar las tecnicas tradicionales con las que se

comparara los modelos propuestos en esta tesis, se empleara la tecnica Synthetic Minority

Over-sampling Technique (SMOTE), que corresponde a un algoritmo para generar nuevas

instancias. Los nuevos casos de readmision generados por SMOTE no son meras copias

de los casos minoritarios existentes, sino que el algoritmo toma muestras del espacio de

caracterısticas para cada clase objetivo y sus vecinos mas cercanos, y genera nuevos casos

sinteticos que combinan caracterısticas del caso objetivo con caracterısticas de sus vecinos.

(Chawla, Bowyer, Hall, & Kegelmeyer, 2002).

4.4. Construccion de Modelo Predictivo

En este estudio, se entrenaron y probaron dos modelos predictivos para las readmi-

siones hospitalarias. El primero basado en arboles de decision (Random Forest) y tecnicas

de under-sampling (Repeated Random Subsampling); el segundo basado en Support Vec-

tor Machines (Exemplar SVM). A continuacion, se describe los modelos empleados, las

tecnicas para lidiar con el desbalance y los detalles de la implementacion elegida.

4.4.0.1. Random Forest con Repeated Random Subsampling

Random Forest (RF) corresponde a un modelo predictivo basado en el ensamblaje de

un conjunto de arboles de decision. Un ensamblaje se conoce como la tecnica de usar

multiples algoritmos de aprendizaje (en este caso arboles de decision) para obtener un

mejor rendimiento de prediccion que el que se pudiese obtener con cada modelo de forma

independiente. Generalmente, se combinan multiples arboles de decision con la finalidad

de reducir la varianza en la prediccion a traves de la combinacion de los resultados de

cada arbol, proceso conocido como bagging (Buhlmann, 2012). Los modelos de RF son

19

Figura 4.3. Metodo Repeated Random Subsampling con Random Forest

practicos para lidiar con datos de multiples variables, debido a que pueden usar una gran

cantidad de arboles para construir el ensamblaje (Breiman, 2001).

Las razones mas importantes por las cuales se selecciona este tipo de modelos son: (1)

su efectividad estimando datos faltantes, (2) existen metodologıas para lidiar con el desbal-

ance de datos (e.g., weighted random forest), y (3) la capacidad de estimar la importancia

de las variables usadas en la prediccion (Khalilia, Chakraborty, & Popescu, 2011).

Para adaptar RF a conjuntos de datos desbalanceados, utilizamos el metodo de Re-

peated Random Subsampling (Khalilia et al., 2011). Este metodo fue desarrollado para

lidiar con el desbalance presente entre dos clases (por ejemplo, pacientes con readmision

y sin readmision) en un set de datos con una baja frecuencia de casos en ambas clases

(Khalilia et al., 2011). La Figura 4.3 describe los pasos que sigue el metodo (Khalilia et

al., 2011).

Primero, se divide el set de datos en instancias activas (pacientes con readmision) e

inactivas (pacientes sin readmision), a partir de las cuales se generan conjuntos de datos

de entrenamiento y testeo (Khalilia et al., 2011).

20

A continuacion, se separa una porcion de las instancias activas e inactivas como set de

testeo. El resto de los casos conforman el set de entrenamiento. En nuestro caso de estudio,

construimos un set de testeo aleatorio con 40 casos, donde 20% corresponde a casos de

readmision y 80% corresponde a casos de no readmision. El tamano y composicion del

set de testeo se determino por ensayo y error; debido a la baja frecuencia de los casos

de readmision, se busco tratar de dejar la mayor cantidad de casos posibles para el set de

entrenamiento.

4.4.0.2. Exemplar-SVMs

Support Vector Machines (SVM) corresponden a un algoritmo de aprendizaje super-

visado usado comunmente para tareas de clasificacion o regresion (Hearst, Dumais, Os-

una, Platt, & Scholkopf, 1998). Como se aprecia en la Figura 4.4, si consideramos un con-

junto de datos de entrenamiento donde cada uno pertenece a alguna categorıa, por ejem-

plo pacientes con readmision (clase positiva) o no readmision (clase negativa). Cada caso

(positivo o negativo) se representa por un punto en el espacio multidimensional definido

por las distintas variables de interes que lo caracteriza. Un modelo SVM busca determinar

un hiperplano en dicho espacio multidimensional tal que separa al espacio en dos: uno

en que estan contenidos todos los casos positivos y otro en que estan contenidos todos

los casos negativos. Ademas, dicho hiperplano maximiza la distancia (margen) entre los

vectores de soporte que representan a los casos positivos y a los casos negativos. El vector

de soporte de cada clase (positiva o negativa) esta definido por los casos de cada clase mas

cercanos al hiperplano.

El metodo de Exemplar-SVMs propuesto por Malisiewicz (Malisiewicz Tomasz, 2011)

corresponde a un ensamblaje que reune multiples modelos de clasificacion lineal basa-

dos en Support Vector Machines (SVM) (Hearst et al., 1998) que aprenden de un unico

caso positivo, llamado comunmente exemplar, y un conjunto de casos negativos. Este

metodo originalmente fue implementado para la deteccion de objetos en imagenes, sin

21

Figura 4.4. Support Vector Machine Categorico (SVM). La readmision depacientes corresponde a la clase positiva y las no readmisiones a la clasenegativa.

Figura 4.5. SVM Categorico vs Metodo Exemplar SVM.

embargo, en este trabajo lo hemos utilizado para la prediccion de readmision de pacientes.

La Figura 4.5 ilustra el metodo de Exemplars-SVMs aplicado a la readmision de pacientes.

El objetivo de utilizar este enfoque es obtener un modelo muy ajustado a cada caso de

readmision. Se basa en una idea muy simple: crear un modelo de prediccion para cada

caso de readmision (examplar). Cada uno de estos modelos puede predecir si un nuevo

caso se parece al caso de readmision particular con que fue entrenado. Cada modelo, al

22

ser entrenado con solo un caso de readmision y todos los casos de no readmision, es ca-

paz de discriminar que diferencia a un caso de readmision particular de todos los casos

de no readmision. En ese sentido, es muy preciso, pero solo para dicho caso particular

(overfit). Sin embargo, al considerar en su conjunto todos los modelos generados se ob-

tiene una buena generalizacion, aun cuando se tiene un pequeno conjunto de exemplars

(casos de readmision) (Malisiewicz Tomasz, 2011). Por otro lado, al disponer de pocos

casos, resulta menos costoso computacionalmente entrenar un modelo por cada caso de

readmision, ademas de permitir paralelizar el entrenamiento de los modelos.

Para tomar la decision final de prediccion, se procede a predecir un nuevo caso de

readmision en base a cada Exemplar-SVM entrenado. Particularmente, en nuestro caso

de estudio se decidio considerar que si al menos uno de los exemplars-SVM es capaz de

predecir la readmision, entonces se considerara como resultado final de la prediccion que

el paciente sı corresponde a un caso de readmision.

Un aspecto central de Exemplar-SVM es el manejo del extremo desbalance de clases

que cada elemento del ensamblaje enfrenta (1 readmision vs miles de no readmisiones).

Para controlar esto, en (Malisiewicz Tomasz, 2011) proponen utilizar constantes de reg-

ularizacion separadas para cada clase (C0 y C1), con C1 al menos 50 veces mayor que

C0.

4.5. Evaluacion del Modelo

Para evaluar el rendimiento de los modelos predictivos, usualmente se observan los re-

sultados organizados en la matriz de confusion (Stehman, 1997). Una matriz de confusion

corresponde a una herramienta de tabulacion de los casos correctamente predichos como

readmision (TP), los casos erroneamente predichos como readmision (FP), los casos que

no siendo readmision son predichos como tal (TN), y los casos que siendo readmision son

erroneamente predichos como casos que no lo son (FN).

23

PrediccionPositiva (Predicho

Readmision)

PrediccionNegativa

(Predicho NoReadmision)

Clase Positiva(Readmision Real)

VerdaderoPositivo (TP)

Falso Negativo(FN)

Clase Negativa (NoReadmision Real)

Falso Positivo(FP)

VerdaderoNegativo (TN)

Tabla 4.2. Matriz de confusion usada para la evaluacion del modelo dereadmisiones

Existe una variedad de metricas empleadas para evaluar el desempeno de un modelo

en base a los resultados de la matriz de confusion. Usualmente, para medir la calidad de

un modelo de prediccion se utilizan tres metricas: Exactitud, Precision y Sensibilidad. Sin

embargo, en este caso consideramos relevante utilizar otras metricas, tal como se explica

a continuacion. Primero se describiran las metricas ya senaladas, y luego las metricas

adicionales que consideramos pertinente utilizar:

4.5.0.1. Exactitud

La exactitud es una metrica que se utiliza para determinar la proporcion de episodios

(con o sin readmision) que son correctamente predichos. Su formula de calculo es:

Acc =TP + TN

TP + TN + FP + FN(4.1)

4.5.0.2. Precision

Precision es la relacion entre el numero de casos correctamente predichos como read-

mision sobre el total de casos predichos como readmision. Su formula de calculo es:

Pre =TP

TP + FP(4.2)

24

4.5.0.3. Especificidad

Especificidad es la relacion entre el numero de casos correctamente predichos como

no readmision sobre el total de casos que no son readmision. Su formula de calculo es:

Spe =TN

FP + TN(4.3)

4.5.0.4. Sensibilidad (Recall)

La exhaustividad es la relacion entre el numero de casos correctamente predichos

como readmision sobre el total de casos de readmision. Su formula de calculo es:

Sen =TP

TP + FN(4.4)

Nuestro objetivo es poder predecir correctamente que un paciente sera readmitido.

Esto se mide utilizando la Sensibilidad (la relacion entre el numero de casos correctamente

predichos como readmision sobre el total de casos de readmision), por lo que aspiramos

tener un modelo predictivo con una Sensibilidad alta. Sin embargo, no puede ser a ex-

pensas de tener muchos falsos positivos, i.e., pacientes que se prediga seran readmitidos

cuando al final no lo seran. Si quisieramos asegurar una sensibilidad alto, serıa facil decir

que todas las pacientes seran readmitidas, lo cual no es adecuado. Esto se mide utilizando

la tasa de falsos positivos.

4.5.0.5. Tasa de Falsos Positivos (FPR)

La tasa de falsos positivos es la relacion entre el numero de casos incorrectamente

predichos como readmision sobre el total de casos que no son considerados como read-

mision. Su formula de calculo es:

FPR =FP

FP + TN(4.5)

25

4.5.0.6. Likelihood Ratio

Una metrica que engloba estas ultimas dos metricas (Sensibilidad y tasa de falsos

positivos) es el Likelihood Ratio. En particular, nos interesa la version que calcula los

resultados positivos del test, conocido como LR+, ya que mide la razon entre la Sensibil-

idad y la tasa de falsos positivos. Si tenemos una Sensibilidad alta, pero al mismo tiempo

una tasa de falsos positivos alta, el LR+ sera bajo, indicando que el modelo de prediccion

no es tan bueno. Si, por el contrario, tenemos un recall alto y al mismo tiempo una tasa de

falsos positivos bajo, el LR+ sera alto, indicando que el modelo de prediccion es bueno.

La formula de calculo del LR+ es:

LR+ =TP/(TP + FN)

FP/(FP + TN)(4.6)

Que es equivalente a:

LR+ =Sen

1� Spe(4.7)

4.5.0.7. Probabilidad pre test y post test

El modelo de prediccion propuesto puede ser visto como un modelo o prueba para

pronosticar la probabilidad de readmision de una paciente. Al estimar las probabilidades

de tener una readmision antes y despues de la prueba, podemos observar si producto del

resultado obtenido por la aplicacion del modelo, aumenta la probabilidad de readmision.

Esto implicarıa que el modelo predictivo es capaz de incorporar informacion prove-

niente de las variables del paciente que son usadas en la prediccion de la readmision. En

otras palabras, si determinamos que una paciente sera readmitida, la prueba nos indica que

esa readmision podrıa ocurrir con mayor probabilidad en comparacion a la lınea base es-

tablecida por la probabilidad a priori, es decir, su probabilidad de readmision incrementa

en un cierto porcentaje producto del resultado positivo de la prueba.

En base a la probabilidad pre test y el LR+, es posible calcular la probabilidad post

test de la siguiente manera (Ebell, 2001):

26

pretest odds =probabilidad pretest

1� probabilidad pretest(4.8)

posttest odds = (pretest odds)⇥ LR+ (4.9)

probabilidad posttest =posttest odds

1 + posttest odds(4.10)

27

5. RESULTADOS

Los modelos predictivos fueron implementados a traves de librerıas de Machine Learn-

ing y procesamiento de datos disponibles en Python. En especifico, se emplearon las

librerıas de scikit-learn para los modelos, mientras que pandas y numpy para el proce-

samiento de datos. Los experimentos fueron realizados sobre un sistema OSX con Intel

Core i5 de 2 GHz y 8GB RAM.

5.1. Comparacion de los resultados de los modelos

Para evaluar los modelos y comparar sus resultados, se implementaron diferentes mod-

elos tradicionales: Random Subsampling, ESVM, k-Nearest Neighbors (KNN), Logistic

Regression, Naive Bayes, Decision Trees, SVM, y Random Forest.

Tras implementar cada modelo, se realizo una validacion cruzada consistente en 50

iteraciones sobre cada modelo para probar el efecto de la aleatoriedad de los algoritmos

de submuestreo. El resultado final corresponde al calculo final de las metricas presentadas

en la seccion 4.5 sobre la suma de los resultados obtenidos en cada iteracion. En cada

iteracion, se empleo un set de testeo aleatorio distinto con 40 casos, donde el 20% cor-

responde a casos de readmision y el 80% a casos que no son readmision. El tamano y

composicion del set de testeo se determino por ensayo y error; debido a la baja frecuencia

de los casos de readmision; se busco tratar de dejar la mayor cantidad de casos posibles

para el set de entrenamiento. En los experimentos realizados fue posible observar que el

set de testing afecta fuertemente el nivel de predictibilidad del modelo. Esto se explica en

parte por la similitud que existıa para algunos ejemplos entre ambas clases, y la limitada

cantidad de estos.

5.1.0.1. Resultados de Repeated Random Subsampling con Random Forest

Cada RF fue configurado empleando 500 arboles, un maximum depth tree de 8, y una

funcion de quality split gini. Las pruebas fueron realizadas utilizando la funcionalidad de

28

Figura 5.1. Resultados del Pre-test y Post-Test empleando Repeated Ran-dom Subsampling con Random Forest.

grid search provista por scikit-learn para la busqueda de los mejores parametros para cada

Random Forest. El set de testeo se separa solo una vez para ambas clases, como indica el

proceso original propuesto por (Khalilia et al., 2011).

Los resultados obtenidos tras aplicar el modelo de Repeated Random Subsampling

con Random Forest presentan una Sensitividad de 0.47, un FPR de 0.41 y un LR+ de

1.14. En la poblacion estudiada, solo el 1.7% de los casos son readmisiones. Por ende, la

probabilidad pre test de que una paciente vaya a ser readmitida es de 0.017. Que el modelo

obtenga un LR+ de 1.14 sobre el set de testeo, significa que, si el modelo predice que una

paciente va a ser readmitida, la probabilidad de que realmente lo sea se incrementa en un

12%, i.e. la probabilidad post test es de 0.019.

Para diferentes escenarios de probabilidad pre test, el AUC del modelo corresponde a

0.52. En la Figura 5.1 se aprecian distintos escenarios simulados de probabilidad de pre

test y su posterior probabilidad post test en base al LR+ obtenido.

29

5.1.0.2. Resultados de ESVM

Cada SVM fue configurado empleando un kernel lineal, una tolerancia de 1e�7 y un

maximo de 1000 iteraciones. El balance de la clase fue definido a traves del parametro

class weight y la configuracion del parametro de regularizacion C. Se configuro el parametro

class weight como C0 = 0.01 y C1 = 0.6 para todos los exemplars. Otro parametro que

resulta importante es la configuracion del parametro C, asociado a la penalizacion que re-

aliza el modelo. Se probaron distintos valores de C (1, 10, 100, 200, 500, 1000, 10000),

donde finalmente se utilizo un valor de 100. Se realizaron 50 iteraciones para probar

diferentes criterios de regularizacion (L1 o L2), presentando mejores resultados con L2.

Los resultados obtenidos tras aplicar el modelo de ESVM presentan una Sensitividad

de 0.44, un FPR de 0.24 y un LR+ de 1.82. En la poblacion estudiada, solo el 1.7% de

los casos son readmisiones. Por ende, la probabilidad pre test de que una paciente vaya a

ser readmitida es de 0.017.Que el modelo obtenga un LR+ de 1.82 sobre el set de testeo,

significa que, si el modelo predice que una paciente va a ser readmitida, la probabilidad de

que realmente lo sea se incrementa en un 80%, i.e. la probabilidad post test es de 0.031.

Para diferentes escenarios de probabilidad pre test, el AUC del modelo corresponde a

0.6. En la Figura 5.2 se aprecia distintos escenarios simulados de probabilidad pre test y

su posterior probabilidad post test en base al LR+ de 1.82.

5.1.0.3. Resultados de modelos de prediccion tradicionales

En este caso, debido al alto desbalance, se probo adoptar una tecnica de generacion

de datos sintetica SMOTE o modificar el class weight de los modelos de prediccion. Para

este experimento, se obtuvieron mejores resultados utilizando la estrategia de over sam-

pling SMOTE. De la misma forma, se optimizo el parametro de cada modelo utilizando la

funcionalidad de grid search de scikit-learn.

La Tabla 5.1 presenta los resultados obtenidos para las metricas propuestas en base

al promedio de 50 iteraciones realizadas para cada modelo considerando diferentes set de

30

Figura 5.2. Resultados del Pre-test y Post-Test empleando ESVM.

Tabla 5.1. Rendimiento de los modelos predictivos en el set de testeo

Modelo Precision Sensitividad (Recall) FPR LR+ AUCRSS RF 0.22 [0.20, 0.24] 0.47 [0.43, 0.51] 0.41 [0.39, 0.43] 1.14 [1.02, 1.26] 0.52

ESVM 0.31 [0.29, 0.35] 0.44 [0.40, 0.48] 0.24 [0.22, 0.26] 1.82 [1.51, 2.17] 0.60Random Forest + SMOTE 0.27 [0.23, 0.31] 0.22 [0.19, 0.25] 0.14 [0.12, 0.16] 1.49 [1.16, 1.82] 0.56

Logistic Regression + SMOTE 0.22 [0.16, 0.28] 0.09 [0.06, 0.12] 0.08 [0.07, 0.09] 1.13 [0.58, 1.68] 0.52KNN + SMOTE 0.18 [0.11, 0.19] 0.10 [0.07, 0.13] 0.11 [0.09, 0.13] 0.90 [0.51, 1.29] 0.48

Decision Tree + SMOTE 0.17 [0.10, 0.24] 0.02 [0.01, 0.03] 0.02 [0.01, 0.03] 0.80 [0.25, 1.35] 0.46SVM + SMOTE 0.16 [0.11, 0.21] 0.06 [0.04, 0.08] 0.07 [0.06, 0.08] 0.75 [0.25, 1.25] 0.45

Naive Bayes + SMOTE 0.14 [0.12, 0.16] 0.23 [0.19, 0.27] 0.37 [0.35, 0.39] 0.63 [0.54, 0.78] 0.42

entrenamiento y testeo; para cada metrica se muestra un intervalo de confianza (CI) del

95%.

5.2. Interpretacion

Para entender la relevancia que tienen las variables elegidas en el modelo ESVM de

prediccion de readmision, hemos utilizado Shapley Additive Explanations (SHAP), una

tecnica que provee estimaciones locales para estudiar la contribucion de las variables em-

pleadas en un modelo de prediccion (Molnar, 2019). La tecnica asigna una puntuacion

(conocida como SHAP Value) a cada una de las variables empleadas; entre mayor sea,

mas relevante es la contribucion de la variable en el modelo.

31

Se aplico la tecnica por separado para cada uno de los 24 exemplars entrenados.

La Figura 5.3 muestra las 20 variables identificadas como las de mayor impacto en la

prediccion para tres exemplars distintos. Las variables identificadas estan detalladas en el

Anexo G.1. En el Anexo H.1 se muestran graficos equivalentes para los 24 Exemplars que

componen el modelo de prediccion de readmision.

Se considera que las variables mas relevantes para el modelo de prediccion de read-

mision son aquellas que aparecen mas frecuentemente entre las 10 variables mas impor-

tantes para cada uno de los Examplars. La Tabla 5.2 muestra las 13 variables mas rele-

vantes, con frecuencias entre 11 y 6.

Aunque este estudio no incluyo el acceso a las notas clınicas, algunas de las 13 vari-

ables principales sugieren que el modelo esta identificando variables asociadas con la

hemorragia, una causa frecuente de morbilidad materna (recuento sanguıneo completo

o hemograma, hematocrito, recuento de plaquetas, reparacion del desgarro obstetrico) y

factores conocidos de morbilidad perinatal (edad, diabetes gestacional).

Figura 5.3. Impacto obtenido segun SHAP Values en las variables em-pleadas por el modelo. Se presenta el top 20 de las variables de 3 Exemplarsdistintos.

32

Tabla 5.2. Ranking de variables considerando la frecuencia con que apare-cen entre las 10 variables mas importantes para cada Exemplar.

Variable Frecuencia Descripcion

Var 47 11 Hemograma Y VHS

Var 90 10 Parto asistido especificado NCOP

Var 0 8 Edad

Var 77 7 Cesarea Cervical Baja

Var 45 7 Hematocrito

Var 59 6 Recuento de Plaquetas

Var 3 6 GRD Peso

Var 64 6 GRD PH Cesarea W/CC

Var 76 6 Reparacion de Otro Desgarro Obstetrico

Var 29 6 Parto Unico o Gemelar Vıa Vaginal

Var 63 6 GRD PH Cesarea

Var 12 6 R.P.R. Cualitativo/Cuantitativo

Var 78 6 Diabetes Mellitus Gestacional

5.3. Traduccion clınica de los resultados

Inicialmente, podrıa parecer que las metricas de precision obtenidas por el modelo en-

trenado no son lo suficientemente altas como para contribuir a los procesos de toma de

decisiones clınicas en relacion con la gestion del riesgo de readmision. Sin embargo, un

Likelihood Ratio de 1,82 significa que un paciente con una probabilidad previa de 0,1 de

ser readmitido, despues de que el modelo de prediccion prediga que podrıa ser readmitido,

la probabilidad posterior a la prueba se eleva a 0,168, un aumento del 68% en el riesgo

relativo de ser readmitido. Esto es comparable a los cocientes de probabilidad utilizados

33

en la toma de decisiones clınicas diarias, como el dolor abdominal en el cuadrante infe-

rior derecho y el diagnostico de apendicitis aguda, un signo clınico con un cociente de

probabilidad de entre 1,52 y 2,48.

34

6. DISCUSION, IMPLICACIONES Y LIMITACIONES

El desafıo de construir modelos de prediccion basados en Machine Learning en el

campo de la medicina ha sido un area que ha ido creciendo en la medida que se dispone

de mayor cantidad de datos. Muchos de estos datos requieren de un nivel de pre proce-

samiento profundo. Una vez definido el problema de estudio, se debe proceder a solu-

cionar problemas asociados a la calidad de los datos.

En Chile, no se ha realizado un estudio previo al trabajo de readmisiones hospitalarias

en el contexto de partos en un sistema de salud. El estudio realizado marca un precedente

en el uso de la informacion para comprender como una paciente tras ser dada de alta pueda

llegar a requerir ser readmitida en el centro hospitalario.

La situacion de las readmisiones ha sido abordada en diferentes estudios. En particular,

cuando los modelos cuentan con poca cantidad de muestras y con problemas de desbalance

entre las clases, la tarea es aun mas desafiante.

El metodo de Repeated Random Subsampling con Random Forest y de Exemplar SVM

resultan ser un buen approach al momento de lidiar con el desbalance de las clases. Ambos

modelos propuestos son capaces de obtener una mejor Sensitividad en comparacion con

otros modelos clasicos. Entre estos ultimos, con Random Forest con SMOTE fue posible

observar que dos metricas de interes, FPR y LR+, presentaban buenos resultados. Sin

embargo, este modelo no lograba conseguir una buena Sensitividad.

Entre los dos modelos propuestos, el metodo de ESVM presenta mejores resultados.

Con dicho modelo de prediccion, se obtuvo un LR+ de 1.82, con una Sensitividad de 0.44.

A su vez, el modelo de Repeated Random Subsampling con Random Forest, propuesto

originalmente por Khalilia et al (Khalilia et al., 2011), presenta una buena Sensitividad

(0.47), pero un bajo LR+ (1.14). El bajo LR se puede explicar debido a que el modelo

tiende a caer en mayor medida en falsos positivos, tal como es posible apreciar por el FPR

de 0.41 que obtuvo.

35

Tomando en cuenta los factores anteriormente mencionados, consideramos que el

metodo ESVM serıa recomendado para crear un modelo de prediccion para la readmision

de pacientes basado en datos, cuando se deba lidiar con un alto desbalance entre las clases

a predecir y pocos casos disponibles. Nuestro approach ha buscado implementar el ESVM

con el espıritu de explorar si la iniciativa de clasificacion de objetos en imagenes para la

cual fue disenado preliminarmente, era capaz de discriminar los casos de readmision (poco

frecuentes) entre los casos de no readmision (clase mayoritaria) con tal de predecir dicha

condicion.

Nuestro modelo propuesto presenta varias limitaciones. Primero, no disponemos de

los resultados de los procedimientos y examenes que se le realizan a la paciente. Esto

implica que desconocemos como su resultado puede afectar a la readmision, lo cual hu-

biera sido un atributo deseable. Por otra parte, las pruebas de validacion se ven altamente

afectadas al tener pocos casos de hospitalizaciones con los cuales testear. Si bien el de-

safıo principal fue lidiar con esta situacion, se reconoce la importancia de disponer de mas

casos para mejorar el rendimiento de los modelos y las metricas propuestas. Finalmente,

este estudio fue aplicado en un hospital particular; si se desea replicar estos resultados en

otros hospitales, hay que considerar como son almacenados los registros clınicos de los

pacientes en los otros hospitales, y abordar nuevos problemas asociados a la calidad de

datos que puedan tener.

36

7. CONCLUSIONES

En este estudio se propone un metodo para construir un modelo para predecir read-

misiones considerando una cantidad de datos reducida y un alto desbalance entre la clase

de interes (readmision) y la clase mayoritaria (no readmision), basado en tecnicas de Data

Analytics y Machine Learning.

El metodo se aplico para desarrollar un modelo para predecir readmision de pacientes

que tuvieron su parto, utilizando registros de datos historicos del hospital clınico UC-

CHRISTUS en Santiago de Chile.

El trabajo con datos provenientes de los registros electronicos de salud es una tarea

desafiante. La mayorıa de estos datos presenta problemas relacionados a la calidad de los

datos. Producto de estos problemas, la principal tarea inicial es el correcto depuramiento

de los datos antes de ser empleados como input para un modelo.

El problema del desbalance entre las clases de readmision y no readmision de este

conjunto de pacientes fue el principal desafıo para crear el modelo de prediccion. Se opto

por emplear una estrategia de submuestreo aleatorio basado en modelos de Random Forest

y un modelo basado en Support Vector Machines, conocido como Exemplar SVM.

Los resultados del metodo propuesto nos muestran que es posible elaborar un modelo

de prediccion basados en tecnicas de Machine Learning con el objetivo de predecir las

readmisiones hospitalarias. En particular, nuestros experimentos muestran que a traves

del modelo basado en Exemplar SVM se pueden obtener mejores resultados comparados

con tecnicas clasicas. La probabilidad post test de readmision aumenta en un 80% con

respecto a la probabilidad pre test. Esto implica un AUC del modelo basado en Exemplar

SVM de 0.6.

El modelo propuesto ofrece una oportunidad para mejorar la prediccion de readmi-

siones de pacientes que tengan sus partos en un hospital. Mas aun, dado que el problema

de readmisiones se presenta en otros tipos de condiciones clınicas, el metodo propuesto

37

ofrece una oportunidad para abordar condiciones similares que tengan caracterısticas de

desbalance y baja frecuencia de casos, incluso mas alla del area de la salud.

Como trabajo futuro, se desea aplicar este metodo en otros casos de readmision den-

tro de la misma red de salud, y posteriormente extender sus resultados a otros centros

hospitalarios, lo que nos permitirıa validarlo como un metodo general para la prediccion

de readmisiones. Idealmente, deseamos buscar otros diagnosticos que tengan una mayor

cantidad de variables disponibles que podrıan aprovechar el metodo propuesto.

Por otra parte, dado que el metodo de Repeated Random Subsampling implementado

es suficientemente general, se podrıa explorar su combinacion con modelos de clasifi-

cacion que resultaron ser altamente sensibles al desbalance de clases en evaluaciones pre-

liminares, como XGBoost, donde el sobreentrenamiento impidio que obtuviera resultados

competitivos.

38

REFERENCIAS

Adler-Milstein, J., Holmgren, A. J., Kralovec, P., Worzala, C., Searcy, T., & Patel, V.

(2017). Electronic health record adoption in US hospitals: The emergence of a digital

”advanced use” divide. Journal of the American Medical Informatics Association, 24(6),

1142–1148. doi: 10.1093/jamia/ocx080

Arias, M., Rojas, E., Aguirre, S., Cornejo, F., Munoz-Gama, J., Sepulveda, M., & Ca-

purro, D. (2020). Mapping the patient’s journey in healthcare through process mining.

International Journal of Environmental Research and Public Health, 17(18), 1–16. doi:

10.3390/ijerph17186586

Bach, M., Werner, A., Zywiec, J., & Pluskiewicz, W. (2017). The study of under-and

over-sampling methods’ utility in analysis of highly imbalanced data on osteoporosis. In-

formation Sciences, 384, 174–190.

Bailey, S. C., Fang, G., Annis, I. E., O’Conor, R., Paasche-Orlow, M. K., & Wolf, M. S.

(2015). Health literacy and 30-day hospital readmission after acute myocardial infarction.

BMJ Open, 5(6). Retrieved from https://bmjopen.bmj.com/content/5/6/

e006975 doi: 10.1136/bmjopen-2014-006975

Batista, G. E., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of sev-

eral methods for balancing machine learning training data. ACM SIGKDD explorations

newsletter, 6(1), 20–29.

Breiman, L. (2001). Random forests. Machine learning, 45(1), 5–32.

Buhlmann, P. (2012). Bagging, boosting and ensemble methods. In Handbook of compu-

tational statistics (pp. 985–1022). Springer.

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). Smote: synthetic

https://doi.org/10.1093/jamia/ocx080

https://doi.org/10.3390/ijerph17186586

https://bmjopen.bmj.com/content/5/6/e006975

https://bmjopen.bmj.com/content/5/6/e006975

https://doi.org/10.1136/bmjopen-2014-006975

39

minority over-sampling technique. Journal of artificial intelligence research, 16, 321–

357.

Cheney, J., Barber, S., Altamirano, L., Medico-Cirujano, Cheney, M., Williams, C., . . .

Wainwright, C. (2005). A clinical pathway for bronchiolitis is effective in reducing read-

mission rates. Journal of Pediatrics, 147(5), 622–626. doi: 10.1016/j.jpeds.2005.06.040

Clınicas de Chile. (2021, May). Clınicas de Chile A.G. Grupos Relacionados

de Diagnostico (GRD): Marco Teorico y Experiencias Practicas. https://www

.clinicasdechile.cl/.

Corrigan, J. M., & Martin, J. B. (1992). Identification of factors associated with hospital

readmission and development of a predictive model. Health services research, 27(1), 81.

Ebell, M. H. (2001). Evidence-based diagnosis: a handbook of clinical prediction rules.

Springer Science & Business Media.

Gatta, R., Vallati, M., Lenkowicz, J., Rojas, E., Damiani, A., Sacchi, L., . . . Valen-

tini, V. (2017). Generating and comparing knowledge graphs of medical processes us-

ing pMineR. Proceedings of the Knowledge Capture Conference, K-CAP 2017. doi:

10.1145/3148011.3154464

Hasan, O., Meltzer, D. O., Shaykevich, S. A., Bell, C. M., Kaboli, P. J., Auerbach, A. D.,

. . . Schnipper, J. L. (2010). Hospital readmission in general medicine patients: A predic-

tion model. Journal of General Internal Medicine, 25(3), 211–219. doi: 10.1007/s11606-

009-1196-1

Hassler, A. P., Menasalvas, E., Garcıa-Garcıa, F. J., Rodrıguez-Manas, L., & Holzinger,

A. (2019). Importance of medical data preprocessing in predictive modeling and risk

factor discovery for the frailty syndrome. BMC medical informatics and decision making,

19(1), 1–17.

https://doi.org/10.1016/j.jpeds.2005.06.040

https://www.clinicasdechile.cl/

https://www.clinicasdechile.cl/

https://doi.org/10.1145/3148011.3154464

https://doi.org/10.1007/s11606-009-1196-1

https://doi.org/10.1007/s11606-009-1196-1

40

Hearst, M., Dumais, S., Osuna, E., Platt, J., & Scholkopf, B. (1998). Support vec-

tor machines. IEEE Intelligent Systems and their Applications, 13(4), 18-28. doi:

10.1109/5254.708428

Hilbert, J. P., Zasadil, S., Keyser, D. J., & Peele, P. B. (2014). Using decision trees

to manage hospital readmission risk for acute myocardial infarction, heart failure, and

pneumonia. Applied health economics and health policy, 12(6), 573–585.

Kansagara, D., Englander, H., Salanitro, A., Kagen, D., Theobald, C., Freeman, M., &

Kripalani, S. (2011). Risk prediction models for hospital readmission: a systematic review.

Jama, 306(15), 1688–1698.

Khalilia, M., Chakraborty, S., & Popescu, M. (2011). Predicting disease risks from highly

imbalanced data using random forest. BMC Medical Informatics and Decision Making,

11(1). doi: 10.1186/1472-6947-11-51

Kotsiantis, S., Kanellopoulos, D., Pintelas, P., et al. (2006). Handling imbalanced datasets:

A review. GESTS International Transactions on Computer Science and Engineering,

30(1), 25–36.

Kristensen, S. R., Bech, M., & Quentin, W. (2015). A roadmap for comparing read-

mission policies with application to Denmark, England, Germany and the United States.

Health Policy, 119(3), 264–273. Retrieved from http://dx.doi.org/10.1016/

j.healthpol.2014.12.009 doi: 10.1016/j.healthpol.2014.12.009

Malisiewicz Tomasz. (2011). Ensemble of Exemplar-SVMs for Object Detection and

Beyond Tomasz. 2011 International Conference on Computer Vision.

Mans, R. S., van der Aalst, W. M. P., & Vanwersch, R. J. B. (2015). Process Mining

Operational Healthcare Evaluating and Exploiting in Healthcare Processes. Springer

International Publishing. doi: 10.1007/978-3-319-16071-9 6

https://doi.org/10.1109/5254.708428

https://doi.org/10.1186/1472-6947-11-51

http://dx.doi.org/10.1016/j.healthpol.2014.12.009

http://dx.doi.org/10.1016/j.healthpol.2014.12.009

https://doi.org/10.1016/j.healthpol.2014.12.009

https://doi.org/10.1007/978-3-319-16071-9_6

41

Mena, L. J., & Gonzalez, J. A. (2006). Machine learning for imbalanced datasets: Appli-

cation in medical diagnostic. In Flairs conference (pp. 574–579).

Molnar, C. (2019). Interpretable machine learning.

Press, V. G., Konetzka, R. T., & White, S. R. (2018). Insights about the economic impact

of copd readmissions post implementation of the hospital readmission reduction program.

Current opinion in pulmonary medicine, 24(2), 138.

Rogith, D. (2015). Process mining of medication revisions in electronic health records.

Rojas, E., Munoz-Gama, J., Sepulveda, M., & Capurro, D. (2016). Process mining

in healthcare: A literature review. Journal of Biomedical Informatics, 61, 224–236.

Retrieved from http://dx.doi.org/10.1016/j.jbi.2016.04.007 doi:

10.1016/j.jbi.2016.04.007

Singh, D., & Singh, B. (2020). Investigating the impact of data normalization on classifi-

cation performance. Applied Soft Computing, 97, 105524.

Stehman, S. V. (1997). Selecting and interpreting measures of thematic classification

accuracy. Remote sensing of Environment, 62(1), 77–89.

Turgeman, L., & May, J. H. (2016). A mixed-ensemble model for hospital readmis-

sion. Artificial Intelligence in Medicine, 72, 72-82. Retrieved from https://www

.sciencedirect.com/science/article/pii/S0933365716301622 doi:

https://doi.org/10.1016/j.artmed.2016.08.005

Veloso, R., Portela, F., Santos, M. F., Silva, A., Rua, F., Abelha, A., & Machado, J. (2014).

A clustering approach for predicting readmissions in intensive medicine. Procedia Tech-

nology, 16, 1307–1316.

Wadhera, R. K., Maddox, K. E., Kazi, D. S., Shen, C., & Yeh, R. W. (2019). Hospital

revisits within 30 days after discharge for medical conditions targeted by the Hospital

http://dx.doi.org/10.1016/j.jbi.2016.04.007

https://doi.org/10.1016/j.jbi.2016.04.007

https://www.sciencedirect.com/science/article/pii/S0933365716301622

https://www.sciencedirect.com/science/article/pii/S0933365716301622

https://doi.org/https://doi.org/10.1016/j.artmed.2016.08.005

42

Readmissions Reduction Program in the United States: National retrospective analysis.

The BMJ, 366. doi: 10.1136/bmj.l4563

Weiskopf, N. G., & Weng, C. (2013). Methods and dimensions of electronic health record

data quality assessment: Enabling reuse for clinical research. Journal of the American

Medical Informatics Association, 20(1), 144–151. doi: 10.1136/amiajnl-2011-000681

Yin, H.-L., & Leong, T.-Y. (2010). A model driven approach to imbalanced data sampling

in medical decision making. In Medinfo 2010 (pp. 856–860). IOS Press.

Zheng, B., Zhang, J., Yoon, S. W., Lam, S. S., Khasawneh, M., & Poranki, S. (2015).

Predictive modeling of hospital readmissions using metaheuristics and data mining. Expert

Systems with Applications, 42(20), 7110–7120.

https://doi.org/10.1136/bmj.l4563

https://doi.org/10.1136/amiajnl-2011-000681

43

ANEXO

44

A. DESTALLE DE DATOS DE LOS GRUPOS RELACIONADOS DE DIAGNOSTICO

Tabla A.1. Elementos de datos asociados a los Grupos Relacionados deDiagnostico

Elemento DescripcionEPISODIO ID del episodio de ingresoEPISODIO INDICE Referencia a un episodio previo de ingresoID PACIENTE ID del pacienteEDAD Edad en anosFECHA NACIMIENTO Fecha de nacimientoSEXO Indicador de sexoFECHA INGRESO Fecha de hospitalizacionFECHA ALTA Fecha del altaGRD CODIGO Codigo de GRDGRD DESCRIPCION GRD descripcionGRD PESO GRD pesoDIAG PRIN COD Codigo diagnostico principalDIAG PRIN DESCR Descripcion diagnostico principalDIAG SEC Diagnostico secundarioPROC PRIN COD Codigo del procedimiento principalPROC SEC COD Codigo del procedimiento secundarioPROC PRIN DESCR Descripcion del procedimiento principalEPISODIO INDICE FLAG Indicador de episodio ındice

45

B. DETALLE DE DATOS DE LOS PROCEDIMIENTOS

Tabla B.1. Elementos de datos asociados a Procedimientos

Elementos DescripcionFECHA CREACION Fecha de creacion del procedimientoID REGISTRO ID del registro de procedimientoCOD PROC Codigo del procedimientoDESC PROC Descripcion del procedimientoTIPO PROC Tipo de procedmiento (Procedimiento Medico, Im-

agenologıa, Procedimiento No Medico, Examenes Lab.,Cirugıa, Consulta)

GRUPO PROC Medical procedure groupID PACIENTE ID del pacienteESP MED Especialidad medicaHOSPITAL Centro HospitalarioFECHA PROC Fecha de la ejecucion del procedimientoMED ID ID del medico anonimizadoSEXO Indicador de sexo

46

C. DETALLE DE DATOS DE LAS URGENCIAS

Tabla C.1. Elementos de datos asociados a Urgencia

Elementos DescripcionFECHA CREACION Fecha de creacion del registro de urgenciaTRIAGE EP Color del triage asociado al episodioMD ESP Especialidad medicaCIUDAD Ciudad del pacienteID PACIENTE ID del pacienteID EPISODIO INDICE ID Episodio ındice (asociado a urgencias)UT DESC Descripcion del ultimo triageC5 Categorıa del diagnostico principalCIE-10 Codigo de diagnosticoUA DESC Descripcion de la ultima altaUA DEST Destino del ultimo altaNEP Numero de episodios previosFECHA INGRESO Fecha de ingresoFECHA UT Fecha del ultimo triageFECHA POM Fecha de primera observacion medicaSEXO Indicador de sexo

47

D. DETALLE DE DATOS DE LAS CONSULTAS

Tabla D.1. Elementos de datos asociados a Consultas Medicas

Elementos DescripcionID REGISTRO Registro de consultaFECHA RESERVA Fecha de reserva de consultaID MEDICO ID anonimizado del medicoEPISODIO ID del episodio de consultaCODIGO PROC Codigo del procedimientoID PACIENTE ID del pacienteSEXO Indicador de sexoFECHA NACIMIENTO Fecha de nacimientoDETALLE ATENCION Detalle de la atencion medicaTIPO CONS Tipo de consulta medicaESP MEDICA Especialidad medicaLOCALIZACION Centro Hospitalario

48

E. CORRELACIONES DE VARIABLES NUMERICAS ASOCIADAS A EPISO-

DIOS DE PARTOS

Figura E.1. Correlacion de variables numericas asociadas a episodios de partos.

49

F. CORRELACIONES DE VARIABLES NUMERICAS POR TIPO DE PARTO

Figura F.1. Correlacion de variables numericas por tipo de parto. Ennaranjo los casos bajo la descripcion de parto por cesarea. En celeste, bajola descripcion de parto vaginal. Las variables identificadas son: edad, can-tidad de diagnosticos secundarios, dıas en episodio ındice, dıas en perıodointermedio y dıas en reingreso.

50

G. VARIABLES EMPLEADAS PARA SHAP VALUES

Variables Nombre FrecuenciaVar 0 edad 12Var 47 HEMOGRAMA Y VHS 11Var 90 O83.8 10

Var 398 O32.1 10Var 402 O33.9 9Var 401 O20.8 9Var 400 Q27.0 9Var 399 Q51.3 9Var 397 L40.0 9Var 395 G90.9 8Var 394 O64.1 7Var 404 O44.1 7Var 403 R10.2 7Var 396 R00.1 7Var 45 HEMATOCRITO 7

Var 392 O82.1 7Var 77 pcp 74 7

Var 390 O66.4 7Var 393 O30.0 6Var 29 PARTO UNICO O GEMELAR VIA VAGINAL 6Var 3 grd peso 6Var 59 RECUENTO DE PLAQUETAS 6

Var 405 K90.0 6Var 76 pcp 75 6Var 78 O24.4 6Var 63 grd desc PH CESAREA 6Var 64 grd desc PH CESAREA W/CC 6Var 12 R.P.R. CUALITATIVO/CUANTITATIVO 6Var 25 PERFIL HEPATICO (PRUEBAS HEPATICAS) 5

Var 391 O45.9 5Var 388 O61.0 5Tabla G.1. Variables identificadas mediante los SHAP Values. La frecuen-cia indica cuantos exemplars reconocieron la variable dentro de su top 20.

51

H. FORCE PLOT SHAP VALUES

53

Figura H.1. Impacto promedio de las variables en base a los SHAP Valuesde cada Exemplar

PREDICCION DE READMISIONES´ HOSPITALARIAS …

Documents

Transcript of PREDICCION DE READMISIONES´ HOSPITALARIAS …