Teoría de redes y detección de fraude // Theory of networks and fraud detection
-
Upload
centro-de-investigacion-para-la-gestion-tecnologica-del-riesgo-cigtr -
Category
Technology
-
view
428 -
download
0
Transcript of Teoría de redes y detección de fraude // Theory of networks and fraud detection
Teoría de redes y detección de fraude
2015.07.07! Massimiliano Zanin!
1. Redes complejas: ¿porqué?
Teoría de redes y detección de fraude!
2. Aplicación a fraude en tarjetas
3. Trabajos futuros
¿Que son las redes?!
Representación de la estructura creada por las interacciones de
un sistema complejo
Sistema complejo
Multiplicidad de elementos
Importancia de las interacciones entre ellos
Sistema complejo
Multiplicidad de elementos
Importancia de las interacciones entre ellos
Solo interacciones entre elementos
Ningún elemento innecesario
Red compleja
Métricas estructurales Describen cuantitativamente
la estructura
Solo interacciones entre elementos
Ningún elemento innecesario
Red compleja
Sistema complejo
Más detalle
Más belleza
Más detalle
Más belleza
Mapa del Greater Khorasan, por el geógrafo persa Ibrahim Al-Istakhri, 980 AC.
Departamento de manuscritos orientales, Bibliothèque National de France.
Redes genéticas
Red de contactos sexuales Redes financieras
Redes de transporte
¿Por que redes en seguridad?!
Las relaciones pueden ser más importantes que los
elementos individuales
Un ejemplo: InfoSec
Sistema normal
Un ejemplo: InfoSec
Ataque simple
Un ejemplo: InfoSec
Ataque coordinado
Un ejemplo: InfoSec
Ataque coordinado
Detección de fraudes en tarjetas
Cantidad de la transacción
Tiempo desde la última transacción
Ubicación geográfica …
Ningún elemento es significativo por si solo
¿Como reconstruir redes?!
1. No hay conexiones físicas 2. Queremos detectar anomalías
Importancia de las relaciones entre elementos
e.g. colesterol y trigliceridos
En personas sanas, colesterol y trigliceridos suelen
estar correlacionados
Colesterol
Trig
licer
idos
Límites aceptables
Colesterol
Trig
licer
idos
Límites aceptables
Relación anormal i.e. alejada de la regresión esperada
Colesterol
Trig
licer
idos
Límites aceptables
Distancia esperada desde la regresión Distancia anormal
Tri.
Col.
Creamos un link cuando la relación es anormal
Tri.
Col.
Una red para cada persona Links representan relaciones anormales
Por lo tanto, la red representa la
condición del sujeto
Tri.
Col. Datos cuantitativos de la red
pueden ser utilizados para una tarea de clasificación
Los datos originales también tienen que ser incluídos
Resumiendo …
Resumiendo …
Transacciones con tarjetas!
¿Pueden las redes mejorar nuestra capacidad para detectar
transacciones fraudulentas?
Objetivos del proyecto
Validar las hipótesis: • La información acerca de la legalidad de una transacción
está codificada en las relaciones entre elementos • Las redes pueden ayudar a detectar transacciones
fraudulentas
Validación basada en datos reales Comparación con sistemas estándar de detección de fraude
Objetivos del proyecto
Comparación con sistemas estándar de detección de fraude Limitación:
Ninguna eurística incluída Solo análisis de datos basado en redes
Datos reales utilizados
Todas las transacciones con tarjetas de crédito / débito del BBVA, años 2011 y 2012. Volumen de datos:
3 M. tarjetas / mes 38 M. operaciones / mes 400k fraudes / mes
Datos iniciales
Creación de las redes (pesadas) Creación de
las redes (binarias) Extracción
de métricas Clasificación
Datos iniciales Features
Redes
Métricas estructurales
Clasificación
Comportamiento esperado
Parámetros del modelo
Aprendizaje
Preparación de los datos
Feature Tipo!
Cantidad de dinero Int Tiempo desde última transacción Int Cantidad de la última transacción Int Transacción media Float Tiempo medio entre operaciones Float Misma tienda Boolean Hora del día Int Ratio de fraudes (5k transacciones) Float
Grado máximo de los nodos Entropía de la distribución de grado Correlación entre grados de los nodos Coeficiente de Clustering Distancia geodésica media entre nodos Eficiencia Informa>on Content
Métricas topológicas consideradas
0
5
10
15
20
25
Cla
ssifi
catio
n er
ror (
%)
Classification algorithm
Bayes MLP DT KNN
Mejor resultado: MLP
Hay relaciones no
lineales entre las distintas features
Referencia
Link density
Clustering
Max degree
Eficiencia IC0
5
10
15
20
25
30
Err
or d
e cl
asifi
caci
ón (%
)Ninguna feature
puede ser descartada prima facie
19.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.262
42.061
38.67537.923
35.22637.2065
35.38735.558
32.55730.566
28.428
31.237
36.245
16.00915.01614.07813.73113.53913.43713.059512.363511.76211.55512.230512.45
0.1 0.2 0.3 0.4 0.5 0.6 0.70
10
20
30
40
50
Cla
ssifi
catio
n er
ror (
%)
Link density
Raw features Parenclitic All
Las redes aportan una visión distinta al problema, y permiten mejorar el resultado.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
True
Pos
itive
ratio
(%)
False Positive ratio (%)
Parenclitic networks Linx UPV
0.00 0.02 0.040.0
0.1
0.2
0.3
0.4
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
True
Pos
itive
ratio
(%)
False Positive ratio (%)
Parenclitic networks Parenclitic only Raw features
0.00 0.02 0.040.0
0.1
0.2
0.3
0.4
All
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
True
Pos
itive
ratio
(%)
False Positive ratio (%)
0.00 0.02 0.04 0.06 0.08 0.10
0.0
0.1
0.2
0.3
0.4
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
True
Pos
itive
ratio
(%)
False Positive ratio (%)
Parenclitic networks Linx
0.00 0.02 0.040.0
0.1
0.2
0.3
0.4
Resumen de resultados
Resultados obtenidos: muy buenos, si consideramos que • No se utiliza eurística • No hemos ido refinando el modelo durante años!
Resultados positivos para bajos falsos positivos Mejor rendimiento para ciertos nichos de transacción: • Riesgo de over-fitting y Paradoja de Simpson
Dos grupos de eventos
Cada uno está asociado a una relación positiva entre f1 y f2
Feature 1
Feat
ure
2 Paradoja de Simpson
Feature 1
Feat
ure
2
Una relación “falsa” aparece cuando los dos grupos son considerados a la vez
Dos grupos de eventos
Cada uno está asociado a una relación positiva entre f1 y f2
Paradoja de Simpson
C. R. Charig et al.!Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy
2 tratamientos:
A – Tratamiento invasivo cirurgico B - Percutaneous nephrolithotomy
2 grupos:
Piedras pequeñas Piedras grandes
Tratamiento A Tratamiento B
Piedras pequeñas 93%! 87%
Piedras grandes 73%! 69%
Total 78% 83%!
C. R. Charig et al.!Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy
C. R. Charig et al.!Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy
Tratamiento A Tratamiento B
Piedras pequeñas 81/87 234/270
Piedras grandes 192/263 55/80
Total 273/350 289/350
Coste computacional
Fase del cálculo! Tiempo!
Preparación de las features 7.0 ms. Creación de redes y análisis 3.8 ms. Clasificación 2.6 ms.
Proceso completo! 13.4 ms.!
Xeon E5335 2GHz, 1 core, 1.2GB RAM utilizada
Mirando al futuro!
¿Como podemos mejorar los resultados?
Después de la validación …
Implementar el algoritmo en un entorno operacional • Retos técnicos de velocidad • Integración con otros algoritmos
Identificación y explotación de nichos Inclusión de eurística y conocimiento experto
… volver al InfoSec
Falta de buenas bases de datos, con información sobre
la dinámica normal
… y al análisis del cerebro
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Sub
ject
4S
ubje
ct 3
Sub
ject
2S
ubje
ct 1
Subject 4Subject 3Subject 2Subject 1Intra-subject Inter-subject
0.0
0.3
0.6
Intra-subject Inter-subject0.0
0.3
0.6
Identity assurance basada en el análisis de la
actividad cerebral
Bibliografía
Zanin, M. et al. (2014). Parenclitic networks: uncovering new functions in biological data. Scientific reports, 4.
Zanin, M., Sousa, P. A., & Menasalvas, E. (2014). Information content: Assessing meso-scale structures in complex networks. EPL, 106 (3), 30001.
Zanin, M., & Papo, D. (2014). Characterizing Motif Dynamics of Electric Brain Activity Using Symbolic Analysis. Entropy, 16 (11), 5654-5667.
Zanin, M. & Papo, D. Information systems as functional networks. In publication.
Zanin, M. & Papo, D. Identity assurance through EEG recordings. In publication.