Teoría de redes y detección de fraude // Theory of networks and fraud detection

Teoría de redes y detección de fraude

2015.07.07! Massimiliano Zanin!

1. Redes complejas: ¿porqué?

Teoría de redes y detección de fraude!

2. Aplicación a fraude en tarjetas

3. Trabajos futuros

¿Que son las redes?!

Representación de la estructura creada por las interacciones de

un sistema complejo

Sistema complejo

Multiplicidad de elementos

Importancia de las interacciones entre ellos

Sistema complejo

Multiplicidad de elementos

Importancia de las interacciones entre ellos

Solo interacciones entre elementos

Ningún elemento innecesario

Red compleja

Métricas estructurales Describen cuantitativamente

la estructura

Solo interacciones entre elementos

Ningún elemento innecesario

Red compleja

Sistema complejo

Más detalle

Más belleza

Mapa del Greater Khorasan, por el geógrafo persa Ibrahim Al-Istakhri, 980 AC.

Departamento de manuscritos orientales, Bibliothèque National de France.

Redes genéticas

Red de contactos sexuales Redes financieras

Redes de transporte

¿Por que redes en seguridad?!

Las relaciones pueden ser más importantes que los

elementos individuales

Un ejemplo: InfoSec

Sistema normal

Un ejemplo: InfoSec

Ataque simple

Un ejemplo: InfoSec

Ataque coordinado

Detección de fraudes en tarjetas

Cantidad de la transacción

Tiempo desde la última transacción

Ubicación geográfica …

Ningún elemento es significativo por si solo

¿Como reconstruir redes?!

1. No hay conexiones físicas 2. Queremos detectar anomalías

Importancia de las relaciones entre elementos

e.g. colesterol y trigliceridos

En personas sanas, colesterol y trigliceridos suelen

estar correlacionados

Colesterol

Trig

licer

idos

Límites aceptables

Colesterol

Trig

licer

idos

Límites aceptables

Relación anormal i.e. alejada de la regresión esperada

Colesterol

Trig

licer

idos

Límites aceptables

Distancia esperada desde la regresión Distancia anormal

Tri.

Col.

Creamos un link cuando la relación es anormal

Tri.

Col.

Una red para cada persona Links representan relaciones anormales

Por lo tanto, la red representa la

condición del sujeto

Tri.

Col. Datos cuantitativos de la red

pueden ser utilizados para una tarea de clasificación

Los datos originales también tienen que ser incluídos

Resumiendo …

Transacciones con tarjetas!

¿Pueden las redes mejorar nuestra capacidad para detectar

transacciones fraudulentas?

Objetivos del proyecto

Validar las hipótesis: •  La información acerca de la legalidad de una transacción

está codificada en las relaciones entre elementos •  Las redes pueden ayudar a detectar transacciones

fraudulentas

Validación basada en datos reales Comparación con sistemas estándar de detección de fraude

Objetivos del proyecto

Comparación con sistemas estándar de detección de fraude Limitación:

Ninguna eurística incluída Solo análisis de datos basado en redes

Datos reales utilizados

Todas las transacciones con tarjetas de crédito / débito del BBVA, años 2011 y 2012. Volumen de datos:

3 M. tarjetas / mes 38 M. operaciones / mes 400k fraudes / mes

Datos iniciales

Creación de las redes (pesadas) Creación de

las redes (binarias) Extracción

de métricas Clasificación

Datos iniciales Features

Redes

Métricas estructurales

Clasificación

Comportamiento esperado

Parámetros del modelo

Aprendizaje

Preparación de los datos

Feature Tipo!

Cantidad de dinero Int Tiempo desde última transacción Int Cantidad de la última transacción Int Transacción media Float Tiempo medio entre operaciones Float Misma tienda Boolean Hora del día Int Ratio de fraudes (5k transacciones) Float

Grado máximo de los nodos Entropía de la distribución de grado Correlación entre grados de los nodos Coeficiente de Clustering Distancia geodésica media entre nodos Eficiencia Informa>on Content

Métricas topológicas consideradas

0

5

10

15

20

25

Cla

ssifi

catio

n er

ror (

%)

Classification algorithm

Bayes MLP DT KNN

Mejor resultado: MLP

Hay relaciones no

lineales entre las distintas features

Referencia

Link density

Clustering

Max degree

Eficiencia IC0

5

10

15

20

25

30

Err

or d

e cl

asifi

caci

ón (%

)Ninguna feature

puede ser descartada prima facie

19.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.262

42.061

38.67537.923

35.22637.2065

35.38735.558

32.55730.566

28.428

31.237

36.245

16.00915.01614.07813.73113.53913.43713.059512.363511.76211.55512.230512.45

0.1 0.2 0.3 0.4 0.5 0.6 0.70

10

20

30

40

50

Cla

ssifi

catio

n er

ror (

%)

Link density

Raw features Parenclitic All

Las redes aportan una visión distinta al problema, y permiten mejorar el resultado.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)

False Positive ratio (%)

Parenclitic networks Linx UPV

0.00 0.02 0.040.0

0.1

0.2

0.3

0.4

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)


Parenclitic networks Parenclitic only Raw features

0.00 0.02 0.040.0

0.1

0.2

0.3

0.4

All

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)


0.00 0.02 0.04 0.06 0.08 0.10

0.0

0.1

0.2

0.3

0.4

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)


Parenclitic networks Linx

0.00 0.02 0.040.0

0.1

0.2

0.3

0.4

Resumen de resultados

Resultados obtenidos: muy buenos, si consideramos que •  No se utiliza eurística •  No hemos ido refinando el modelo durante años!

Resultados positivos para bajos falsos positivos Mejor rendimiento para ciertos nichos de transacción: •  Riesgo de over-fitting y Paradoja de Simpson

Dos grupos de eventos

Cada uno está asociado a una relación positiva entre f1 y f2

Feature 1

Feat

ure

2 Paradoja de Simpson

Feature 1

Feat

ure

2

Una relación “falsa” aparece cuando los dos grupos son considerados a la vez

Dos grupos de eventos

Cada uno está asociado a una relación positiva entre f1 y f2

Paradoja de Simpson

C. R. Charig et al.!Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy

2 tratamientos:

A – Tratamiento invasivo cirurgico B - Percutaneous nephrolithotomy

2 grupos:

Piedras pequeñas Piedras grandes

Tratamiento A Tratamiento B

Piedras pequeñas 93%! 87%

Piedras grandes 73%! 69%

Total 78% 83%!



Tratamiento A Tratamiento B

Piedras pequeñas 81/87 234/270

Piedras grandes 192/263 55/80

Total 273/350 289/350

Coste computacional

Fase del cálculo! Tiempo!

Preparación de las features 7.0 ms. Creación de redes y análisis 3.8 ms. Clasificación 2.6 ms.

Proceso completo! 13.4 ms.!

Xeon E5335 2GHz, 1 core, 1.2GB RAM utilizada

Mirando al futuro!

¿Como podemos mejorar los resultados?

Después de la validación …

Implementar el algoritmo en un entorno operacional •  Retos técnicos de velocidad •  Integración con otros algoritmos

Identificación y explotación de nichos Inclusión de eurística y conocimiento experto

… volver al InfoSec

Falta de buenas bases de datos, con información sobre

la dinámica normal

… y al análisis del cerebro

Intra-subject Inter-subject0.0

0.3

0.6


0.3

0.6


0.3

0.6


0.3

0.6


0.3

0.6


0.3

0.6


0.3

0.6


0.3

0.6


0.3

0.6


0.3

0.6

Sub

ject

4S

ubje

ct 3

Sub

ject

2S

ubje

ct 1

Subject 4Subject 3Subject 2Subject 1Intra-subject Inter-subject

0.0

0.3

0.6


0.3

0.6

Identity assurance basada en el análisis de la

actividad cerebral

Bibliografía

Zanin, M. et al. (2014). Parenclitic networks: uncovering new functions in biological data. Scientific reports, 4.

Zanin, M., Sousa, P. A., & Menasalvas, E. (2014). Information content: Assessing meso-scale structures in complex networks. EPL, 106 (3), 30001.

Zanin, M., & Papo, D. (2014). Characterizing Motif Dynamics of Electric Brain Activity Using Symbolic Analysis. Entropy, 16 (11), 5654-5667.

Zanin, M. & Papo, D. Information systems as functional networks. In publication.

Zanin, M. & Papo, D. Identity assurance through EEG recordings. In publication.

Teoría de redes y detección de fraude // Theory of networks and fraud detection

Technology

Transcript of Teoría de redes y detección de fraude // Theory of networks and fraud detection