Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor...

9
Addisson Salazar, Univ. Politècnica de València 1 Instituto Telecomunicaciones y Aplicaciones Multimedia Procesado de señal y fusión de clasificadores: detección de fraude y otras aplicaciones 1 Universitat Politècnica de València 24062016 Dr. Addisson Salazar Instituto Telecomunicaciones y Aplicaciones Multimedia Contents Contents Background of the GTS NonDestructive Testing Surveillance Systems Biomedical Analysis Financial Analysis Pattern Recognition Approach Background of the GTS NonDestructive Testing Surveillance Systems Biomedical Analysis Financial Analysis Pattern Recognition Approach 2 Statement of the problem Available platforms: inFusion, Neurodyn Application General Outline Recent Themes in Signal Processing Examples of Applications Credit card fraud detection Microarousal detection, neuropsychological tests Statement of the problem Available platforms: inFusion, Neurodyn Application General Outline Recent Themes in Signal Processing Examples of Applications Credit card fraud detection Microarousal detection, neuropsychological tests Instituto Telecomunicaciones y Aplicaciones Multimedia Contents Contents Background of the GTS Background of the GTS 3 Instituto Telecomunicaciones y Aplicaciones Multimedia GTS Background GTS Background Applications : Material quality control, Biomedical diagnosis, Bank card fraud, Surveillance, Image processing, … R h bj t St ti ti li l i N Applications : Material quality control, Biomedical diagnosis, Bank card fraud, Surveillance, Image processing, … R h bj t St ti ti li l i N 4 Research subjects : Statistical signal processing, NonGaussian mixtures, Nonlinear processing, Dynamic modeling, Decision fusion, Machine learning, Signal processing on Graphs Research subjects : Statistical signal processing, NonGaussian mixtures, Nonlinear processing, Dynamic modeling, Decision fusion, Machine learning, Signal processing on Graphs Instituto Telecomunicaciones y Aplicaciones Multimedia GTS Non Destructive Testing GTS Non Destructive Testing Quality control of marble rocks (US, IE) Quality control of marble rocks (US, IE) 5 Chronological classification of archaeological ceramics (US) Chronological classification of archaeological ceramics (US) Instituto Telecomunicaciones y Aplicaciones Multimedia GTS Non Destructive Testing GTS Non Destructive Testing Material consolidation and thickness layer detection (US) Material consolidation and thickness layer detection (US) 6 (US) (US) Foreign body detection in food (US) Foreign body detection in food (US) Flaw detection and material characterization in historical walls (US, IE, GPR) Flaw detection and material characterization in historical walls (US, IE, GPR)

Transcript of Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor...

Page 1: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 1

Instituto Telecomunicaciones y Aplicaciones Multimedia

Procesado de señal y fusión de clasificadores: detección de fraude y 

otras aplicaciones

1

Universitat Politècnica de València

24‐06‐2016

Dr. Addisson Salazar

Instituto Telecomunicaciones y Aplicaciones Multimedia

ContentsContents

Background of the GTS

• Non‐Destructive Testing

• Surveillance Systems

• Biomedical Analysis

• Financial Analysis

Pattern Recognition Approach

Background of the GTS

• Non‐Destructive Testing

• Surveillance Systems

• Biomedical Analysis

• Financial Analysis

Pattern Recognition Approach

2

• Statement of the problem • Available platforms:  in‐Fusion, Neurodyn• Application General Outline

Recent Themes in Signal Processing

Examples of Applications

• Credit card fraud detection

• Microarousal detection, neuropsychological tests

• Statement of the problem • Available platforms:  in‐Fusion, Neurodyn• Application General Outline

Recent Themes in Signal Processing

Examples of Applications

• Credit card fraud detection

• Microarousal detection, neuropsychological tests

Instituto Telecomunicaciones y Aplicaciones Multimedia

ContentsContents

Background of the GTSBackground of the GTS

3

gg

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS BackgroundGTS Background

Applications: Material quality control, Biomedical diagnosis, Bank card fraud, Surveillance, Image processing, …

R h bj t St ti ti l i l i N

Applications: Material quality control, Biomedical diagnosis, Bank card fraud, Surveillance, Image processing, …

R h bj t St ti ti l i l i N

4

Research subjects: Statistical signal processing, Non‐Gaussian mixtures, Non‐linear processing, Dynamic modeling, Decision fusion, Machine learning, Signal processing on Graphs

Research subjects: Statistical signal processing, Non‐Gaussian mixtures, Non‐linear processing, Dynamic modeling, Decision fusion, Machine learning, Signal processing on Graphs

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS ‐ Non Destructive TestingGTS ‐ Non Destructive Testing

Quality control of marble rocks (US, I‐E) Quality control of marble rocks (US, I‐E)

5

Chronological classification of archaeological ceramics (US) Chronological classification of archaeological ceramics (US)

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS ‐ Non Destructive TestingGTS ‐ Non Destructive Testing

Material consolidation and thickness layer detection

(US)

Material consolidation and thickness layer detection

(US)

6

(US)(US)

Foreign body detection in food

(US)

Foreign body detection in food

(US)

Flaw detection and material characterization in historical walls

(US, I‐E, GPR)

Flaw detection and material characterization in historical walls

(US, I‐E, GPR)

Page 2: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 2

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS ‐ Surveillance SystemsGTS ‐ Surveillance Systems

Multimodal surveillance Multimodal surveillance Audio

Visible video Fusion?

Infrared video

7

Early forest fire detection Early forest fire detection Intrusion detection Intrusion detection

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS – Biomedical analysisGTS – Biomedical analysis

Apnea diagnosis

(EEG, EMG,

EOG)

Apnea diagnosis

(EEG, EMG,

EOG)

50 100 150 200 250 300 350 4001

1.5

2

50 100 150 200 250 300 350 4001

1.5

2

50 100 150 200 250 300 350 4001

1.5

2

SICAMM

ICAMM

Expert

x 104

Epoch number

8

Atrialfibrillation

(ECG) 

Atrialfibrillation

(ECG) 

0 0.5 1 1.5 2

x 107

-5

0

5

x 10

sin

us

rhyt

hm

time

0 0.5 1 1.5 2

x 107

-5

0

5x 10

4

atr

ial f

ibri

llatio

n

time

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS – Biomedical analysisGTS – Biomedical analysis

Cognitive structures,  Epilepsy, Alzheimer

(EEG, ECoG, 

fMRI, DTI)

Cognitive structures,  Epilepsy, Alzheimer

(EEG, ECoG, 

fMRI, DTI)

9

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS – Biomedical analysisGTS – Biomedical analysis

10

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS ‐WebminingGTS ‐Webmining

11

Processing

OrganizationUnderstanding

+ Sequential

+ Global

+ Active + Reflective

+ Inductive

+ Deductive

1

2

3

4

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS ‐WebminingGTS ‐Webmining

Agenda

Email

Forum Workgroupdocuments

?? ?

Exercises Contents

Chat

Access

51 4

INTERACTIV

ITY

AL ACTIV

ITY

2

12

? ?AchievementNews

3 PERSONAL

Page 3: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 3

Instituto Telecomunicaciones y Aplicaciones Multimedia

GTS ‐ Credit Card Fraud AnalysisGTS ‐ Credit Card Fraud Analysis

Fraud detection in bank cards operations

Fraud detection in bank cards operations

Operationd

?

13

¿Fraud?

record

R=

commerce

city

codes

identifyiers

amount

method

Instituto Telecomunicaciones y Aplicaciones Multimedia

0

0.5

1

0

0.5

1

0

10

20

30

KL

dis

tanc

e

Frauddetection

OLAP

2

3

GTS ‐ Credit Card Fraud AnalysisGTS ‐ Credit Card Fraud Analysis

14

11outliers

supervision

Modelestimation

1

Models Results

0 0.02 0.04 0.06 0.08 0.10.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

False Positive Rate

Tru

e P

osit

ive

Rat

e

Instituto Telecomunicaciones y Aplicaciones Multimedia

ContentsContents

Pattern Recognition ApproachPattern Recognition Approach

15

g ppg pp

Instituto Telecomunicaciones y Aplicaciones Multimedia

Problem statement from Pattern Recognition

Problem statement from Pattern Recognition

FeatureextractionFeatureextraction

ClassificationClassification ScoreScore

ApplicationApplication??

ss µµ

One method solving all

M l i l h d

One method solving all

M l i l h d

16

domaindomain ??

Knowledge about each category

Extreme case:

• Much and diverse information about a category

• A few information about the other category

Knowledge about each category

Extreme case:

• Much and diverse information about a category

• A few information about the other category

Sources

‐ Physical models

‐ Databases

Sources

‐ Physical models

‐ Databases

Multiple methods (collaborative working) Multiple methods 

(collaborative working)

Instituto Telecomunicaciones y Aplicaciones Multimedia

Architecture based onMultiple Classifiers

Architecture based onMultiple Classifiers

General classifiers

Specialized classifiers in different feature space zones (Mixture of 

experts)

Multiple classifiers performing in sequence

Specialized classifiers in each of the feature vector components

Multiple classifiers performing in different space‐time coordinates

General classifiers

Specialized classifiers in different feature space zones (Mixture of 

experts)

Multiple classifiers performing in sequence

Specialized classifiers in each of the feature vector components

Multiple classifiers performing in different space‐time coordinates

17

Multiple classifiers performing in different space time coordinates

Pool of competitive and collaborative weak classifiers (Boosting)

Multiple classifiers performing in different space time coordinates

Pool of competitive and collaborative weak classifiers (Boosting)

Schemes of training:

• Un‐supervised, semi‐supervised

• Different historical dataset versions

• Different localization dataset versions

Schemes of training:

• Un‐supervised, semi‐supervised

• Different historical dataset versions

• Different localization dataset versions

Instituto Telecomunicaciones y Aplicaciones Multimedia

Available platforms: in‐FusionAvailable platforms: in‐Fusion

FeatureextractionFeatureextraction

channel 1channel 1

channel nchannel n

...

...

filteringfiltering timetime frequencyfrequency statisticsstatistics

Pre‐processing

Pre‐processing

EarlyFusionEarlyFusion

cleaningcleaning augmentationaugmentation

indirectfeaturesindirectfeatures

splittingsplitting

rankingranking

functionfunction

dimensionreductiondimensionreduction

18

FusionFusion

Training /Testing ‐ 1Training /Testing ‐ 1

LateFusionLateFusion

Training /Testing ‐ nTraining /Testing ‐ n

......

FinalRepresentation

FinalRepresentation

Knowledge

Datamodeling

PDFestimation

Knowledge

Datamodeling

PDFestimation

PriorsPriors

GMMGMM ICAMMICAMM

parametric / non‐parametric

parametric / non‐parametric

Page 4: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 4

Instituto Telecomunicaciones y Aplicaciones Multimedia

Available platforms: NeurodynAvailable platforms: Neurodynchannel 1channel 1

channel nchannel n

...

...

FeatureextractionFeatureextraction

Pre‐processing

Pre‐processing

ss ss

EarlyFusionEarlyFusion

tt ,,ss

19

FinalRepresentation

FinalRepresentation

......Training /Testing ‐ 1Training /Testing ‐ 1

Training /Testing ‐ nTraining /Testing ‐ n

tt ,,ss

tt ,,ss

LateFusionLateFusion

tt ,,ss

UGSICAMMUGSICAMMSICAMMSICAMM

parametric / non‐parametric

parametric / non‐parametricPriorsPriors

temporal / Spatial codingtemporal / 

Spatial coding

Instituto Telecomunicaciones y Aplicaciones Multimedia

Application General OutlineApplication General Outline

in‐Fusionin‐Fusion

NeurodynNeurodyn

Newdevelopments

Newdevelopments

Adaptation &DevelopmentAdaptation &Development

PrototypePrototype

20

developmentsdevelopments

Objectives• To improve the detection capabilities of the system in use• To improve the predictive capabilities of the system in use• To provide results from single and fused methods• To provide several levels of spatial and temporal coding• To accomplish the required standards

Objectives• To improve the detection capabilities of the system in use• To improve the predictive capabilities of the system in use• To provide results from single and fused methods• To provide several levels of spatial and temporal coding• To accomplish the required standards

Instituto Telecomunicaciones y Aplicaciones Multimedia

ContentsContents

Recent Themes in Signal ProcessingRecent Themes in Signal Processing

21

g gg g

Instituto Telecomunicaciones y Aplicaciones Multimedia

ChallengesModels and optimization

Signal processing and learning for Big Data

Real time

Outliers, missing values

Massive scaleParallel, 

Descentralized

Time/data adaptive

Recent Themes in Signal ProcessingRecent Themes in Signal Processing

22

Tasks

Prediction, forecasting

Cleansing, imputation

Regression, classification, clustering

Dimensionality reduction

Cloud storage

Real‐time constraints

Succint, sparse

Robust

Instituto Telecomunicaciones y Aplicaciones Multimedia

denotes a low rank matrixxN TL xM TS sparse matrix

xN TY large‐scale data set can be defined as

Y L DS V

xN TV for modeling and measurement errors

xN MD dictionary

given

Possible DefinitionsPossible Definitions

Y L DS V

1, x 1,N T no nulls index pairs

P P Y L DS V

ExampleNetwork anomaly detection:  Y is traffic volume over N links and T slots;L is the nominal link‐level traffic; D is link x flow binary routing matrix;S is parse anomalous flow

,n t

23

Instituto Telecomunicaciones y Aplicaciones Multimedia

Feature Description

DataRepresentation Feedback

Feature Life CycleFeature Life Cycle

24

Feature Selection Feature Evaluation

Data Collection

FeedbackLearning

Page 5: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 5

Instituto Telecomunicaciones y Aplicaciones Multimedia

• Decentralized and parallel algorithms

• Splitting, sequential algorithms

• Online algorithms for streaming analytics

Large‐scale problems‐‐‐>

Algorithms

Algorithms and DataAlgorithms and Data

25

Low‐complexity, real‐time algorithms capable of processing massive data sets in a parallelizable and/or fully decentralized fashion

• Data sketching (subsampling)

• Big data tensors                               (parallel factor analysis)

• Non‐linear modeling via kernel functions (tensor completion problem)

Data

1r r r

r

a b c

Y

Instituto Telecomunicaciones y Aplicaciones Multimedia

Signal Processing on GraphsSignal Processing on Graphs

, 1...nv n N Graph: set of connected nodes

, nmn m aA Adjacency matrix

, 1...ns n N Signal on graph (each node       is assigned certain number     )nv ns

Periodic signal

Activation signal of brain centers

26

Signal on graph in semisupervisedscenario (5 of 8 nodes are of unknown class)

26

Instituto Telecomunicaciones y Aplicaciones Multimedia

Multi‐Classifier DecisionMulti‐Classifier Decision

27

Instituto Telecomunicaciones y Aplicaciones Multimedia

ContentsContents

Examples of ApplicationsExamples of Applications

28

p ppp pp

Instituto Telecomunicaciones y Aplicaciones Multimedia

Fraud detection – General Outline

...CLASIF

1CLASIF

1DETECTOR

1

CLASIF1

CLASIF1

DETECTORN

x

P1 PN

P

Pn= Pn[H1/x]

1-Pn= Pn[H0/x]

FUSION

>< u

H1

H0

(0,1)

ƒ(P/H1)

ƒ(P/H1) + ƒ(P/H0)P= P[H1/P] =

P

∫u

ƒ(P/H0)dp = PFA

29

Instituto Telecomunicaciones y Aplicaciones Multimedia

Fraud detection – Procedure Stages

Transactions

ConfirmedFrauds

Recordcrossing

Labelledtransactions

Dimensionalityreduction

Preprocessedtransactions

Direct featureextraction

Indirect featureextraction

Preprocessedtransactions

Recordselection

Trainingtransactions

Prototype fraudselection

Trainingtransactions

Testingtransactions

Fraud replicategeneration

30

Page 6: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 6

Instituto Telecomunicaciones y Aplicaciones Multimedia

Trainingclassifier 1

TestClassifier 1

Classifier -1 scores

Trainingclassifier 2

PC 1

Entry codeselection

PC 2Test

Classifier 2

Testingtransactions

1

Fraud detection – Procedure Stages

31

Trainingtransactions

classifier 2

Trainingclassifier 3

PC 3

Classifier 2

TestClassifier 3

Classifier -2 scores

Classifier -3 scores

Fusion

Fusionscores

Resultcalculation

1

Result tablesAnalysis graphs

Instituto Telecomunicaciones y Aplicaciones Multimedia

KPI Definition

VDRValue Detection Rate.The total fraud percentage saved by the system for a certain cutoff values of score

ADRAccount Detection Rate.The percentage of detected cards 

ADTAverage Detected Transaction. The mean amount of transactions required for detecting a fraudulent card

AFPR Account False to Positive Rate

Key Performance Indicators

True positives + False positives False positivesAFPR= =1+

True positives True positives

32

Instituto Telecomunicaciones y Aplicaciones Multimedia

Minimum Mean

score 

>= 

ADR 

(%) 

VDR 

(%)  ADT 

FPR 

(%) score 

>= 

ADR 

(%) 

VDR 

(%)  ADT 

FPR 

(%) 

0  100.00  100.00  1.0  100  0  100.00  100.00  1.0  100 

5  56.74  49.90  1.6  4  5  97.36  99.58  1.0  69 

10  54.84  48.39  1.7  4  10  95.75  99.47  1.0  59 

15  51.47  47.40  1.7  3  15  93.70  99.17  1.1  46 

20  48.53  46.63  1.8  3  20  92.96  99.04  1.1  35 

25  46.48  46.12  1.8  2  25  91.06  98.91  1.1  26 

30  45.01  44.65  1.8  2  30  88.42  98.05  1.1  20 

35 43.26 44.18 1.9 2 35 84.60 92.26 1.1 14

Example of normalized KPI tables 

35  43.26  44.18  1.9  35  84.60  92.26  1.1  4

40  40.62  43.44  2.0  1  40  80.65  90.39  1.2  13 

45  34.90  41.45  2.2  1  45  76.69  89.25  1.2  11 

50  33.58  40.75  2.1  1  50  72.29  87.88  1.2  9 

55  32.11  38.85  2.2  1  55  67.16  85.67  1.2  7 

60  26.69  37.67  2.4  .8  60  61.58  80.90  1.3  6 

65  23.02  35.03  2.4  .7  65  47.80  73.65  1.3  3 

70  21.41  32.53  2.6  .6  70  31.52  39.84  2.2  1 

75  20.38  31.82  2.2  .6  75  24.78  37.80  2.3  .8 

80  17.74  30.58  2.3  .5  80  22.43  34.34  2.5  .6 

85  15.84  27.06  2.6  .4  85  18.91  32.31  2.2  .5 

90  14.08  25.50  2.5  .3  90  15.84  29.49  2.5  .4 

95  10.70  22.22  2.8  .2  95  13.64  25.32  2.7  .2 

33

Instituto Telecomunicaciones y Aplicaciones Multimedia

0.6

0.8

1

siti

ve R

ate

LDA

0.5

0.6

0.7

0.8

siti

ve R

ate

ROC Curves for a Given Dataset 

0 0.2 0.4 0.6 0.8 10

0.2

0.4

False Positive Rate

Tru

e P

o LDAQDANGMFusion-MEANFusion-MEDIANFusion-MIN

0 0.02 0.04 0.06 0.08 0.10.1

0.2

0.3

0.4

False Positive Rate

Tru

e P

o

34

Instituto Telecomunicaciones y Aplicaciones Multimedia

0 50 100 150 200 250 300 350 400 450 500-1

0

1

0 50 100 150 200 250 300 350 400 450 500-2

0

2

0 50 100 150 200 250 300 350 400 450 500-0.5

0

0.5

0 50 100 150 200 250 300 350 400 450 500-0.5

0

0.5

0

0.5

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10

2000

4000

-6 -5 -4 -3 -2 -1 0 10

5000

10000

-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 30

5000

-1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60

5000

2000

4000

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.1

0.2

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.05

0.1

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.020.040.06

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.020.04

0

0.02

0.04

-20 -15 -10 -5 0 5 10 15 20-0.1

0

0.1

-20 -15 -10 -5 0 5 10 15 20-0.05

0

0.05

-20 -15 -10 -5 0 5 10 15 20-0.02

0

0.02

-20 -15 -10 -5 0 5 10 15 20-0.1

0

0.1

0

0.02

Surrogate data from legitimate operations  

0 50 100 150 200 250 300 350 400 450 500-0.5

0 50 100 150 200 250 300 350 400 450 500-0.5

0

0.5

0 50 100 150 200 250 300 350 400 450 500-0.5

0

0.5

0 50 100 150 200 250 300 350 400 450 500-0.5

0

0.5

-1 -0.5 0 0.50

-0.4 -0.2 0 0.2 0.4 0.6 0.8 10

5000

10000

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60

5000

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60

5000

10000

-10 -8 -6 -4 -2 0 2 4 6 8 10

0

-10 -8 -6 -4 -2 0 2 4 6 8 10

00.010.020.03

-10 -8 -6 -4 -2 0 2 4 6 8 10

00.010.02

-10 -8 -6 -4 -2 0 2 4 6 8 10

00.010.02

-20 -15 -10 -5 0 5 10 15 20-0.02

-20 -15 -10 -5 0 5 10 15 20-0.05

0

0.05

-20 -15 -10 -5 0 5 10 15 20-0.02

0

0.02

-20 -15 -10 -5 0 5 10 15 20-0.1

0

0.1

500 surrogate samples Histograms (real and surro)   Autocorrelation comparison Cross‐correlations

35

Instituto Telecomunicaciones y Aplicaciones Multimedia

Surrogate data from fraud operations  

0 50 100 150 200 250 300 350 400 450 500-0.2

0

0.2

0 50 100 150 200 250 300 350 400 450 500-2

0

2

0 50 100 150 200 250 300 350 400 450 500-0.5

0

0.5

0 50 100 150 200 250 300 350 400 450 500-1

0

1

1

-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.20

200

400

-6 -5 -4 -3 -2 -1 0 10

500

1000

-1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60

200

400

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60

100

200

400

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.10.2

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.050.1

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.05

0.1

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.020.040.06

-20 -15 -10 -5 0 5 10 15 20-0.05

0

0.05

-20 -15 -10 -5 0 5 10 15 20-0.02

0

0.02

-20 -15 -10 -5 0 5 10 15 20-0.05

0

0.05

-20 -15 -10 -5 0 5 10 15 20-0.05

0

0.05

002

500 surrogate samples Histograms (real and surro)   Autocorrelation comparison Cross‐correlations

0 50 100 150 200 250 300 350 400 450 500-1

0

1

0 50 100 150 200 250 300 350 400 450 500-1

0

1

0 50 100 150 200 250 300 350 400 450 500-1

0

1

0 50 100 150 200 250 300 350 400 450 500-1

0

1

-1.4 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.40

200

400

-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.80

200

400

-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.80

200

400

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60

100

200

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.020.04

-10 -8 -6 -4 -2 0 2 4 6 8 100

0.020.04

-10 -8 -6 -4 -2 0 2 4 6 8 10

0

0.02

0.04

-10 -8 -6 -4 -2 0 2 4 6 8 10

00.010.020.03

-20 -15 -10 -5 0 5 10 15 20-0.02

0

0.02

-20 -15 -10 -5 0 5 10 15 20-0.01

0

0.01

-20 -15 -10 -5 0 5 10 15 20-0.01

0

0.01

-20 -15 -10 -5 0 5 10 15 20-0.2

0

0.2

36

Page 7: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 7

Instituto Telecomunicaciones y Aplicaciones Multimedia

Surrogate joint distributions

-0.5 0 0.5

-0.6-0.4-0.2

00.20.4

-0.5 0 0.5

-0.6-0.4-0.2

00.20.4

-0.5 0 0.5

-0.4-0.2

00.2

-0.5 0 0.5

-0.4-0.2

00.2

-0.5 0 0.5

-0.4-0.2

0

0.2

-0.5 0 0.5

-0.4-0.2

0

0.2

-0.5 0 0.5

-0.2

0

0.2

-0.5 0 0.5

-0.2

0

0.2

-0.05 0 0.05

-0.2

0

0.2

-0.05 0 0.05

-0.2

0

0.2

-0.1 0 0.1

-0.2

0

0.2

0.4-0.1 0 0.1

-0.2

0

0.2

0.4

-0.1 -0.05 0 0.05

-0.4-0.2

00.2

-0.1 -0.05 0 0.05

-0.4-0.2

00.2

-0.1 0 0.1

-0.4

-0.2

0

0.2

-0.1 0 0.1

-0.4

-0.2

0

0.2

0 4 0 4 0 4 0 4

Comparison of Legitimate operation joint distribution Comparison of Fraud operation joint distribution

-0.5 0 0.5

-0.2

0

0.2

-0.5 0 0.5

-0.2

0

0.2

-0.5 0 0.5

-0.2-0.10

0.1

-0.5 0 0.5

-0.2-0.10

0.1

-0.5 0 0.5

-0.2-0.10

0.1

-0.5 0 0.5

-0.2-0.10

0.1

-0.4-0.2 0 0.2 0.4

0

1

2

-0.4 -0.2 0 0.2 0.4

0

1

2

-0.1 -0.05 0 0.05

-0.4-0.2

00.20.4

-0.1 -0.05 0 0.05

-0.4-0.2

00.20.4

-0.4 -0.2 0

-0.4-0.2

00.20.40.6

-0.4 -0.2 0

-0.4-0.2

00.20.40.6

-0.4 -0.2 0

-0.5

0

0.5-0.4 -0.2 0

-0.5

0

0.5-0.2 0 0.2

-0.2

0

0.2

-0.2 0 0.2

-0.2

0

0.2

37

Instituto Telecomunicaciones y Aplicaciones Multimedia

0 5

0.6

0.7

0.8

0.9

1

sitiv

e R

ate

Amount 

of 

surrogate 

data 

AUC calculated on the: 

Full ROC 

curves 

Zoom in 

the 

detection 

zone of 

interest 

0% 0 8708 0 0656

ROC curves: real and surrogates

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

False Positive Rate

Tru

e P

os

Real dataSurrogates 100%Surrogates 50%Surrogates 75%

0%  0.8708  0.0656 50%  0.8641  0.0640 75%  0.8563  0.0591 100%  0.8678  0.0589 

38

Instituto Telecomunicaciones y Aplicaciones Multimedia

0.4

0.5

0.6

0.7

itive

Rat

e

ROC curves in the zone of interest

0 0.02 0.04 0.06 0.08 0.10

0.1

0.2

0.3

False Positive Rate

Tru

e P

osi

Real dataSurrogates 100%Surrogates 50%Surrogates 75%

39

Instituto Telecomunicaciones y Aplicaciones Multimedia

Kind of feature Feature

Amplitude Average amplitude

Maximum amplitude

Average power

Spectral Centroid frequency

Maximum frequency

Spindles ratio

TSI

ASI

Statistical Skewness

Kurtosis

Apnea (microarousal detection)

Time reversibility

Third‐order self‐covariance 

40

Instituto Telecomunicaciones y Aplicaciones Multimedia

Apnea (SICAMM paremeters)

41

Instituto Telecomunicaciones y Aplicaciones Multimedia

Apnea (SICAMM paremeters)

42

Page 8: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 8

Instituto Telecomunicaciones y Aplicaciones Multimedia

EEGsignal

capture

TestVisual stimuli

Audio stimuli

Neuropsychological  Tests 

Signalprocessing

analysis

Time

43

Instituto Telecomunicaciones y Aplicaciones Multimedia

Me

mo

rize

Me

mo

rize

Re

spo

nse

Re

spo

nse

Re

spo

nse

F3

F1

AF3

AF7

Fp1

Neuropsychological  Tests 

Time (s)

33343536373839404142434445464748495051525354555657585960616263C3

C1

FC1

FC3

FC5

FT7

F7

F5

F3

44

Instituto Telecomunicaciones y Aplicaciones Multimedia

Neuropsychological  Tests 

0 20 40 60 80 100

True dataICAMM

SICAMMSICAM+BW

SICAMM+VIG-SICAMM

G-SICAMM+BWG-SICAMM+VI

BNTDBN

DBN2

0 200 400 600 800

TAVECSubject #5

Figural MemorySubject #4

a) Time from the start of the test (s) b) Time from the start of the test (s)

0 100 200 300 400

True dataICAMM

SICAMMSICAM+BW

SICAMM+VIG-SICAMM

G-SICAMM+BWG-SICAMM+VI

BNTDBN

DBN2

c) Time from the start of the test (s)0 200 400 600 800

d) Time from the start of the test (s)

Verbal Paired AssociatesSubject #5

TAVECSubject #6

45

Instituto Telecomunicaciones y Aplicaciones Multimedia

Neuropsychological  Tests 

46

Instituto Telecomunicaciones y Aplicaciones Multimedia

ContentsContents

ReferencesReferences

47

Instituto Telecomunicaciones y Aplicaciones Multimedia

ReferencesReferences

JCR Journals• Vergara L., Soriano A., Safont G., Salazar A., On the fusion of non‐independent detectors, Digital Signal Processing, vol. 50, pp. 24‐33, 2016.• Safont G., Salazar A., Vergara L., Probabilistic Distance for Mixtures of Independent Component Analyzers, submitted to IEEE Transactions on Neural Networks and Learning Systems, 2016.• Safont G., Salazar A., Vergara L., Gomez E., Villanueva V., Multichannel Dynamic Modeling of Non‐Gaussian Mixtures, submitted to IEEE Transactions on Neural Networks and Learning Systems, 2016.• Igual J, Salazar A., Safont A., Vergara L., Semi‐supervised Bayesian classification of materials with impact‐echo signals, Sensors, vol. 15 no. 5, pp. 11528‐11550, 2015.• Soriano A., Vergara L., Bouziane A., Salazar A., Fusion of Scores in a Detection Context Based on Alpha Integration, Neural Computation, vol. 27 no. 9, pp. 1983‐2010, 2015.g p pp• Safont G., Salazar A., Rodriguez A., Vergara L., New prediction methods based on Independent Component Analyzers Mixture Models, submitted to Signal Processing, 2015.• Safont G., Salazar A., Rodriguez A., Vergara L., On Recovering Missing GPR Traces by Statistical Interpolation Methods, Remote Sensing, 6, pp. 7546‐7565, 2014.• Rodriguez A., Salazar A., Vergara L., Analysis of split‐spectrum algorithms in an automatic detection framework, Signal Processing, vol. 92, pp. 2293–2307, 2012.• Llinares R., Igual J., Salazar A., Camacho A., Semi‐blind source extraction of atrial activity by combining statistical and spectral features, Digital Signal Processing, vol. 21 no. 2, pp. 391‐403, 2011.• Salazar A., Vergara L., Serrano A., Igual J., A General Procedure for Learning Mixtures of Independent Component Analyzers, Pattern Recognition, vol. 43 no. 1, pp. 69‐85, 2010.• Salazar A., Vergara L., Miralles R., On including sequential dependence in ICA mixture models, Signal Processing, vol. 90, pp. 2314‐2318, 2010.

48

Page 9: Univ. - URJC BB… · • Data sketching (subsampling) • Big data tensors (parallel factor analysis) • Non‐linear modeling via kernel functions (tensor completion problem) Data

Addisson Salazar, Univ. Politècnica de València 9

Instituto Telecomunicaciones y Aplicaciones Multimedia

ReferencesReferences• Salazar A., Vergara L., Llinares R., Learning Material Defect Patterns by Separating Mixtures of Independent Component Analyzers from NDT Sonic Signals, Mechanical Systems and Signal Processing, vol. 24 no. 6, pp. 1870‐1886, 2010.• Salazar A., Vergara L., ICA Mixtures Applied to Ultrasonic Non‐destructive Classification of Archaeological Ceramics, Journal on Advances in Signal Processing, vol. 2010, Article ID 125201, 11 pages, doi:10.1155/2010/125201, 2010.• Vergara L., Moragues J. Gosalbez J., Salazar A., Detection of signals of unknown duration by multiple energy detectors, Signal Processing, vol. 90, pp. 719‐726, 2010.

Books and Book Chapters

• Salazar A., On Statistical Pattern Recognition in Independent Component Analysis Mixture Modelling, Springer‐Verlag, Berlin, 2013.• Safont G., Salazar A., Rodriguez A., Vergara L., An Experimental Sensitivity Analysis of Gaussian and Non‐Gaussian based Methods for Dynamic Modeling in EEG Signal Processing, In Encyclopedia of Information Science and Technology, Third Edition, IGI Global, pp. 4028‐404, USA, 2014.• Salazar A., Vergara L., Perspectives on Pattern Recognition from ICA Mixture Modeling, in "Perspectives on Pattern Recognition", Nova Science Publishers, Inc., pp. 203‐223, USA, 2011.• Salazar A., Vergara L., Knowledge Discovery from E‐Learning Activities, in "Advances in E‐Learning: Experiences and Methodologies", IGI‐Global, pp. 173‐198, USA, 2008.

International Conferences• Salazar A., Igual J., Safont G., Vergara L., Vidal A., Image applications of agglomerative clustering using mixtures of non‐Gaussian distributions, CSCI 2015, Int. Conf. on Comp. Sci. Comp. Intell., pp. 459‐463, USA, 2015.

49

Instituto Telecomunicaciones y Aplicaciones Multimedia

ReferencesReferences• Salazar A., Igual J., Vergara L., Agglomerative Clustering of Defects in Ultrasonic Non‐destructive Testing using Hierarchical Mixtures of Independent Component Analyzers,  IEEE 2014 International Joint Conference on Neural Networks, IJCNN, pp. 2042‐2049, Beijing, China, 2014.• Salazar A., Safont G., Vergara L., Surrogate techniques for testing fraud detection algorithms in credit card operations, 48th IEEE International Carnahan Conference on Security Technology, IEEE ICCST, pp. 1‐6, Rome, Italy, 2014.• Safont G., Salazar A., Vergara L., Gomez E., Villanueva V., Mixtures of Independent Component Analyzers for Microarousal Detection, IEEE Second International Conference on Biomedical and Health Informatics (BHI 2014), pp. 752‐755, Valencia, Spain, 2014.  • Safont G., Salazar A., Vergara L., Vidal A., Gonzalez A., Assessment of historic structures based on GPR, ultrasound, and impact‐echo data fusion,  Key Engineering Materials, vol. 569‐570, pp. 1210‐1217, Dublin, 2013.

S i S f G S l O i h d d f f i f d d d• Soriano A., Vergara L., Safont G., Salazar A., On comparing hard and soft fusion of dependent detectors,  Proceedings ‐ IEEE Int. Works.on Mach.Learn. for Sig. Proc., MLSP 2012, art no. 6349792, pp. 1‐6, Santander, 2012.• Safont G., Salazar A., Vergara L., Gonzalez A., Vidal A., Mixtures of independent component analyzers for EEG prediction,  Communications in Computer and Information Science, vol. 338 CCIS, pp. 328‐335, 2012.• Salazar A., Safont G., Soriano A., Vergara L.,  Automatic Credit Card Fraud Detection based on Non‐linear Signal Processing, Proceedings ‐ International Carnahan Conference on Security Technology 2012, art no. 6393560, pp. 207‐212, Boston, USA, 2012.• Safont G., Salazar A., Soriano A., Vergara L., Combination of Multiple Detectors for EEG based Biometric Identification/Authentication, Proceedings ‐ International Carnahan Conference on Security Technology 2012, art no. 6393564, pp. 230‐236, Boston, USA, 2012.• Salazar A., Gosalbez J., Safont G., Vergara L., Data Fusion of Ultrasound and GPR Signals for Analysis of Historic Walls, Proceedings of International Simposium on Ultrasounds in the Control of Industrial Processes, UCIP 2012, IOP Conference Series: Materials Science and Engineering, Madrid, Spain, 2012.

50

Instituto Telecomunicaciones y Aplicaciones Multimedia

ThanksThanks

51

[email protected]

http://www.iteam.upv.es/group/gts.html