Applicazione di metodi statistici alla classificazione del traffico in reti dati

27
Applicazione di metodi statistici alla lassificazione del traffico in reti dat Alessandro Finamore Marco Mellia Fabio Neri Relatori:

description

Applicazione di metodi statistici alla classificazione del traffico in reti dati. Alessandro Finamore. Marco Mellia Fabio Neri. Relatori:. Il problema della classificazione. Traffico generico. Internet Service Provider. Qual è il protocollo della comunicazione ?. 1/17. - PowerPoint PPT Presentation

Transcript of Applicazione di metodi statistici alla classificazione del traffico in reti dati

Applicazione di metodi statistici allaclassificazione del traffico in reti dati

Alessandro Finamore

Marco MelliaFabio Neri

Relatori:

1/17

Il problema della classificazione

Traffico generico

Qual è il protocollo della comunicazione?

2/17

Il problema della classificazione

Porta:

Porta: 4662/4672

Porta:

Porta:

Payload: “bittorrent”

Payload: E4/E5

Payload:

Payload: protocollo RTP

Skype Bittorrent

Gtalk eMule

3/17

Classificazione statistica

Caratterizzazione statistica delle comunicazioni

Fase 1

Statistiche

Fase 3

Testing

Sviluppo del sistema di predizione

Analisi degli errori di classificazione

Fase 2

PredizioneTraffico noto

4/17

Classificazione statisticaFase 1

Statistiche

Fase 3

Testing

Fase 2

PredizioneTraffico noto

Caratterizzazione statistica delle comunicazioni Test2

5/17

Chunking e 2

Primi N bytePrimi N byte

C chunks da

b bits

21

2C[ ], … ,

Vettore di statistiche

Frequenze dei valori assunti dai chunk

Distribuzioneuniforme

Esempio di chunk di 4bit

6/17

random

Esempio di chunk di 4bit

6/17

random

deterministico

Esempio di chunk di 4bit

6/17

random

deterministico

mixed

Esempio di chunk di 4bit contatore

7/17

8/17

Classificazione statisticaFase 1

Statistiche

Fase 3

Testing

Fase 2

PredizioneTraffico noto

Caratterizzazione statistica delle comunicazioni

Sviluppo del sistema di predizione Test

Distanza geometrica tra punti in uno spazio

2

Classificazione geometrica

9/17

21

2C[ ], … ,

Iperspazio

Regioni di classificazione

Distanza Euclidea

Support VectorMachine

2i

2j

classe

classe

classenon nota

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Distanza Euclidea

10/17

2i

2j

Veri Neg.“lontani”

Veri Pos. “vicini”

Centroide media aritmetica

Distanza Euclidea

10/17

2i

2j

Falsi Positivi

Centroide media aritmetica

Ipersfera

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Ipersfera Falsi Negativi

Distanza Euclidea

10/17

2i

2j Centroide

media aritmetica

Ipersfera min { Falsi Pos. } min { Falsi Neg. }

Affidabilità distanza euclidea

Support Vector Machine

11/17

Spazio dei campioni(dim. D)

Kernel function

Spazio delle feature

(dim. ∞)

Kernel functions Clusterizzazione più

semplice

Support Vector Machine

11/17

Support vectors

Support vectors

Kernel functions Clusterizzazione più

semplice

Margine Massimizzazione Bordo di classificazione Support Vector LibSVM

Support Vector Machine

11/17

Kernel functions Clusterizzazione più

semplice

Margine Massimizzazione Bordo di classificazione Support Vector

Classificazione Distanza dal bordo

LibSVM

Probabilità

p ( classe )

12/17

Classificazione statistica

Caratterizzazione statistica delle comunicazioni

Fase 1

Statistiche

Fase 3

Testing

Sviluppo del sistema di predizione

Analisi degli errori di classificazione

Fase 2

PredizioneTraffico noto

Test

Distanza geometrica tra punti in uno spazio

2

Analisi dei Falsi Positivi e Falsi Negativi

13/17

Analisi delle tracce datiInternet

Fastweb

Training + Other Modello Traffico noto Falsi Negativi Traffico generico Falsi Positivi

Traccia

RTPeMuleDNS

Trafficonoto

other

Trafficogenerico

circa 1 giorno di cattura

20 GByte ditraffico UDP

14/17

Errori % per alcuni casi critici

Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19

Caso A Caso B0.01 0.083.99 0.11.39 2.36

Caso A Caso Bother 13.6 17.01

Distanza euclidea SVM

Caso A Caso B36.68 26.92

Le SVM descrivono bene la geometria delle nuvole … ma è difficile eliminare lo spazio non rappresentativo

Traf. noto(Falsi Neg.)

Traf. gen.(Falsi Pos.)

Introduzione di una classe complementare

15/17

Errori % per alcuni casi critici

Caso A Caso BRtp 0.08 0.23Edk 13.03 7.97Dns 6.57 19.19

Caso A Caso B0.01 0.083.99 0.11.39 2.36

Caso A Caso B- 0.050.98 0.540.12 2.14

Caso A Caso Bother 13.6 17.01

Distanza euclidea SVMSVM con classe complementare

Caso A Caso B36.68 26.92

Caso A Caso B- 0.18

16/17

Prestazioni

Il calcolo del può richiedere molta memoria

Effettuate solo analisi offline

Attraverso ottimizzazione mirate è possibile ottenere risultati anche online

Numero di bit per chunk Numero di chunk

2

La tempistica di predizione è lineare

Valutazione puntuale difficile

Numero di bit per chunk Numero di chunk Numero di protocolli Numero di Support Vector

17/17

Conclusioni

Il è un utile operatore di classificazione2

Le SVM danno risultati migliori ma richiedono l’uso di una classe complementare

Un semplice classificatore a distanza euclidea può essere efficace