Michele Michelotto - Padova spam, spam, bacon and spam (convivere con lo spam) Castiadas - Maggio...

download Michele Michelotto - Padova spam, spam, bacon and spam (convivere con lo spam) Castiadas - Maggio 2004 Michele Michelotto, Fulvia Costa

of 72

  • date post

    02-May-2015
  • Category

    Documents

  • view

    214
  • download

    1

Embed Size (px)

Transcript of Michele Michelotto - Padova spam, spam, bacon and spam (convivere con lo spam) Castiadas - Maggio...

  • Slide 1
  • Michele Michelotto - Padova spam, spam, bacon and spam (convivere con lo spam) Castiadas - Maggio 2004 Michele Michelotto, Fulvia Costa
  • Slide 2
  • Michele Michelotto - Padova Indice Definizione del problema Come lo combattiamo a Padova Effetti dei filtri bayesiani Altre tecniche da provare Risultati del questionario
  • Slide 3
  • Michele Michelotto - Padova Definizioni spam: I mail che gli utenti non sono interessati a ricevere UCE: Unsolicited Commercial Email UBE: Unsolicited Bulk Email ham: I mail buoni (nel senso non spam) Falsi Positivi. Mail di tipo ham che vengono identificati come spam Falsi Negativi. Spam che non viene identificato dallanti-spam e che quindi si mescola ai mail buoni.
  • Slide 4
  • Michele Michelotto - Padova SPAM Spiced Pork Ham. Carne in scatola dei soldati americani nel dopo guerra Monty Python
  • Slide 5
  • Michele Michelotto - Padova SPAM
  • Slide 6
  • Michele Michelotto - Padova Problema Tipico problema di separazione Segnale Rumore (S/N) Gli utenti sanno distinguere benissimo lo spam dallham Tuttavia questo task costa tempo e frustrazione agli utenti I programmi che trattano la posta devono aiutare gli utenti a gestire in modo automatico la maggior parte dello spam
  • Slide 7
  • Michele Michelotto - Padova Dimensioni problema La quantit di spam ricevuti dipende dalla anzianit dellindirizzo su internet e dalla diffusione dellindirizzo (su siti web, su usenet news) Si stima che nel 2004 gli spam abbiamo superato la posta buona. Trend in aumento si prevede il 70% nel 2007 Grosse istituzioni pi colpite
  • Slide 8
  • Michele Michelotto - Padova Impatto dello spam Osterman Research inc. Tempo speso dallutente Protetto 80 minuti ogni 1000 email (2.4 giorni/anno) Non protetto 200 minuti/100 email (6.1 giorni/anno) 46% di utenti hanno perso o non notato un mail buono a causa dello spam 21% di utenti non sa se questo gli successo Gestione falsi positivi Impatto sui sistemisti 8.7 persone/ora ogni settimana per ogni mille mail per gestire lo spam oppure 1 FTE ogni 4600 utenti. Da 0 ore/settimana in su, per chi non lo gestisce (e molte lamentele)
  • Slide 9
  • Michele Michelotto - Padova
  • Slide 10
  • MUA o MTA? Lotta a livello di client + ottimi risultati + ogni utente ha un filtro personalizzato - non va bene quando lutente usa client diversi - usano solo sistemi statistici o euristici - molti utenti chiedono semplicemente di non ricevere gli spam
  • Slide 11
  • Michele Michelotto - Padova Server side Lotta a livello di server + Si possono usare altri metodi + Una sola persona esperta combatte lo spam a vantaggio di tutti - Quello che sembra spam ad uno invece interessa ad un altro - Difficile da personalizzare
  • Slide 12
  • Michele Michelotto - Padova Come gestire lo spam I server mail devono consegnare la posta elettronica quando lhanno ricevuta (per correttezza verso il mittente ma ci dovrebbe anche essere un obbligo di legge) Forse non siamo obbligati ad accettare connessioni mail da siti scorretti Si possono modificare i mail aiutando gli utenti a capire se un mail contiene spam o virus ma il mail va comunque consegnato Gli utenti vanno aiutati nella preparazione di filtri per separare lo spam
  • Slide 13
  • Michele Michelotto - Padova Spam Assassin Tool molto usato nei servizi calcolo INFN Ogni mail viene confrontato con un insieme di regole e ogni regola aggiunge un punteggio di spammosit al mail Quando si raggiunge il punteggio di 5 il mail viene taggato come spam [FORSE-SPAM-N.mmm] Aggiungere nuove regole comporta il ribilanciamento del peso di quasi tutte le altre regole per evitare falsi positivi. Questo richiede un controllo di massa su un insieme enorme di mail e impedisce laggiornamento giornaliero delle signatures come nel caso degli antivirus (ci vogliono settimane)
  • Slide 14
  • Michele Michelotto - Padova Lutente vede di solito solo il subject In fondo al mail in attachment la spiegazione di cosa abbiamo fatto al mail e il dettaglio di come siamo arrivati al punteggio
  • Slide 15
  • Michele Michelotto - Padova Feedback degli utenti In seguito allannuncio dellinstallazione di SA: La maggior parte molto soddisfatti Alcuni non riuscivano a fare il filtro per mettere i mail in un folder separato o nel cestino Alcuni usavano programmi client side e quindi vedevano migliori prestazioni dal momento che sono personalizzati e istruibili Alcuni utenti si fidano troppo e cancellano tutti i mail che sono segnalati come spam
  • Slide 16
  • Michele Michelotto - Padova Come migliorare? Con il passare del tempo gli spam aumentano in numero e in cattiveria. Abbassando la soglia vengono intercettati pi spam ma aumentano i falsi positivi I falsi positivi sono molto pericolosi Il singolo spam una seccatura Il singolo falso positivo un mail potenzialmente importante che rischia di essere cancellato o non letto Al momento non possiamo dare configurazioni per utente. Sono comunque pericolose perch gli utenti tendono a diventare troppo aggressivi
  • Slide 17
  • Michele Michelotto - Padova Obiettivo Lideale sarebbe identificare il 100% di spam senza falsi positivi. Molti arrivano vicino al primo obiettivo ma mentono sul secondo Il mio obiettivo almeno 90-95% di spam catturati falsi positivi sotto 1% (ideale 1/1000) manodopera di poche ore/mese, magari solo per controllo e monitoring
  • Slide 18
  • Michele Michelotto - Padova Campo X-Spam-Score Anche se il mail non supera la soglia inseriamo il punteggio nellheader nei campi opzionali Ci siamo inventati il campo X-Spam-Score Il campo viene usato da Mime-Defanger e di solito cancellato per mail sotto soglia. Lasciando questo campo permettiamo ad utenti evoluti di usare queste informazioni via procmail o con personalizzazioni dei filtri dei client Il campo risulta utile per capire per quale motivo lo spam non ha raggiunto il punteggio soglia:
  • Slide 19
  • Michele Michelotto - Padova X-Spam-Score
  • Slide 20
  • Michele Michelotto - Padova Separare gli spam Un trucchetto utile Separare con i filtri i mail borderline con punteggio appena sopra il 5 (es fino a 7 oppure 8). Cancellare con una rapida passata gli altri spam (es sopra 8) Controllare per bene gli spam borderline per intercettare i falsi positivi
  • Slide 21
  • Michele Michelotto - Padova Spam difficili Le contromosse degli spammer Alcuni spam non sono UCE ma solo prove per vedere quali indirizzi sono buoni (quindi ricevono la posta) e quali bounciano Altro motivo per mandare spam senza senso potrebbe essere quello di avvelenare i filtri statistici
  • Slide 22
  • Michele Michelotto - Padova Gibberish 5.001 !!! Lho preso per i capelli questo spam Contenuto utile per lo spammer Contenuto gibberish: Tante parole (almeno 15) separate solo da uno spazio Notare che altrimenti non sarebbe stato catturato dai bayesiani
  • Slide 23
  • Michele Michelotto - Padova Sovrapposizione SPAMHAM
  • Slide 24
  • Michele Michelotto - Padova Come separare? Tipico problema di Segnale/Rumore Se abbassiamo la soglia a 4 aumentiamo i falsi positivi. Recuperiamo molti falsi negativi ma i falsi positivi sono molto pi importanti Se alziamo i punteggi per qualche categoria potremmo spostare qualche mail buono in falso positivo Cerchiamo di aggiungere nuove regole e tecniche indipendenti
  • Slide 25
  • Michele Michelotto - Padova Tecniche dinamiche Le tecniche di molti software antispam sono statiche. Gli spammer evoluti provano i loro mail contro le ultime tecniche anti-spam e trovano il modo di by-passarle Metodi statistici Vedere il sito di Paul Graham http://www.paulgraham.com/antispam.html
  • Slide 26
  • Michele Michelotto - Padova Algoritmi Bayesiani Teoria: I filtri Bayesiani sono basati sul principio che molti eventi sono dipendenti e che la probabilit di un evento futuro si pu dedurre dagli eventi passati Basi matemagiche: http://www-ccrma.stanford.edu/~jos/bayes/Bayesian_Parameter_Estimation.html Introduzione alle reti bayesiane: http://www.niedermayer.ca/papers/bayesian/bayes.html Queste tecniche si possono usare per classificare lo spam. Se un pezzo di testo si trova spesso nello spam ma non in un ham, allora ragionevole assumere che quel mail spam
  • Slide 27
  • Michele Michelotto - Padova Come funziona? Dobbiamo crearci un Database con token (parole ma anche il segno $, indirizzi IP, domini etc) raccolti da campioni di spam e ham
  • Slide 28
  • Michele Michelotto - Padova Calcolo P Viene assegnato un valore di probabilit ad ogni token basato su calcoli che tengono conto di quanto spesso una parola si trova negli spam e negli ham. I token di entrambi gli insiemi sono analizzati per generare le probabilit che una parola sia spam Esempio: viagra si trova 400 volte allinterno di 3000 mail di spam e 5 volte su 300 nei mail legittimi La probabilit di spam 400/3000 diviso (5/300 + 400/3000) = 0,8889 89%
  • Slide 29
  • Michele Michelotto - Padova Formula T S = numero dei mail di tipo SPAM N S = numero di presenze di una parola tra gli SPAM T H = numero dei mail di tipo HAM N H = numero di presenza di una parola tra gli HAM P S = probabilit che quella parola appaia in uno spam P S = (N S /T S ) / (N S /T S + N H /T H ) Se T S e T H sono uguali diventa P S = N S / N S