Nyelv-alapú email spam-szűrők

25
Boha Roland - Kéretlen le velek PPKE-ITK (2005) 1 Nyelv-alapú email spam-szűrők Boha Roland 2005. november 24. http://digitus.itk.ppke.hu/ ~rollair/spam/

description

Nyelv-alapú email spam-szűrők. Boha Roland 2005. november 24. http://digitus.itk.ppke.hu/~rollair/spam/. Mi is a spam?. - PowerPoint PPT Presentation

Transcript of Nyelv-alapú email spam-szűrők

Page 1: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

1

Nyelv-alapú email spam-szűrők

Boha Roland2005. november 24.

http://digitus.itk.ppke.hu/~rollair/spam/

Page 2: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

2

Mi is a spam?

A spam kéretlen (pl.: cím publikus helyről), nagy példányszámban elküldött (10-től…), azonos tartalmú (részletekben különbözhet) elektronikus üzenet. Szó szerinti jelentése: löncshús konzerv, amely az elnevezés alapjául szolgáló Monthy Python burleszkben szerepelt.

Page 3: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

3

Mi a baj a spam-mel?

• A spam nem ingyenes • A spam tönkreteheti az internetes

kommunikációt • A küldött spam-ek száma

exponenciálisan nő.

Page 4: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

4

Page 5: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

5

Spamtörténelem

• 1978. május 3. - „DEC spam” (Igen, a számítógéptípus…)

• 1988. május 24. - Rob Noha: anyagi támogatás tanulmányai finanszírozására (hírcsoportok voltak a cél)

• Dave Rhodes – Első klasszikus kéretlen levél: „Gazdagodj meg gyorsan!” (lánclevél)

Page 6: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

6

• ARMM spam – hibás program, közel 200 üzenetet küldött véletlenül egy hírcsoportba (innentől spam a kéretlen levél)

• 1994. január 18. - Az első „ütős” spam: vallásos jellegű üzenet

• 1994. április - Canter & Siegel: „Zöldkártya” – vállalták, megbuktak

Page 7: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

7

A spam napjainkban

• Számos vírus is „keveredik” az ilyen levelekbe

• Spamzombik• A teljes email forgalom 50-60

százalékát teszi ki• „A spam 2003-ban világszerte

20,5 milliárd dolláros kárt okozott”

Page 8: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

8

Hogyan működik a levelezés az Interneten? • Az RFC822 írja le a levél fejrész formátumát,

az RFC821 pedig az SMTP protokollt. (A két szabályhalmaz mint elektronikus boríték működik.)

• A két partner kölcsönösen "bemutatkozik" • >>HELO<< után hamis adat is lehet, IP

alapú név számít• „MAIL FROM:„ - feladó "RCPT TO:" –

címzett (utóbbiból bármennyi lehet)• Fejléc elemek: Date; From; To; Sender;

Reply-to; Subject; Received

Page 9: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

9

220 helka.iif.hu IC 122 PP 122 Here - Pleased to meet you HELO HUGBOX.SZTAKI.HU 250 helka.iif.hu: HUGBOX.SZTAKI.HU looks good to me MAIL FROM:<[email protected]> 250 OK RCPT TO:<[email protected]> 250 Recipient OK. DATA 354 Enter Mail, end by a line with only '.' Received: from tas.vain.hu by HUGBOX.SZTAKI.HU (MX V4.1 VAX) with SMTP; Mon, 29 Sep 1997 23:44:26 gmt+1 Received: from mos.vain.hu ([email protected] [193.6.32.110]) by tas.vain.hu (8.8.5/8.8.5) with SMTP id BAA29005 for <[email protected]>; Tue, 30 Sep 1997 01:43:54 +0200 Received: from csrlink.net (sallybrown.csrlink.net) by mos.vain.hu (5.x/SMI-SVR4) id AA15758; Mon, 29 Sep 1997 22:43:39 +0100 Received: from 206.228.89.2 (ad68-104.compuserve.com [199.174.195.104]) by csrlink.net (8.8.5/8.8.5) with SMTP id RAA11806; Mon, 29 Sep 1997 17:32:12 -0500 (EST) Date: Mon, 29 Sep 97 16:38:23 EST To: [email protected] From: [email protected] Subject: Let's talk dirty. Message-ID: <>   LAUNDRY!!! $20,000,000 (Million) IN SALES In Just (5) Months!!! HELP......WE NEED MORE DEALERS!!

Page 10: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

10

Mit tesznek a spam ellen?

• Öngyógyítás? Emberi eredet…

• Opt-in: felhasználó beleegyezésével; Opt-out: lehetőséget kell adni a leiratkozásra

• Smith-féle törvénytervezet: reklámfax alapján pénzbírság

• http://www.spamlaws.com

Page 11: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

11

Mit tegyél, ha levélszemetet kapsz?

• Soha ne válaszolj kéretlen emailre! (A „biztos” lista értékes…)

• Soha ne kattints kéretlen emailben szereplő linkekre! (áloldalak…)

• Soha ne vásárolj kéretlen emailben hirdető forgalmazótól! (Ők is pénzből élnek…)

• Soha ne készíts email címlistát! (legalább titkos másolatot küldj…)

Page 12: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

12

A védekezés módjai

• Relay megtiltás • Fekete listák• Valósidejű spam blokkolás

(automatizált)• Spam szűrők

Page 13: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

13

• Relay megtiltás: (a szerver-üzemeltető feladata); A legfontosabb, amit a levelező szerverek gazdáinak meg kell tenniük, az annak megakadályozása, hogy a spam küldők ugródeszkának használhassák rendszerüket.

• Fekete listák: A spamek jelentős része ugyanazokról a címekről érkezik, ha megtiltjuk ezekről a helyekről a levelek érkezését, akkor az ártatlan helynek is segítünk

Page 14: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

14

Valósidejű spam blokkolás

• RBL (Realtime Blackhole List): IP címeket tartalmaz, melyekrõl - közvetve vagy közvetlenül -, spam származik.

• ORDB (Open Relay Database)• RSS (Relay Spam Stopper): Mint az

RBL, de míg az RBL spam forrásokat, reléket és spammelést támogató rendszereket is tartalmaz, addig ez utóbbiak csak nyílt reléket.

Page 15: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

15

Spam szűrők – működési elvek

• Szűrés a feladó címe alapján (eredet)

• Szűrés a levél tartalma, felépítése alapján

• Szűrés adatbázisok segítségével• Szűrés (saját) szabályokkal• Egyéb megoldások• Minta és szabálycsere

Page 16: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

16

Szűrés a feladó címe alapján

• Feketelista (Black list) (kézi karbantartás)

• Fehérlista (White list) (kézi karbantartás, tájékoztatás)

• Szürkelista (Grey list) (tájékoztatás)

• RBL (Realtime Blackhole List) (szerverszinten)

Page 17: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

17

Szűrés a levél tartalma, felépítése alapján

• Bayes-szűrő: Bizonyos spam-szűrők a Thomas Bayes matematikus által kidolgozott elméletet használják; valószínűség-számítási elvek segítségével határozzák meg, hogy egy email normális levélnek vagy spamnek számít-e.

• Pontozás• Több ezer minta alapján• Tanítható• Tévedhet

Page 18: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

18

Szűrés adatbázisok segítségével

• Egy statisztikai módszer elemzi a beérkező leveleket, részeire bontja azokat

• Ez alapján osztályoz• Személyre szabott spam adatbázis

(szabályok)• Az adatbázis fokozatosan "megtanulja"

az adott környezetben előforduló spam jellemzőket

Page 19: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

19

Szűrés adatbázisok segítségével II.

• Mivel a statisztikai módszerek a levelek sajátosságait tanulják meg, ezért a tanítómintát nagyon gondosan kell összeállítani.

• Spam szövegek szórása jóval kisebb, mint a nem spam levelekben lévőké, így spam < nem spam

Page 20: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

20

Szűrés (saját) szabályokkal

• Alapvető dolog: szűrők

• A bayes-i rendszerrel kombináltan igazán hatékony

• Testreszabhatóság

Page 21: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

21

Egyéb megoldások

• SpamAssasin: 3.x -től az általános algoritmust felváltotta egy neurális hálózat, hiba visszacsatolással (tanítás sem kell hozzá)

• A fenti módszerek kombinációi (nagy neveknél mind, vagy több is egy termékben)

Page 22: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

22

Minta és szabálycsere

• Hatékonyság: felismerési és vakriasztási arányból

• Változékonyság, adaptivitás• A spam küldője is ember:

alkalmazkodik, változtat• A tisztán statisztikai alapú

szűrőknél nem kell frissíteni, csak tanítani, tanítani….

Page 23: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

23

Most akkor mi van??? Hol bujkál a

nyelvtechnológia?• Mintakeresés, heurisztikus

módszerek, statisztikai módszerek alapja (szavak, szókapcsolatok relációinál, felismerésüknél)

• Bayes-szűrő• Adatbázisok mögött• Szabályok mögött

Page 24: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

24

Források

• http://www.cert.hu/ismert/5spam/spam_uj.html (Pásztor Miklós)

• http://spamassassin.apache.org• http://spam.lap.hu • http://www.virushirado.hu/• http://www.virusbuster.hu/hu/spa

m/spam_tudnivalok/kutatas

Page 25: Nyelv-alapú email spam-szűrők

Boha Roland - Kéretlen levelek PPKE-ITK (2005)

25

Köszönöm a figyelmet!