Nyelv-alapú email spam-szűrők
-
Upload
washington-darrell -
Category
Documents
-
view
41 -
download
0
description
Transcript of Nyelv-alapú email spam-szűrők
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
1
Nyelv-alapú email spam-szűrők
Boha Roland2005. november 24.
http://digitus.itk.ppke.hu/~rollair/spam/
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
2
Mi is a spam?
A spam kéretlen (pl.: cím publikus helyről), nagy példányszámban elküldött (10-től…), azonos tartalmú (részletekben különbözhet) elektronikus üzenet. Szó szerinti jelentése: löncshús konzerv, amely az elnevezés alapjául szolgáló Monthy Python burleszkben szerepelt.
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
3
Mi a baj a spam-mel?
• A spam nem ingyenes • A spam tönkreteheti az internetes
kommunikációt • A küldött spam-ek száma
exponenciálisan nő.
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
4
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
5
Spamtörténelem
• 1978. május 3. - „DEC spam” (Igen, a számítógéptípus…)
• 1988. május 24. - Rob Noha: anyagi támogatás tanulmányai finanszírozására (hírcsoportok voltak a cél)
• Dave Rhodes – Első klasszikus kéretlen levél: „Gazdagodj meg gyorsan!” (lánclevél)
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
6
• ARMM spam – hibás program, közel 200 üzenetet küldött véletlenül egy hírcsoportba (innentől spam a kéretlen levél)
• 1994. január 18. - Az első „ütős” spam: vallásos jellegű üzenet
• 1994. április - Canter & Siegel: „Zöldkártya” – vállalták, megbuktak
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
7
A spam napjainkban
• Számos vírus is „keveredik” az ilyen levelekbe
• Spamzombik• A teljes email forgalom 50-60
százalékát teszi ki• „A spam 2003-ban világszerte
20,5 milliárd dolláros kárt okozott”
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
8
Hogyan működik a levelezés az Interneten? • Az RFC822 írja le a levél fejrész formátumát,
az RFC821 pedig az SMTP protokollt. (A két szabályhalmaz mint elektronikus boríték működik.)
• A két partner kölcsönösen "bemutatkozik" • >>HELO<< után hamis adat is lehet, IP
alapú név számít• „MAIL FROM:„ - feladó "RCPT TO:" –
címzett (utóbbiból bármennyi lehet)• Fejléc elemek: Date; From; To; Sender;
Reply-to; Subject; Received
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
9
220 helka.iif.hu IC 122 PP 122 Here - Pleased to meet you HELO HUGBOX.SZTAKI.HU 250 helka.iif.hu: HUGBOX.SZTAKI.HU looks good to me MAIL FROM:<[email protected]> 250 OK RCPT TO:<[email protected]> 250 Recipient OK. DATA 354 Enter Mail, end by a line with only '.' Received: from tas.vain.hu by HUGBOX.SZTAKI.HU (MX V4.1 VAX) with SMTP; Mon, 29 Sep 1997 23:44:26 gmt+1 Received: from mos.vain.hu ([email protected] [193.6.32.110]) by tas.vain.hu (8.8.5/8.8.5) with SMTP id BAA29005 for <[email protected]>; Tue, 30 Sep 1997 01:43:54 +0200 Received: from csrlink.net (sallybrown.csrlink.net) by mos.vain.hu (5.x/SMI-SVR4) id AA15758; Mon, 29 Sep 1997 22:43:39 +0100 Received: from 206.228.89.2 (ad68-104.compuserve.com [199.174.195.104]) by csrlink.net (8.8.5/8.8.5) with SMTP id RAA11806; Mon, 29 Sep 1997 17:32:12 -0500 (EST) Date: Mon, 29 Sep 97 16:38:23 EST To: [email protected] From: [email protected] Subject: Let's talk dirty. Message-ID: <> LAUNDRY!!! $20,000,000 (Million) IN SALES In Just (5) Months!!! HELP......WE NEED MORE DEALERS!!
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
10
Mit tesznek a spam ellen?
• Öngyógyítás? Emberi eredet…
• Opt-in: felhasználó beleegyezésével; Opt-out: lehetőséget kell adni a leiratkozásra
• Smith-féle törvénytervezet: reklámfax alapján pénzbírság
• http://www.spamlaws.com
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
11
Mit tegyél, ha levélszemetet kapsz?
• Soha ne válaszolj kéretlen emailre! (A „biztos” lista értékes…)
• Soha ne kattints kéretlen emailben szereplő linkekre! (áloldalak…)
• Soha ne vásárolj kéretlen emailben hirdető forgalmazótól! (Ők is pénzből élnek…)
• Soha ne készíts email címlistát! (legalább titkos másolatot küldj…)
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
12
A védekezés módjai
• Relay megtiltás • Fekete listák• Valósidejű spam blokkolás
(automatizált)• Spam szűrők
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
13
• Relay megtiltás: (a szerver-üzemeltető feladata); A legfontosabb, amit a levelező szerverek gazdáinak meg kell tenniük, az annak megakadályozása, hogy a spam küldők ugródeszkának használhassák rendszerüket.
• Fekete listák: A spamek jelentős része ugyanazokról a címekről érkezik, ha megtiltjuk ezekről a helyekről a levelek érkezését, akkor az ártatlan helynek is segítünk
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
14
Valósidejű spam blokkolás
• RBL (Realtime Blackhole List): IP címeket tartalmaz, melyekrõl - közvetve vagy közvetlenül -, spam származik.
• ORDB (Open Relay Database)• RSS (Relay Spam Stopper): Mint az
RBL, de míg az RBL spam forrásokat, reléket és spammelést támogató rendszereket is tartalmaz, addig ez utóbbiak csak nyílt reléket.
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
15
Spam szűrők – működési elvek
• Szűrés a feladó címe alapján (eredet)
• Szűrés a levél tartalma, felépítése alapján
• Szűrés adatbázisok segítségével• Szűrés (saját) szabályokkal• Egyéb megoldások• Minta és szabálycsere
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
16
Szűrés a feladó címe alapján
• Feketelista (Black list) (kézi karbantartás)
• Fehérlista (White list) (kézi karbantartás, tájékoztatás)
• Szürkelista (Grey list) (tájékoztatás)
• RBL (Realtime Blackhole List) (szerverszinten)
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
17
Szűrés a levél tartalma, felépítése alapján
• Bayes-szűrő: Bizonyos spam-szűrők a Thomas Bayes matematikus által kidolgozott elméletet használják; valószínűség-számítási elvek segítségével határozzák meg, hogy egy email normális levélnek vagy spamnek számít-e.
• Pontozás• Több ezer minta alapján• Tanítható• Tévedhet
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
18
Szűrés adatbázisok segítségével
• Egy statisztikai módszer elemzi a beérkező leveleket, részeire bontja azokat
• Ez alapján osztályoz• Személyre szabott spam adatbázis
(szabályok)• Az adatbázis fokozatosan "megtanulja"
az adott környezetben előforduló spam jellemzőket
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
19
Szűrés adatbázisok segítségével II.
• Mivel a statisztikai módszerek a levelek sajátosságait tanulják meg, ezért a tanítómintát nagyon gondosan kell összeállítani.
• Spam szövegek szórása jóval kisebb, mint a nem spam levelekben lévőké, így spam < nem spam
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
20
Szűrés (saját) szabályokkal
• Alapvető dolog: szűrők
• A bayes-i rendszerrel kombináltan igazán hatékony
• Testreszabhatóság
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
21
Egyéb megoldások
• SpamAssasin: 3.x -től az általános algoritmust felváltotta egy neurális hálózat, hiba visszacsatolással (tanítás sem kell hozzá)
• A fenti módszerek kombinációi (nagy neveknél mind, vagy több is egy termékben)
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
22
Minta és szabálycsere
• Hatékonyság: felismerési és vakriasztási arányból
• Változékonyság, adaptivitás• A spam küldője is ember:
alkalmazkodik, változtat• A tisztán statisztikai alapú
szűrőknél nem kell frissíteni, csak tanítani, tanítani….
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
23
Most akkor mi van??? Hol bujkál a
nyelvtechnológia?• Mintakeresés, heurisztikus
módszerek, statisztikai módszerek alapja (szavak, szókapcsolatok relációinál, felismerésüknél)
• Bayes-szűrő• Adatbázisok mögött• Szabályok mögött
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
24
Források
• http://www.cert.hu/ismert/5spam/spam_uj.html (Pásztor Miklós)
• http://spamassassin.apache.org• http://spam.lap.hu • http://www.virushirado.hu/• http://www.virusbuster.hu/hu/spa
m/spam_tudnivalok/kutatas
Boha Roland - Kéretlen levelek PPKE-ITK (2005)
25
Köszönöm a figyelmet!