html5-img
1 / 25

Nyelv-alapú email spam-szűrők

Nyelv-alapú email spam-szűrők. Boha Roland 2005. november 24. http://digitus.itk.ppke.hu/~rollair/spam/. Mi is a spam?.

Download Presentation

Nyelv-alapú email spam-szűrők

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nyelv-alapú email spam-szűrők Boha Roland 2005. november 24. http://digitus.itk.ppke.hu/~rollair/spam/ Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  2. Mi is a spam? A spam kéretlen (pl.: cím publikus helyről), nagy példányszámban elküldött (10-től…), azonos tartalmú (részletekben különbözhet) elektronikus üzenet. Szó szerinti jelentése: löncshús konzerv, amely az elnevezés alapjául szolgáló Monthy Python burleszkben szerepelt. Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  3. Mi a baj a spam-mel? • A spam nem ingyenes • A spam tönkreteheti az internetes kommunikációt • A küldött spam-ek száma exponenciálisan nő. Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  4. Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  5. Spamtörténelem • 1978. május 3. - „DEC spam” (Igen, a számítógéptípus…) • 1988. május 24. - Rob Noha: anyagi támogatás tanulmányai finanszírozására (hírcsoportok voltak a cél) • Dave Rhodes – Első klasszikus kéretlen levél: „Gazdagodj meg gyorsan!” (lánclevél) Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  6. ARMM spam – hibás program, közel 200 üzenetet küldött véletlenül egy hírcsoportba (innentől spam a kéretlen levél) • 1994. január 18. - Az első „ütős” spam: vallásos jellegű üzenet • 1994. április - Canter & Siegel: „Zöldkártya” – vállalták, megbuktak Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  7. A spam napjainkban • Számos vírus is „keveredik” az ilyen levelekbe • Spamzombik • A teljes email forgalom 50-60 százalékát teszi ki • „A spam 2003-ban világszerte 20,5 milliárd dolláros kárt okozott” Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  8. Hogyan működik a levelezés az Interneten? • Az RFC822 írja le a levél fejrész formátumát, az RFC821 pedig az SMTP protokollt. (A két szabályhalmaz mint elektronikus boríték működik.) • A két partner kölcsönösen "bemutatkozik" • >>HELO<< után hamis adat is lehet, IP alapú név számít • „MAIL FROM:„ - feladó "RCPT TO:" – címzett (utóbbiból bármennyi lehet) • Fejléc elemek: Date; From; To; Sender; Reply-to; Subject; Received Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  9. 220 helka.iif.hu IC 122 PP 122 Here - Pleased to meet you HELO HUGBOX.SZTAKI.HU 250 helka.iif.hu: HUGBOX.SZTAKI.HU looks good to me MAIL FROM:<35673576@usa.net> 250 OK RCPT TO:<h12184sch@ella.hu> 250 Recipient OK. DATA 354 Enter Mail, end by a line with only '.' Received: from tas.vain.hu by HUGBOX.SZTAKI.HU (MX V4.1 VAX) with SMTP; Mon, 29 Sep 1997 23:44:26 gmt+1 Received: from mos.vain.hu (root@mos.vain.hu [193.6.32.110]) by tas.vain.hu (8.8.5/8.8.5) with SMTP id BAA29005 for <h12184sch@ella.hu>; Tue, 30 Sep 1997 01:43:54 +0200 Received: from csrlink.net (sallybrown.csrlink.net) by mos.vain.hu (5.x/SMI-SVR4) id AA15758; Mon, 29 Sep 1997 22:43:39 +0100 Received: from 206.228.89.2 (ad68-104.compuserve.com [199.174.195.104]) by csrlink.net (8.8.5/8.8.5) with SMTP id RAA11806; Mon, 29 Sep 1997 17:32:12 -0500 (EST) Date: Mon, 29 Sep 97 16:38:23 EST To: Friend@public.com From: 35673576@usa.net Subject: Let's talk dirty. Message-ID: <> LAUNDRY!!! $20,000,000 (Million) IN SALES In Just (5) Months!!! HELP......WE NEED MORE DEALERS!! Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  10. Mit tesznek a spam ellen? • Öngyógyítás? Emberi eredet… • Opt-in: felhasználó beleegyezésével; Opt-out: lehetőséget kell adni a leiratkozásra • Smith-féle törvénytervezet: reklámfax alapján pénzbírság • http://www.spamlaws.com Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  11. Mit tegyél, ha levélszemetet kapsz? • Soha ne válaszolj kéretlen emailre! (A „biztos” lista értékes…) • Soha ne kattints kéretlen emailben szereplő linkekre! (áloldalak…) • Soha ne vásárolj kéretlen emailben hirdető forgalmazótól! (Ők is pénzből élnek…) • Soha ne készíts email címlistát! (legalább titkos másolatot küldj…) Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  12. A védekezés módjai • Relay megtiltás • Fekete listák • Valósidejű spam blokkolás (automatizált) • Spam szűrők Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  13. Relay megtiltás:(a szerver-üzemeltető feladata); A legfontosabb, amit a levelező szerverek gazdáinak meg kell tenniük, az annak megakadályozása, hogy a spam küldők ugródeszkának használhassák rendszerüket. • Fekete listák: A spamek jelentős része ugyanazokról a címekről érkezik, ha megtiltjuk ezekről a helyekről a levelek érkezését, akkor az ártatlan helynek is segítünk Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  14. Valósidejű spam blokkolás • RBL (Realtime Blackhole List): IP címeket tartalmaz, melyekrõl - közvetve vagy közvetlenül -, spam származik. • ORDB (Open Relay Database) • RSS (Relay Spam Stopper): Mint az RBL, de míg az RBL spam forrásokat, reléket és spammelést támogató rendszereket is tartalmaz, addig ez utóbbiak csak nyílt reléket. Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  15. Spam szűrők – működési elvek • Szűrés a feladó címe alapján (eredet) • Szűrés a levél tartalma, felépítése alapján • Szűrés adatbázisok segítségével • Szűrés (saját) szabályokkal • Egyéb megoldások • Minta és szabálycsere Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  16. Szűrés a feladó címe alapján • Feketelista (Black list) (kézi karbantartás) • Fehérlista (White list) (kézi karbantartás, tájékoztatás) • Szürkelista (Grey list) (tájékoztatás) • RBL (Realtime Blackhole List) (szerverszinten) Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  17. Szűrés a levél tartalma, felépítése alapján • Bayes-szűrő: Bizonyos spam-szűrők a Thomas Bayes matematikus által kidolgozott elméletet használják; valószínűség-számítási elvek segítségével határozzák meg, hogy egy email normális levélnek vagy spamnek számít-e. • Pontozás • Több ezer minta alapján • Tanítható • Tévedhet Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  18. Szűrés adatbázisok segítségével • Egy statisztikai módszer elemzi a beérkező leveleket, részeire bontja azokat • Ez alapján osztályoz • Személyre szabott spam adatbázis (szabályok) • Az adatbázis fokozatosan "megtanulja" az adott környezetben előforduló spam jellemzőket Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  19. Szűrés adatbázisok segítségével II. • Mivel a statisztikai módszerek a levelek sajátosságait tanulják meg, ezért a tanítómintát nagyon gondosan kell összeállítani. • Spam szövegek szórása jóval kisebb, mint a nem spam levelekben lévőké, így spam < nem spam Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  20. Szűrés (saját) szabályokkal • Alapvető dolog: szűrők • A bayes-i rendszerrel kombináltan igazán hatékony • Testreszabhatóság Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  21. Egyéb megoldások • SpamAssasin: 3.x -től az általános algoritmust felváltotta egy neurális hálózat, hiba visszacsatolással (tanítás sem kell hozzá) • A fenti módszerek kombinációi (nagy neveknél mind, vagy több is egy termékben) Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  22. Minta és szabálycsere • Hatékonyság: felismerési és vakriasztási arányból • Változékonyság, adaptivitás • A spam küldője is ember: alkalmazkodik, változtat • A tisztán statisztikai alapú szűrőknél nem kell frissíteni, csak tanítani, tanítani…. Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  23. Most akkor mi van??? Hol bujkál a nyelvtechnológia? • Mintakeresés, heurisztikus módszerek, statisztikai módszerek alapja (szavak, szókapcsolatok relációinál, felismerésüknél) • Bayes-szűrő • Adatbázisok mögött • Szabályok mögött Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  24. Források • http://www.cert.hu/ismert/5spam/spam_uj.html (Pásztor Miklós) • http://spamassassin.apache.org • http://spam.lap.hu • http://www.virushirado.hu/ • http://www.virusbuster.hu/hu/spam/spam_tudnivalok/kutatas Boha Roland - Kéretlen levelek PPKE-ITK (2005)

  25. Köszönöm a figyelmet! Boha Roland - Kéretlen levelek PPKE-ITK (2005)

More Related