1 / 32

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN. Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271. Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn. Nội dung. Tổng quan về luận văn . Tổng quan về thư rác .

collin
Download Presentation

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC.Cao Đăng Tân ThS. Đào Anh Tuấn

  2. Nội dung • Tổngquanvềluậnvăn. • Tổngquanvềthưrác. • Cáckỹthuậtquétthưrácsửdụngtronghệthốngxâydựng. • Hệthốngthửnghiệm. • Cácvấnđềđạtđược. • Hướngpháttriển.

  3. Tổngquanvềluậnvăn • Mục đích chọn luận văn • Thư rác là một trong những thách thức lớn nhất hiện nay mà mỗi cá nhân, cơ quan, tổ chức, doanh nghiệp sử dụng thư điện tử để trao đổi thông tin phải đối phó. • Đa số các phần mềm chống thư rác là dựa trên header của thư hoặc địa chỉ từ người gửi. • Tốc độ quá trình lọc thư rác phải nhanh. • Các kết quả đạt được • Áp dụng và cải tiến kỹ thuật thống kê và so khớp sử dụng trong luận văn. • Xây dựng bộ lọc thư rác với thử nghiệm tính chính xác là 94%. • Xây dựng thử nghiệm hệ thống quét thư rác trên môi trường phân tán.

  4. Tổngquanvềthưrác • Địnhnghĩa thư rác là “số lượng lớn thư điện tử không yêu cầu” và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số

  5. Tổngquanvềthưrác • Mục đích gửi thư rác: • Quảng cáo sản phẩm, dịch vụ, … của tổ chức, công ty thương mại nào đó. • Lợi dụng sự cả tin của người dùng để lừa gạt họ, như các hình thức kiếm tiền trực tuyến, … • Gửi kèm virus trong tập tin kèm theo của thư điện tử, từ đó đưa virus vào máy nạn nhân và hệ thống mạng mà nạn nhân sử dụng. • Nói xấu, xuyên tạc ai đó, tuyên truyền những điều sai trái về chính trị.

  6. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Kỹ thuật so khớp

  7. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê

  8. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cơ sở toán học • Công thức tính xác xuất của một từ (token) - công thức Graham Với: • Ptoken: Xác xuất của một từ • SH (Spam hit): Số lần token xuất hiện trong thư rác • NSH (Nonspam hit): Số lần token xuất hiện trong thư hợp lệ • TS (Total Spam): Tổng số thư rác đã được học • TNS (Total Nonspam): Tổng số thư hợp lệ đã được học. • Cho phép học lại các thư đã phân loại sai.

  9. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cơ sở toán học • Công thức chọn các token quan trọng nhất Dtoken = |0.5 - P| • Ưu tiên chọn token có D lớn hơn.

  10. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cơ sở toán học • Công thức tính xác xuất của một thông điệp - Công thức Paul Graham Dtoken = |0.5 - P| (0.0 <= P <= 1.0) Với: • P: Xác xuất chung của thông điệp • A,B,C,..N là xác xuất của các token • Xác định kết quả: • P = 0.5 : Giá trị trung lập • P > 0.5: Thông điệp là thư rác • P < 0.5: Thông điệp là thư hợp lệ.

  11. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Đánh giá • Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh. • Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng. Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể.

  12. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Cải tiến • Bỏ các tag HTML. • Bỏ các dấu chấm câu, các ký hiệu không có nghĩa. • Đối với tiếng Việt nên bỏ các hư từ (thì, là, mà..) để giảm nhiễu. Đồng thời do tiếng Việt là đơn âm tiết nên tách từ dựa vào khoảng trắng sẽ làm giảm độ chính xác, do đó nên tách thành từ có nghĩa (Ví dụ: Tách thành từ “hợp tác” thay vì thành 2 từ “hợp” và “tác”. • Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ • Lấy các cụm từ xuất hiện nhiều lần trong một thông điệp vì khả năng nó là token mạnh cao.

  13. Kiểmtrađộchínhxáccủabộlọcthưrác

  14. Kiểmtrađộchínhxáccủabộlọcthưrác

  15. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Đặt vấn đề Các ví dụ khác: • Tên người nước ngoài • “C.J.Date’”và “Date.C.J”, “Christian Charras” và “Charas C.” • Sự sai khác do biến đổi hình thái từ, cấu trúc câu • “approximate searching” và “search approximately” • Thứ tự ghép từ khác nhau • “toán logic” và “logic toán”, “lung linh” và “linh lung” • Thứ tự sai • “toán giải tích” và “giải tích toán”

  16. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Phát biểu bài toán Cho hai chuỗi sau: • Mẫu P độ dài m (P = P1P2…Pm) • Chuỗi đích S độ dài n (S = S1S2….Sn) hãy xác định độ tương tự ngữ nghĩa của S so với P, độ tương tự ở đây được hiểu là giá trị thực nằm trong khoảng [0,1] thỏa mãn: • Độ tương tự càng lớn nếu số khúc con trong P xuất hiện trong S càng nhiều. • Độ tương tự bằng 1 nếu chuỗi P xuất hiện trong S. • Độ tương tự bằng 0 nếu không có một phần nào của P xuất hiện trong S.

  17. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Ý tưởng giải quyết • Gọi PiPi+1…Pi+t-1 là một khối độ dài t của mẫu P và ký hiệu khối này là (t,i) • Lần lượt xét tất cả các khối độ dài t, t = 1,2,…,m và kiểm tra xem khối đó có xuất hiện trong S hay không

  18. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Ý tưởng giải quyết • Gọi giá trị H tính theo công thức: với k là số khối độ dài t có xuất hiện trong chuỗi S • H sẽ đạt giá trị cực đại khi S = P, gọi giá trị cực đại này là M: • độ tương tự ngữ nghĩa của S so với P là tỷ số H và M: F = H/M

  19. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Nhận xét • Nếu chuỗi so sánh S có sự khác biệt càng nhiều so với chuỗi mẫu P thì độ tương tự sẽ giảm rất nhiều (tiến nhiều về 0) • Ý tưởng cải tiến thuật toán đo độ tương tự gốc • Táchtừ ở cảchuỗimẫu P vàchuỗi so sánh S • T_P = {T1, T2,…,Tk} với k là số lượng từ được tách ra tự chuỗi P. • T_S = {T1, T2,…,Tl} với l là số lượng từ được tách ra tự chuỗi S. • Tính độ tương tự lớn nhất của từng từ trong P so với cả mảng từ của S, đặt độ tương tự này là fi (1 ≤ i ≤ k) • Tính trung bình cộng các fi ta được độ tương tự cần tính là F

  20. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải tiến

  21. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải tiến

  22. Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Nhận xét • Nếu tính độ tương tự theo thuật toán gốc thì độ tương tự giảm rất nhiều khi sự khác biệt giữa P và S tăng lên. • Nếu tính độ tương tự theo thuật toán cải tiến thì độ tương tự giảm với giá trị chấp nhận được và tốt hơn rất nhiều nếu so sánh với độ tương tự tính theo thuật toán gốc. • Thời gian thực hiện của thuật toán gốc lớn hơn nhiều lần so với thời gian thực hiện của thuật toán cải tiến. vậy theo các thống kê trên cho thấy thuật toán đo độ tương tự cải tiến tốt hơn thuật toán đo độ tương tự gốc.

  23. Hệ thống thử nghiệm • Mô hình hệ thống

  24. Hệ thống thử nghiệm • Mô hình tínhcánhânhóa

  25. Hệ thống thử nghiệm • Quá trình kếthợpquétthưrác

  26. Hệ thống thử nghiệm • Quá trình huấnluyệnchotrain@gfit.hcmuns.edu.vn

  27. Hệ thống thử nghiệm • Quá trình huấnluyệnlạichoretrain@gfit.hcmuns.edu.vn

  28. Hệ thống thử nghiệm • Kết quả thử nghiệm trên phân tán

  29. Cácvấnđềđạtđược • Tìm hiểu được khá chi tiết về đặc điểm của thư rác và các kỹ thuật phát hiện thư rác đã có. • Mô tả khá đầy đủ về cơ sở lý thuyết của kỹ thuật quét thư rác thống kê và so khớp dùng trong hệ thống thử nghiệm. • Cải tiến trong: • Kỹ thuật thống kê: bỏ đi các từ không quan trọng, quét thư rác bao gồm cả tập tin đính kèm. • Kỹ thuật so khớp: cải tiến thuật toán gốc giúp tăng thời gian so khớp văn bản. • Đưa ra các thực nghiệm minh họa độ tin cậy trong từng kỹ thuật trên một máy. • Với hệ thống thực nghiệm mà nhóm xây dựng đã đạt được tính chính xác là 94% sau khi thực nghiệm. • Và một phần mới nữa trong luận văn là đưa việc quét thư rác lên môi trường phân tán, kết quả thực nghiệm khi thực nghiệm đã xác định được là có thể quét thư rác với tốc độ là 1 giây/ 1 thư.

  30. Hướngpháttriển • Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …). • Tối ưu hóa việc giải quyết đụng độ khi xử lý trên phân tán. • Cài đặt kho dữ liệu chung như đã đề cập cho toàn người dùng trong mạng. • Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ, …. • Giải quyết tốt hơn ở các định dạng tập tin đính kèm khác của thư rác.

  31. Cảm ơn đã lắng nghe! Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn

More Related