220 likes | 418 Views
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN. Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271. Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn. Nội dung. Tổng quan về luận văn . . 1. Tổng quan về thư rác. 2.
E N D
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC.Cao Đăng Tân ThS. Đào Anh Tuấn
Nội dung • Tổngquanvềluậnvăn. 1 Tổngquanvềthưrác 2 Cáckỹthuậtquétthưrácsửdụngtronghệthống 3 Hệthốngthửnghiệm 4 Cáckếtquảđạtđược 5 Hướngpháttriển 6
Tổngquanvềluậnvăn • Mục đích chọn luận văn • Thư rác là một trong những thách thức lớn nhất hiện nay. • Đa số các phần mềm chống thư rác là dựa trên header của thư hoặc địa chỉ từ người gửi => luận văn dựa vào nội dung của thư => tốc độ quét thư chậm => quét thư trên môi trường song song Vì những lý do trên đề tài “Xây dựng hệ thống quét thư rác trên môi trường phân tán” được hình thành.
Tổngquanvềthưrác • Địnhnghĩathưrác: thư rác là thư điện tử không theo mong muốn của người nhận và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số
Tổngquanvềthưrác • Các đặc tính của thư rác: • Thư rác mang tính tương đối. • Tính bất biến trong một thư rác.
Cáckỹthuậtlọcthưrác • Blacklisting: danhsáchđịachỉkhông tin cậy. • Whitelisting: danhsáchđịachỉ tin cậy. • Heuristic filtering: dựavàotậpluật. • Challenge/ Response: xácthựcngườidùng. • Throttling: khốngchếsốlượng email đượcgửi. • Address obfuscation: thayđổiđịnhdạngchốngthuthập email. • Collaborative filtering: nhómngườidùng tin cậy.
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê • Kỹ thuật so khớp
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê Tậpdữliệu lịchsử Thưđiệntử Bộtáchtừ Huấnluyện Máyphântích Là spam ? Sai Gửitớingườidùng Ngườidùng phảnhồi Đúng Đánhdấu Bộlọcxác địnhđúng? Không PHÂN LOẠI HUẤN LUYỆN
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật thống kê
Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng • Kỹ thuật so khớp • Điều kiện • Tỉ số độ dài nội dung hai thư (đã tách từ) cần so khớp xấp xỉ 1,1. • Ngưỡng độ tương tự khi phân loại là thư rác là 0,7. Nội dung thư rác đã lưu Nội dung thư cần phân loại độ tương tự
Hệ thống thử nghiệm • Mô hình hệ thống
Hệ thống thử nghiệm • Mô hình xửlýtrêndữliệuriêngcủamỗingườidùng
Hệ thống thử nghiệm • Quá trình quétthưrác Kỹthuật thốngkê Là Spam ? Kỹthuật sokhớp Sai Đúng Ngườidùng
Hệ thống thử nghiệm • Kết quả thử nghiệm trên phân tán
Hệ thống thử nghiệm • Kết quả thử nghiệm trên phân tán
Cáckếtquảđạtđược • Lý thuyết • Tìm hiểu được khá chi tiết về đặc điểm của thư rác và các kỹ thuật phát hiện thư rác đã có. • Mô tả khá đầy đủ về cơ sở lý thuyết của kỹ thuật quét thư rác thống kê và so khớp dùng trong hệ thống thử nghiệm.
Cáckếtquảđạtđược • Ứng dụng • Nhóm đã xây dựng thử nghiệm thành công hệ thống quét thư rác trên môi trường phân tán, ứng dụng kỹ thuật so khớp và kỹ thuật thống kê. • Với hệ thống thực nghiệm mà nhóm xây dựng đã đạt được tính chính xác xấp xỉ 94% sau khi thực nghiệm.
Cáckếtquảđạtđược • Đánh giá • Ưu điểm • Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh. • Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một tập dữ liệu riêng. Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể. • Khuyết điểm • Phải mất một khoảng thời gian đầu huấn luyện cho bộ lọc.
Hướngpháttriển • Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …). • Cài đặt kho dữ liệu chung kết hợp với kho dữ liệu cá nhân. • Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ, …. • Xây dựng hoặc cải tiến “front mail server” để tăng tốc độ chuyển tiếp mail vào hệ thống quét. • Lọccác token làtừghépdựavàoviệcnóxuấthiệnnhiềulầntrongthôngđiệp.
Cảm ơn đã lắng nghe! Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn