1 / 21

Hoàng Hải Hưng

Hoàng Hải Hưng. Nguyễn Hồng Điệp. Nội dung. Giới thiệu về tấn công hệ thống ADL. 1. Mô hình ADL T-Lex. 2. Phương pháp tấn công. 3. Nội dung. Giới thiệu về tấn công hệ thống ADL. 1. Mô hình ADL T-Lex. 2. Phương pháp tấn công. 3. Giới thiệu. Tấn công. Không có chủ ý. Có chủ ý.

gyda
Download Presentation

Hoàng Hải Hưng

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hoàng Hải Hưng NguyễnHồngĐiệp

  2. Nội dung Giới thiệu về tấn công hệ thống ADL 1 Mô hình ADL T-Lex 2 Phương pháp tấn công 3

  3. Nội dung Giới thiệu về tấn công hệ thống ADL 1 Mô hình ADL T-Lex 2 Phương pháp tấn công 3

  4. Giới thiệu Tấn công Không có chủ ý Có chủ ý • Lỗi đường truyền • Mất mát thông tin khi nén • Đổi dịnh dạng • … • Dựa trên các thuộc tính thống kê

  5. Nội dung Giới thiệu về tấn công hệ thống ADL 1 Mô hình ADL T-Lex 2 Phương pháp tấn công 3

  6. Hệ thống ẩn dữ liệu T-Lex • T-Lex (Tyrannosaurus Lex) là hệ thống ẩn dữ liệu dựa trên mô hình thay thế từ vựng • Vấn đề cơ bản là phải giữ nguyên ý nghĩa của câu

  7. Hệ thống ẩn dữ liệu T-Lex (10011011010)2 Chuỗi văn bản cần nhúng Chuỗi nhị phân Nén Huffman Nhúng vào văn bản

  8. Hệ thống ẩn dữ liệu T-Lex little (101)2 Ho Chi Minh city is a little Ho Chi Minh city is a great little town

  9. Nội dung Giới thiệu về tấn công hệ thống ADL 1 Mô hình ADL T-Lex 2 Phương pháp tấn công 3

  10. Tấn công hệ thống ADL text cấp độ từ Yếu điểm phương pháp ADL cấp độ từ. 1 Mô hình hóa ngôn ngữ bằng thống kê (n-grams) 2 Tấn công 3

  11. Yếu điểm pp ADL văn bản dựa trên thay thế từ đồng nghĩa. • Văn bản sau khi thay thế từ đồng nghĩa. • Không phù hợp với cách sử dụng ngôn ngữ (tiếng Anh) thông thường. Ví dụ: • soon afterwards dispatched • soon subsequently dispatched • Không phù hợp với thể loại và phong cách tác giả trong văn bản. • => khác so với cách sử dụng phổ biến

  12. Mô hình ngôn ngữ N-Grams • Là một mô hình thống kê ước lượng xác suất của chuỗi các từ độ dài n (n-gram). • Nguồn ([1]) • Ex: P(thi rớt) = p(rớt /thi) * p(thi)

  13. P(W) = ? P(w) = r(w)/N r(w) số lần xuất hiện của n-grams w. N số lượng N-gram cho trong văn bản huấn luyện.

  14. Stanford Research Institute Language Modeling (SRILM) Toolkit [3] • Tham số • Loại n-gram được sử dụng. • Loại giải thuật discounting được sử dụng. Good-Turing, absolute, Witten-Bell, và Kneser-Ney - chỉnh sửa. • Tùy chọn một từ điển xác định trước. • Loại bỏ các từ không phổ biến (stop-word) hay là xem chúng như token xác định. • Có loại bỏ trường hợp đặc biệt trong văn bản nhập. (ảnh: http://www.speech.sri.com/images/logo_sri.gif)

  15. OUTPUT-Vector đặc trưng của câu • Thống kê từ (số lượng từ, các từ không thuộc từ điển, các từ xác suất bằng 0). • Chiều dài ngữ cảnh n-gram nhỏ nhất , và lớn nhất. • Các thống kê về ước lượng xác suất cho n-gram trong câu (mean, min, max) • Các thống kê mô hình cho xác suất của n-gram trong câu (min, max). • Tổng xác suất của câu.

  16. Ví dụ • Manfred Bender scored from a header in the 80th minute, four transactions after coming on. • Kết quả - vector đặc trưng cho câu trên • Word statistics (Number of words (12), Out Of Vocabulary (OOV) words (2), Zero probability words (0) ) • Mimimum n-gram context length matchihg the model (1), and maximum (3) respectively • Statistics of model probability estimations for n-grams in the sentence (mean, min, max) (0.165, 0,0.827586)

  17. Cách thức tấn công • Mục tiêu tấn công. • Phân lớp câu có ẩn dữ liệu/ không ẩn dữ liệu • Phương pháp :Học máy SVM (support vector machine). • Sử dụng thư viện libsvm (nguồn[2])

  18. Kết quả đạt được • Kết quả: • Độ chính xác khi phân vào lớp : • Có dữ liệu mật là 84.9% • Không ẩn dữ liệu 38.6% , • Độ phủ (recall) cao nhưng độ chính xác(precision) thấp.

  19. Tài liệu tham khảo • [1] Cuneyt M. Taskiran, Umut Topkara, Mercan Topkara, and Edward J. Delp, "Attacks on Lexical Natural Language Steganography Systems , " Proceedings- Spie The International Society For Optical Engineering, Vol. 6072, 2006 • [2] Thư viện libsvm, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ • [3] Stanford Research Institue Language Model Toolkit, • http://www.speech.sri.com/projects/srilm/ • [4] Stanford Log-linear Part-Of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml

  20. Thank You !

More Related