Hoàng Hải Hưng

Hoàng Hải Hưng NguyễnHồngĐiệp

Nội dung Giới thiệu về tấn công hệ thống ADL 1 Mô hình ADL T-Lex 2 Phương pháp tấn công 3

Giới thiệu Tấn công Không có chủ ý Có chủ ý • Lỗi đường truyền • Mất mát thông tin khi nén • Đổi dịnh dạng • … • Dựa trên các thuộc tính thống kê

Hệ thống ẩn dữ liệu T-Lex • T-Lex (Tyrannosaurus Lex) là hệ thống ẩn dữ liệu dựa trên mô hình thay thế từ vựng • Vấn đề cơ bản là phải giữ nguyên ý nghĩa của câu

Hệ thống ẩn dữ liệu T-Lex (10011011010)2 Chuỗi văn bản cần nhúng Chuỗi nhị phân Nén Huffman Nhúng vào văn bản

Hệ thống ẩn dữ liệu T-Lex little (101)2 Ho Chi Minh city is a little Ho Chi Minh city is a great little town

Tấn công hệ thống ADL text cấp độ từ Yếu điểm phương pháp ADL cấp độ từ. 1 Mô hình hóa ngôn ngữ bằng thống kê (n-grams) 2 Tấn công 3

Yếu điểm pp ADL văn bản dựa trên thay thế từ đồng nghĩa. • Văn bản sau khi thay thế từ đồng nghĩa. • Không phù hợp với cách sử dụng ngôn ngữ (tiếng Anh) thông thường. Ví dụ: • soon afterwards dispatched • soon subsequently dispatched • Không phù hợp với thể loại và phong cách tác giả trong văn bản. • => khác so với cách sử dụng phổ biến

Mô hình ngôn ngữ N-Grams • Là một mô hình thống kê ước lượng xác suất của chuỗi các từ độ dài n (n-gram). • Nguồn ([1]) • Ex: P(thi rớt) = p(rớt /thi) * p(thi)

P(W) = ? P(w) = r(w)/N r(w) số lần xuất hiện của n-grams w. N số lượng N-gram cho trong văn bản huấn luyện.

Stanford Research Institute Language Modeling (SRILM) Toolkit [3] • Tham số • Loại n-gram được sử dụng. • Loại giải thuật discounting được sử dụng. Good-Turing, absolute, Witten-Bell, và Kneser-Ney - chỉnh sửa. • Tùy chọn một từ điển xác định trước. • Loại bỏ các từ không phổ biến (stop-word) hay là xem chúng như token xác định. • Có loại bỏ trường hợp đặc biệt trong văn bản nhập. (ảnh: http://www.speech.sri.com/images/logo_sri.gif)

OUTPUT-Vector đặc trưng của câu • Thống kê từ (số lượng từ, các từ không thuộc từ điển, các từ xác suất bằng 0). • Chiều dài ngữ cảnh n-gram nhỏ nhất , và lớn nhất. • Các thống kê về ước lượng xác suất cho n-gram trong câu (mean, min, max) • Các thống kê mô hình cho xác suất của n-gram trong câu (min, max). • Tổng xác suất của câu.

Ví dụ • Manfred Bender scored from a header in the 80th minute, four transactions after coming on. • Kết quả - vector đặc trưng cho câu trên • Word statistics (Number of words (12), Out Of Vocabulary (OOV) words (2), Zero probability words (0) ) • Mimimum n-gram context length matchihg the model (1), and maximum (3) respectively • Statistics of model probability estimations for n-grams in the sentence (mean, min, max) (0.165, 0,0.827586)

Cách thức tấn công • Mục tiêu tấn công. • Phân lớp câu có ẩn dữ liệu/ không ẩn dữ liệu • Phương pháp :Học máy SVM (support vector machine). • Sử dụng thư viện libsvm (nguồn[2])

Kết quả đạt được • Kết quả: • Độ chính xác khi phân vào lớp : • Có dữ liệu mật là 84.9% • Không ẩn dữ liệu 38.6% , • Độ phủ (recall) cao nhưng độ chính xác(precision) thấp.

Tài liệu tham khảo • [1] Cuneyt M. Taskiran, Umut Topkara, Mercan Topkara, and Edward J. Delp, "Attacks on Lexical Natural Language Steganography Systems , " Proceedings- Spie The International Society For Optical Engineering, Vol. 6072, 2006 • [2] Thư viện libsvm, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ • [3] Stanford Research Institue Language Model Toolkit, • http://www.speech.sri.com/projects/srilm/ • [4] Stanford Log-linear Part-Of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml

Thank You !

Hoàng Hải Hưng

Hoàng Hải Hưng

Presentation Transcript