ho ng h i h ng n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Hoàng Hải Hưng PowerPoint Presentation
Download Presentation
Hoàng Hải Hưng

Loading in 2 Seconds...

play fullscreen
1 / 21

Hoàng Hải Hưng - PowerPoint PPT Presentation


  • 140 Views
  • Uploaded on

Hoàng Hải Hưng. Nguyễn Hồng Điệp. Nội dung. Giới thiệu về tấn công hệ thống ADL. 1. Mô hình ADL T-Lex. 2. Phương pháp tấn công. 3. Nội dung. Giới thiệu về tấn công hệ thống ADL. 1. Mô hình ADL T-Lex. 2. Phương pháp tấn công. 3. Giới thiệu. Tấn công. Không có chủ ý. Có chủ ý.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

Hoàng Hải Hưng


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
ho ng h i h ng
Hoàng Hải Hưng

NguyễnHồngĐiệp

n i dung
Nội dung

Giới thiệu về tấn công hệ thống ADL

1

Mô hình ADL T-Lex

2

Phương pháp tấn công

3

n i dung1
Nội dung

Giới thiệu về tấn công hệ thống ADL

1

Mô hình ADL T-Lex

2

Phương pháp tấn công

3

gi i thi u
Giới thiệu

Tấn công

Không có chủ ý

Có chủ ý

  • Lỗi đường truyền
  • Mất mát thông tin khi nén
  • Đổi dịnh dạng
  • Dựa trên các thuộc tính thống kê
n i dung2
Nội dung

Giới thiệu về tấn công hệ thống ADL

1

Mô hình ADL T-Lex

2

Phương pháp tấn công

3

h th ng n d li u t lex
Hệ thống ẩn dữ liệu T-Lex
  • T-Lex (Tyrannosaurus Lex) là hệ thống ẩn dữ liệu dựa trên mô hình thay thế từ vựng
  • Vấn đề cơ bản là phải giữ nguyên ý nghĩa của câu
h th ng n d li u t lex1
Hệ thống ẩn dữ liệu T-Lex

(10011011010)2

Chuỗi văn bản cần nhúng

Chuỗi nhị phân

Nén Huffman

Nhúng vào văn bản

h th ng n d li u t lex2
Hệ thống ẩn dữ liệu T-Lex

little

(101)2

Ho Chi Minh city is a

little

Ho Chi Minh city is a great little town

n i dung3
Nội dung

Giới thiệu về tấn công hệ thống ADL

1

Mô hình ADL T-Lex

2

Phương pháp tấn công

3

t n c ng h th ng adl text c p t
Tấn công hệ thống ADL text cấp độ từ

Yếu điểm phương pháp ADL cấp độ từ.

1

Mô hình hóa ngôn ngữ bằng thống kê (n-grams)

2

Tấn công

3

y u i m pp adl v n b n d a tr n thay th t ng ngh a
Yếu điểm pp ADL văn bản dựa trên thay thế từ đồng nghĩa.
  • Văn bản sau khi thay thế từ đồng nghĩa.
    • Không phù hợp với cách sử dụng ngôn ngữ (tiếng Anh) thông thường. Ví dụ:
      • soon afterwards dispatched
      • soon subsequently dispatched
    • Không phù hợp với thể loại và phong cách tác giả trong văn bản.
  • => khác so với cách sử dụng phổ biến
m h nh ng n ng n grams
Mô hình ngôn ngữ N-Grams
  • Là một mô hình thống kê ước lượng xác suất của chuỗi các từ độ dài n (n-gram).
  • Nguồn ([1])
  • Ex: P(thi rớt) = p(rớt /thi) * p(thi)
slide13
P(W) = ?

P(w) = r(w)/N

r(w) số lần xuất hiện của n-grams w.

N số lượng N-gram cho trong văn bản huấn luyện.

stanford research institute language modeling srilm toolkit 3
Stanford Research Institute Language Modeling (SRILM) Toolkit [3]
  • Tham số
    • Loại n-gram được sử dụng.
    • Loại giải thuật discounting được sử dụng. Good-Turing, absolute, Witten-Bell, và Kneser-Ney - chỉnh sửa.
    • Tùy chọn một từ điển xác định trước.
    • Loại bỏ các từ không phổ biến (stop-word) hay là xem chúng như token xác định.
    • Có loại bỏ trường hợp đặc biệt trong văn bản nhập.

(ảnh: http://www.speech.sri.com/images/logo_sri.gif)

output vector c tr ng c a c u
OUTPUT-Vector đặc trưng của câu
  • Thống kê từ (số lượng từ, các từ không thuộc từ điển, các từ xác suất bằng 0).
  • Chiều dài ngữ cảnh n-gram nhỏ nhất , và lớn nhất.
  • Các thống kê về ước lượng xác suất cho n-gram trong câu (mean, min, max)
  • Các thống kê mô hình cho xác suất của n-gram trong câu (min, max).
  • Tổng xác suất của câu.
slide16
Ví dụ
  • Manfred Bender scored from a header in the 80th minute, four transactions after coming on.
  • Kết quả - vector đặc trưng cho câu trên
    • Word statistics (Number of words (12), Out Of Vocabulary (OOV) words (2), Zero probability words (0) )
    • Mimimum n-gram context length matchihg the model (1), and maximum (3) respectively
    • Statistics of model probability estimations for n-grams in the sentence (mean, min, max) (0.165, 0,0.827586)
c ch th c t n c ng
Cách thức tấn công
  • Mục tiêu tấn công.
    • Phân lớp câu có ẩn dữ liệu/ không ẩn dữ liệu
  • Phương pháp :Học máy SVM (support vector machine).
    • Sử dụng thư viện libsvm (nguồn[2])
k t qu t c
Kết quả đạt được
  • Kết quả:
  • Độ chính xác khi phân vào lớp :
    • Có dữ liệu mật là 84.9%
    • Không ẩn dữ liệu 38.6% ,
  • Độ phủ (recall) cao nhưng độ chính xác(precision) thấp.
t i li u tham kh o
Tài liệu tham khảo
  • [1] Cuneyt M. Taskiran, Umut Topkara, Mercan Topkara, and Edward J. Delp, "Attacks on Lexical Natural Language Steganography Systems , " Proceedings- Spie The International Society For Optical Engineering, Vol. 6072, 2006
  • [2] Thư viện libsvm, http://www.csie.ntu.edu.tw/~cjlin/libsvm/
  • [3] Stanford Research Institue Language Model Toolkit,
  • http://www.speech.sri.com/projects/srilm/
  • [4] Stanford Log-linear Part-Of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml