Khai th c d li u
Download
1 / 36

Khai Thác Dữ Liệu - PowerPoint PPT Presentation


  • 231 Views
  • Uploaded on

Khai Thác Dữ Liệu. GV: Nguyễn Kim Long. Giới thiệu môn học. Kết quả đạt được. Trình bày được các khái niệm cơ bản trong khai thác dữ liệu. Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu. Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể .

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Khai Thác Dữ Liệu' - nicola


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Khai th c d li u

Khai Thác Dữ Liệu

GV: Nguyễn Kim Long



K t qu t c
Kết quả đạt được

  • Trình bày được các khái niệm cơ bản trong khai thác dữ liệu.

  • Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu.

  • Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể.

  • Nâng cao kỹ năng tham khảo tài liệu về lĩnh vực khai thác dữ liệu.


Nh gi k t qu
Đánh giá kết quả

  • Điểm tích cực(30%)

    • Thuyết trình lý thuyết (1/2)

    • Bài tập hàng tuần (1/2)

  • Đồ án(30%)

    • Báo cáo tuần 9 (40%), tuần 13-14 (60%)

  • Thi cuối kỳ(40%)

    • Thi vấn đáp theo lịch phòng đào tạo


T i li u
Tài liệu

  • Sách principle of DataMining

  • Sách DataMining Concepts and Techniques

  • Slides

  • DataMiningMSSQL2008

  • google


M i tr ng h c v th c h nh
Môi trường học và thực hành

  • Lý thuyết: trên lớp CS2

  • Thực hành: phòng máy CS2

  • Bài tập: tùy chọn


N i dung m n h c l thuy t
Nội dung môn học (Lý thuyết)

  • 1-2. Tổng quan

  • 3. Xác xuất và entropy

  • 4. Tiền xử lý dữ liệu

  • 5. Kho dữ liệu và OLAP

  • 6-7. Luật kết hợp

  • 8-9. Phân nhóm

  • 10-11. Phân cụm.

  • 12-13. Web Mining, Text Mining

  • 14. Ôn tập


N i dung m n h c th c h nh
Nội dung môn học (Thực hành)

  • 1-3. Làm quen công cụ mining

  • 4-8. MSSQL 2008

  • 9-13. Text Mining

  • 14. Ôn tập



N i dung
Nội dung

1. Lịch sử KTDL.

2. Tại sao khai thác dữ liệu?

3. Khái thác dữ liệu là gì?

4. Các bước KTDL.

5. Khai thác trên kiểu dữ liệu gì?

6. Chức năng KTDL

7. Các kỹ thuật (thuật tóan) KTDL

8. Phân lọai hệ thống KTDL

9. Tóm tắt


L ch s
Lịch Sử

  • 1960s: HT xử lý tập tin đơn giản -> HT CSDL

  • 1970s: CSDL quan hệ, mô hình hóa, câu truy vấn,...

  • 1980s: lý thuyết mô hình hướng đối tượng, CSDL phân tán, ...

    => sự bùng nổ kho dữ liệu khổng lồ

    => „giàu dữ liệu, nghèo thông tin”




C c kh i ni m t ng ng
Các khái niệm tương đương

  • khai thác tri thức

  • Knowledge Discovery form Data (KDD)

  • knowledge mining from data

  • knowledge extraction

  • data/pattern analysis

  • data archaeology (khai quật dữ liệu)

  • data dredging (nạo vét dữ liệu)


Ph n bi t ktdl
Phân biệt KTDL

  • Tra cứu số điện thoại trong danh bạ.

  • Tìm xem trong 1 khu vực nhất định, cái tên nào phổ biến nhất.

  • Sử dụng Google để tìm kiếm thông tin về “Amazon”

  • Gom nhóm những tài liệu do Google trả về dựa trên ngữ cảnh (Rừng Amazon, trang web Amazon,...)



C c b c ktdl
Các bước KTDL

1. Làm sạch dữ liệu – Data cleaning

2. Tích hợp dữ liệu Data integration

3. Lựa chọn dữ liệu Data selection

4. Chuyển hóa dữ liệu Data transformation

5. Khai thác dữ liệu Data mining

6. Đánh giá mẫu Pattern evaluation

7. Biểu diễn tri thức Knowledge representation


Ki u d li u
Kiểu dữ liệu

  • relational database (cơ sở dữ liệu quan hệ)

  • data warehouse (Kho dữ liệu)

  • Cơ sở dữ liệu giao dịch

  • Dữ liệu cao cấp, hệ thống thông tin và ứng dụng cao cấp

    • Cơ sở dữ liệu quan hệ đối tượng

    • Cơ sở dữ liệu thời gian, Cơ sở dữ liệu khoảng thời gian, và Cơ sở dữ liệu chuỗi thời gian

    • Cơ sở dữ liệu không gian và cơ sở dữ liệu không gian thời gian

    • Cơ sở dữ liệu văn bản và cơ sở dữ liệu đa truyền thông

    • Cơ sở dữ liệu hỗn tạp và Cơ sở dữ liệu kế thừa


Relational database
relational database

Table

Attribute(column/field)

Record (row/tuple)

ER

SQL (select, join, sum, min, max, avg)

=> nơi lưu trữ nhiều thông tin nhất hiện nay.


Data warehouse
Data warehouse

  • Kho dữ liệu:

    • Def: Là nơi lưu trữ thông tin tập hợp từ nhiều nguồn khác nhau

    • Dạng lưu trữ: Schema (giản đồ), khối đa chiều

  • Các bước xây dựng kho dữ liệu:

    • Làm sạch dữ liệu

    • Tích hợp dữ liệu

    • Chuyển hóa dữ liệu

    • Nạp dữ liệu

    • Làm tươi dữ liệu (refresh)


Text database
Text database

  • Các dạng thường gặp:

    • Word, excel, pp, txt

    • Website, HTML/XML

    • Từ điển, thư viện

    • ...

  • Mục đích:

    • Mô tả chung

    • Từ khóa

    • Phân lọai

    • ...


Ch c n ng ktdl
Chức năng KTDL

  • Nhiệm vụ

    • Mô tả (descriptive)

    • Dự đoán (predictive)

  • Phân loại (Classification) - P

  • Phân nhóm (Clustering) - D

  • Kết hợp (Association) - D

  • Hồi quy (Regression) - P

  • Phân tích trình tự (Sequence Analysis) - D

  • Phân tích độ lệch (Deviation Analysis) - P


Classification p 1 6
Classification (P)1/6

Sử dụng 1 tập các records có sẵn, mỗi record có chứa nhiều thuộc tính, trong đó có 1 thuộc tính là class.


Clustering d 2 6
Clustering (D)2/6

  • Cho 1 tập các điểm dữ liệu (data points) với các thuộc tính và 1 đơn vị tương đương (similarity measure), tìm các nhóm sao cho:

    • Dữ liệu trong cùng 1 nhóm (cluster) thì giống nhau hơn nhóm khác.

    • Dữ liệu trong các nhóm khác nhau thì ít giống nhau hơn.


Association d 3 6
Association (D)3/6

Cho trước 1 nhóm records có chứa một số các items từ 1 bộ nhất định.

Thiết lập các luật phụ thuộc để dự đoán sự xuất hiện của 1 số item dựa trên những item khác.


Regression p 4 6
Regression (P)4/6

  • Dự đoán giá trị của 1 thông số được cho liên tục, dựa trên giá trị của những thông số khác.

    • (Giả sử cho trước 1 mô hình phụ thuộc tuyến tính hay phi tuyến tính)

  • Áp dụng nhiều trong lĩnh vực thống kê, mạng lưới thần kinh.


Sequence analysis d 5 6
Sequence Analysis (D)5/6

  • Cho trước 1 tập các đối tượng, trong đó mỗi đối tượng có riêng 1 chuỗi các sự kiện. Cần tìm các quy luật dự đoán sự phụ thuộc tuần tự giữa các sự kiện.

  • Các quy luật được lập nên bằng cách đầu tiên tìm ra các kiểu mẫu. Các sự kiện xảy ra trong các mẫu này bị giới hạn về mặt thời gian.


Deviation analysis p 6 6
Deviation Analysis (P)6/6

  • Nhận ra những thay đổi khác biệt so với hành vi bình thường.

  • Ứng dụng:

    • Phát hiện gian lận credeit card.

    • Phát hiện xâm nhập network.


C c k thu t thu t t an ktdl
Các kỹ thuật (thuật tóan)KTDL

  • Lựa chọn thuộc tính:

    • Thuật tóan RELIEF, FOCUS, LVF, EBR, SCRAP, LVW, Neuralnet, Genetic, ...

  • Luật kết hợp:

    • Thuật tóan Apriori, AprioriTid, AprioriHybrid, FP-tree, PHP, PCY, PCY nhiều chặng, cây quyết định (ID3, các mở rộng của C4.5)

  • Phân lớp:

    • Cây quyết định, mạng bayes, mạng neural, SVM,...


Ph n l ai h th ng ktdl
Phân lọai hệ thống KTDL

  • Phân lọai theo cơ sở dữ liệu được khai thác

  • Phân lọai theo tri thức khai thác

  • Phân lọai theo kỹ thuật KTDL

  • Phân lọai theo môi trường ứng dụng


Theo csdl 1 4
Theo CSDL(1/4)

Hệ thống khai thác CSDL quan hệ

Hệ thống khai thác CSDL giao dịch

Hệ thống khai thác CSDL quan hệ đối tượng

Hệ thống khai thác kho dữ liệu

Hệ thống khai thác CSDL không gian, thời gian

Hệ thống khai thác dữ liệu văn bản, đa truyền thông

Hệ thống khai thác dữ liệu mạng tòan cần


Theo tri th c 2 4
Theo tri thức (2/4)

Hệ thống mô tả và phân biệt dữ liệu

Hệ thồng khai thác kết hợp và tương quan dữ liệu

Hệ thống phân lớp và dự đóan dữ liệu

Hệ thống gom nhóm dữ liệu

HT phân tích dữ liệu ngọai lệ và tiến hóa

HT khai thác tri thức phổ biến

HT khai thác tri thức thô

HT khai thác tri thức đa cấp độ


Theo k thu t 3 4
Theo kỹ thuật (3/4)

HT khai thác dữ liệu tự động

HT khai thác dữ liệu có tương tác

HT khai thác dữ liệu theo truy vấn

HT sử dụng kỹ thuật máy học, thống kê, mô phỏng, nhận dạng mẫu.


Theo m i tr ng ng d ng 4 4
Theo môi trường ứng dụng (4/4)

HT khai thác dữ liệu tài chính kế tóan

HT khai thác dự liệu viễn thông

HT khai thác dự liệudi truyền học

HT khai thác dự liệu chứng khóan

HT khai thác dự liệu giáo dục


T ng k t
Tổng kết

  • Các bước khai thác dữ liệu? Các bước thực hiện một bài tóan khai thác dữ liệu?

  • Nội dung thuyết trình.

  • Chủ đề 1 thi cuối kỳ:

    - tổng quan khai thác dữ liệu.



ad