Khai phá dữ liệu

Khai phá dữ liệu • Sự cần thiết khai phá dữ liệu. • Tổng quan khai phá dữ liệu. • Khai phá dữ liệu và khai phá tri thức. • Mục tiêu của khai phá dữ liệu và khai phá tri thức. • Một số loại khai phá tri thức dùng cho khai phá dữ liệu. • Luật kết hợp. • Mục tiêu luật kết hợp. • Một số vấn đề liên quan.

Sự cần thiết khai phá dữ liệu

Sự cần thiết khai phá dữ liệu • Dữ liệu chứa rất nhiều thông tin giá trị, có lợi cho quá trình ra quyết định. • Không thể phân tích dữ liệu bằng tay • Con người cần tuần lễ để khám phá thông tin có ít. • Phần lớn dữ liệu chưa được phân tích. • Khai thác dữ liệu ra đời “Giàu thông tin- nghèo tri thức”

Tổng quan khai phá dữ liệu • Khai phá dữ liệu là gì? - Là quá trình khám phá (rút trích) các tri thức mới và các tri thức có ích ở dạng tiềm ẩn trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu…. • Mục tiêu của kho dữ liệu là hỗ trợ trong quá trình ra quyết định. • Khai phá dữ liệu được dùng kết hợp với kho dữ liệu giúp cho quá trình ra quyết định được chắc chắn hơn. • Khai phá dữ liệu có thể được ứng dụng trong hoạt động của cơ sở dữ liệu nhưng để có hiệu quả hơn thì nó được dử dụng với kho dữ liệu. • Những ứng dụng của khai phá dữ liệu được suy nghĩ trước trong quá trình thiết kế kho dữ liệu.

Khai phá dữ liệu và khai phá tri thức • Khai phá dữ liệu là một bước của tiến trình khai phá dữ liệu (KDD: Knowledge Discovery in Database) bao gồm 6 giai đoạn: 1.Chọn dữ liệu 2. Làm sạch dữ liệu 3. Làm giàu dữ liệu 4. Chuyển đổi dữ liệu hoặc mã hóa 5. Khai phá dữ liệu 6. Báo cáo và trình bày dữ liệu khai thác • Ví dụ: Cửa hàng chuyên bán lẻ hàng tiêu dùng. Thông tin giao dịch khách hàng gồm: Tên, zip code, số điện thoại, ngày giao dịch, mã item(item code), giá, số lượng và tổng số lượng hàng mua. • Chọn item là những item đặc biệt, hay những loại item thuộc vùng miền của quốc gia. • Làm sạch dữ liệu: sẽ loại bỏ những số điện thoại có mã vùng sai, hoặc những zip code không hợp lệ. • Làm giàu thông tin: thêm vào mỗi record những thông tin : tuổi, thu nhập,mức độ tin cậy. • Chuyển đổi dữ liệu: việc nhóm các sản phẩm theo các loại như : audio, video, camera, thiế bị điện tử,…

Envalution of Rule Data Mining Transformation Cleansing Pre-processing Preparation Knowledge Pattern Discovery Selection Transformed Data Gathering Cleansed Preprocessed Preparated Internet,... Target Data Data Khai phá dữ liệu và khai phá tri thức

Mục tiêu của khai phá dữ liệu và khai phá tri thức • Dự đoán – Sử dụng một vài biến để dự báo giá trị chưa biết hoặc giá trị tương lai của các biến khác. • Ví dụ: những mẫu về sóng địa chấn và động đất được dự đoán với xác xuất cao. • Sự nhận dạng- các mẫu dữ liệu có thể được sử dụng để xác định sự tồn tại của một mục, sự kiện, hoặc một hoạt động. • Ví dụ: xác định sự tồn tại của một gen trong chuỗi DNA.

Sự phân lớp- khai phá dữ liệu có thể phân vùng dữ liệu dựa phát hiện ra mô tả của vài lớp đã được xác định và phân loại dữ liệu vào trong các lớp đó. • Ví dụ: khách hàng trong siêu thị có thể phân thành: những khách hàng thường xuyên, những khách hàng thường mua giảm giá, những khách không thường xuyên mua hàng… • Tối ưu hóa- một trong những mục tiêu cuối cùng của khai phá dữ liệu là có thể tối ưu hóa việc sử dụng các nguồn tài nguyên hạn chế như: thời gian, không gian, tiền bạc, hoặc nguyên vật liệu.

Một số loại khai phá tri thức dùng cho khai phá dữ liệu. • Tri thức( Knowledge) được phân loại theo tri thức qui nạp và diễn dịch. • Tri thức qui nạp (Inductive knowledge): khám phá các mẫu và các luật mới từ dữ liệu sẵn có. • Tri thức được biễu diễn nhiều dạng: không có cấu trúc, có cấu trúc( cây quyết định, mạng ngữ nghĩa, mạng nơron), dạng luật, mệnh đề logic. • Tri thức được khai phá trong quá trình khai thác dữ liệu có thể mô tả 5 cách: • 1. Luật kết hợp 2. Hệ thống phân loại • 3. Mẫu liên tục 4. Chuỗi mẫu thời gian • 5. Sự phân loại và sự phân đoạn.

Luật kết hợp • Khai thác luật kết hợp là một tiến trình quan trọng trong khai thác dữ liệu, mục đích của nó là tìm ra các luật tiềm ẩn trong CSDL. • Luật kết hợp dựa trên hình thức X => Y. Trong đó X = {x1, x2, …., xn} và Y = {y1, y2, …, ym} , xi, yj là những hạng mục(item) riêng biệt cho tất cả i, j. • Đó là mối kết hợp nếu một khách hàng mua X, người đó cũng sẽ có mua Y. Hình thức LHS (left-hand side), RHS (righthand side). • Thiết lập LHS  RHS được gọi là tập các hạng mục (itemset). • Khai phá luật kết hợp dựa trên: • Độ phổ biến (Support)- luật LHS => RHS là phần trăm giao dịch giữa tất cả các hạng mục trong mối kết hợp. • Độ tin cậy (Confidence)- luật LHS => RHS là % (phân số) của tất cả giao dịch chứa các hạng mục trong LHS và cả hạng mục trong RHS. • Độ tin cậy ước tính là độ phổ biến (LHS  RHS) / hỗ trợ(LHS) .

Ví dụ: • Xem xét 2 luật milk=> juice và bread =>juice. • Độ phổ biến {milk, juice} is 50% • Độ phổ biến {bread, juice} is 25% • Độ tin cậy của milk juice is 66.7% • Độ tin cậy của Bread  juice is 50%

Mục tiêu luật kết hợp • Mục tiêu luật kết hợp là phát sinh ra các luật có thể vượt qua ngưỡng của mức hỗ trợ. • Vấn đề của luật kết hợp vì vậy cũng được chia làm 2 vấn đề phụ: • Phát sinh các hạng mục vượt qua ngưỡng. Những hạng mục đó được gọi là hạng mục lớn. • Đối với mỗi hạng mục lớn, tất cả luật có độ tin tưởng nhỏ được phát sinh sau: • Để có hạng mục lớn X và Y  X, sao cho Z= X-Y; khi đó nếu mức hỗ trợ (X)/ mức phổ biến(Y)  độ tin cậy nhỏ nhất, luật Z => Y (i.e X - Y =>Y) là luật hợp lệ.

Một số vấn đề liên quan • Các thuật toán cơ bản dựa trên luật kết hợp. • Thuật toán Apriori. • Thuật toán Sampling. • Thuật toán cây Frequent-pattern. • Thuật toán Phân vùng.

Một số vấn đề liên quan • Hiện nay các thuật toán dựa trên việc tìm kiếm hạng mục lớn: • Kiểm tra mức độ hỗ trợ của hạng mục có chiều dài là 1, gọi là 1-itemsets, bằng cách quét toàn bộ cơ sở dữ liệu. Bỏ qua những thành phần có mức hỗ trợ thắp hơn so yêu cầu. • Mở rộng 1-itemsets thành 2-itemsets bằng cách thêm vào một item cho mỗi phần, để tạo ra các ứng viên hạng mục có chiều dài là 2 .Kiểm tra mức hỗ trợ của các ứng viên hạng mục bằng cách quét vào cơ sở dữ liệu và loại ra những hạng mục không đáp ứng độ phổ biến. • Lặp lại bước trên; tới bước k, các tập ứng cử viên được xác định dựa vào các tập mục lớn đã xác định tại vòng k – 1. • Quá trình xác định các tập mục sẽ kết thúc khi không xác định được thêm tập mục lớn nào nữa.

Luật kết hợp nằm trong Hệ phân cấp • Luật kết hợp nằm trong Hệ phân cấp. • Đó là những loại kết hợp đặc biệt được chú ý vì những lí do đặc biệt. Những mối kết hợp xảy ra trong hệ thống cấp bậc của những mẫu tin. Điển hình, nó có thể chia các mẫu tin trong đó hệ phân cấp độc lập dựa trên tính chất tự nhiên của miền giá trị. • Mối kết hợp phủ định. • Vấn đề đây là khai thác mối kết hợp phủ định thì khó hơn so với khai thác mối kết hợp ngẫu nhiên. Một phủ định mối kết hợp được hiểu :”60% khách hàng mua khoai tây chiên mà không mua nước uống” .(Ở đây, 60% tương ứng với độ tin cậy dành cho luật phủ định mối kết hợp.) • Cân nhắc việc bổ sung các luật kết hợp. • Đối với nguồn dữ liệu rất lớn, một cách để khai thác hiệu quả đó là lấy theo mẫu. • Nếu mẫu tiêu biểu thể hiện được tất cả các đặc tính trong dữ liệu gốc, khi đó hầu hết các luật có thể được thiết lập dựa trên dữ liệu mẫu đó. Một trong số thuật toán đề xuất tìm ra dữ liệu mẫu là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,. v.v

Khai phá dữ liệu