Tổng quan về khai phá dữ liệu

Tổng quan về khai phá dữ liệu • Khai phá dữ liệu là gì? • Khai phá dữ liệu và kho dữ liệu. • Khai phá dữ liệu và khai phá tri thức. • Mục tiêu của khai phá dữ liệu và khai phá tri thức. • Một số loại khai phá tri thức dùng cho khai phá dữ liệu.

Khai phá dữ liệu là gì? • Là quá trình khám phá (rút trích) các tri thức mới và các tri thức có ích ở dạng tiềm ẩn trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu….

Khai phá dữ liệu và kho dữ liệu • Mục tiêu của kho dữ liệu là hỗ trợ trong quá trình ra quyết định. • Khai phá dữ liệu được dùng kết hợp với kho dữ liệu giúp cho quá trình ra quyết định được chắc chắn hơn. • Khai phá dữ liệu có thể được ứng dụng trong hoạt động của cơ sở dữ liệu nhưng để có hiệu quả hơn thì nó được dử dụng với kho dữ liệu. • Những ứng dụng của khai phá dữ liệu được suy nghĩ trước trong quá trình thiết kế kho dữ liệu.

Khai phá dữ liệu và khai phá tri thức. • Khai phá dữ liệu là một bước của quá trình khai phá tri thức (Knowledge Discovery Process). • Tiến trình khai phá dữ liệu (KDD: Knowledge Discovery in Database) bao gồm 6 giai đoạn: • Chọn dữ liệu (data selection). • Làm sạch dữ liệu (data cleaning). • Làm giàu dữ liệu (enrichment). • Chuyển đổi dữ liệu hoặc mã hóa (data transformation or encoding ). • Khai phá dữ liệu (data mining). • Báo cáo và trình bày dữ liệu khai thác

Ví dụ: Để duy trì thông tin của cửa hàng chuyên bán lẻ hàng tiêu dùng. Thông tin khách hàng gồm: Tên, zip code, số điện thoại, ngày giao dịch, mã item(item code), giá, số lượng và tổng số lượng hàng mua. • Chọn item là những item đặc biệt, hay những loại item thuộc vùng miền của quốc gia. • Làm sạch dữ liệu: sẽ loại bỏ những số điện thoại có mã vùng sai, hoặc những zip code không hợp lệ. • Làm giàu thông tin: thêm vào mỗi record những thông tin : tuổi, thu nhập,mức độ tin cậy. • Chuyển đổi dữ liệu: việc nhóm các sản phẩm theo các loại như : audio, video, camera, thiế bị điện tử,… • Khai thác dữ liệu áp dụng những luật và mẫu: • Luật kết hợp: khi người dùng mua sản phẩm x sẽ có nhu cầu mua sản phẩm Y. • Mẫu liên tục: nếu người dùng mua một máy camera trong vòng 6 tháng người đó sẽ có nhu cầu mua một số đồ phụ tùng thay thế. • Phân loại dựa trên cây: thẻ tín dụng khách hàng, tiền mặt khách hàng…

Mục tiêu của khai phá dữ liệu và khai phá tri thức • Dự đoán – khai thác dữ liệu hiển thị một số các thuộc tính trong dữ liệu được dùng trong tương lai. • Ví dụ: những mẫu về sóng địa chấn và động đất được dự đoán với xác xuất cao. • Sự nhận dạng- các mẫu dữ liệu có thể được sử dụng để xác định sự tồn tại của một mục, sự kiện, hoặc một hoạt động. • Ví dụ: xác định sự tồn tại của một gene trong chuỗi DNA.

Sự phân loại- khai phá dữ liệu có thể phân vùng dữ liệu, do đó các lớp hoặc các loại khác nhau có thể được xác định dựa trên sự kết hợp của các tham số. • Ví dụ: khách hàng trong siêu thị có thể phân thành: những khách hàng thường xuyên, những khách hàng thường mua giảm giá, những khách không thường xuyên mua hàng… • Tối ưu hóa- một trong những mục tiêu cuối cùng của khai phá dữ liệu là có thể tối ưu hóa việc sử dụng các nguồn tài nguyên hạn chế như: thời gian, không gian, tiền bạc, hoặc nguyên vật liệu.

Một số loại khai phá tri thức dùng cho khai phá dữ liệu. • Tri thức( Knowledge) được phân loại theo tri thức qui nạp và diễn dịch. • Tri thức qui nạp (Inductive knowledge): khám phá các mẫu và các luật mới từ dữ liệu sẵn có. • Tri thức được biễu diễn nhiều dạng: không có cấu trúc, có cấu trúc( cây quyết định, mạng ngữ nghĩa, mạng nơron), dạng luật, mệnh đề logic. • Tri thức được khai phá trong quá trình khai thác dữ liệu có thể mô tả 5 cách:

Luật kết hợp- mối tương quan về sự hiện diện việc thiết lập các bộ thông qua sắp xếp các giá trị khác nhau cho các biến khác nhau. • Ví dụ: Khi một khách nữ mua một túi xách tay, cô ấy cũng thích mua giày. • Hệ thống phân loại- mục tiêu từ các sự việc hoặc các giao dịch tạo ra hệ thống các lớp. • Ví dụ: Về con người có thể chia làm 5 nhóm dựa theo mức độ tin cậy theo những sự giao dịch trước đó.

Mẫu liên tục- chuỗi những hành động hoặc sự việc. • Ví dụ: nếu bệnh nhân trải qua ca phẫu thuật tim dành cho khối động mạch và chứng phình mạch và sau đó lại phát triển sang tăng lượng ure trong máu sau 1 năm phẫu thuật, bệnh nhân đó có thể sẽ phải chịu quả thận hư trong vòng 6 tháng tới. • Chuỗi mẫu thời gian- sự tương tự có thể được tìm thấy trong với mốc của chuỗi thời gian. • Ví dụ: mẫu về sức gió hệ mặt trời có thể dùng dự đoán sự thay đổi khí hậu ở trái đất. • Sự phân loại và sự phân đoạn- phân chia mật độ dân số của các sự kiện hay các item tương tự yếu tố. • Ví dụ: Người trưởng thành ở Mỹ chia thành năm loại từ “thích mua” cho đến “ không thích mua” sản phẩm mới.

Luật kết hợp (Association Rules) • Luật kết hợp. • Các thuật toán cơ bản dựa trên luật kết hợp. • Luật kết hợp nằm trong Hệ phân cấp. • Mối kết hợp phủ định. • Cân nhắc việc bổ sung các luật kết hợp.

Luật kết hợp • Khai thác luật kết hợp là một tiến trình quan trọng trong khai thác dữ liệu, mục đích của nó là tìm ra các luật tiềm ẩn trong CSDL. • Luật kết hợp dựa trên hình thức X => Y. Trong đó X = {x1, x2, …., xn} và Y = {y1, y2, …, ym} , xi, yj là những hạng mục(item) riêng biệt cho tất cả i, j. • Đó là mối kết hợp nếu một khách hàng mua X, người đó cũng sẽ có mua Y. Hình thức LHS (left-hand side), RHS (righthand side). • Thiết lập LHS  RHS được gọi là tập các hạng mục (itemset).

Các phương pháp cần quan tâm: • Độ phổ biến (prevalence)- luật LHS => RHS là phần trăm giao dịch giữa tất cả các hạng mục trong mối kết hợp. • Độtin cậy (strenght)- luật LHS => RHS là % (phân số) của tất cả giao dịch chứa các hạng mục trong LHS và cả hạng mục trong RHS. • Độ tin cậy ước tính là độ phổ biến(LHS  RHS) / hỗ trợ(LHS) .

Ví dụ: Tid time Items 101 6:35 milk, bread cookies, juice 203 7:38 milk, juice 305 8:05 milk, eggs • 8:40 bread, cookies, coffee • Xem xét 2 luật milk=> juice và bread =>juice. • Độ phổ biến{milk, juice} is 50% • Độ phổ biến {bread, juice} is 25% • Độ tin cậy của milk juice is 66.7% • Độ tin cậy của Bread  juice is 50%

Mục tiêu luật kết hợp là phát sinh ra các luật có thể vượt qua ngưỡng của mức hỗ trợ. • Vấn đề của luật kết hợp vì vậy cũng được chia làm 2 vấn đề phụ: • Phát sinh các hạng mục vượt qua ngưỡng. Những hạng mục đó được gọi là hạng mục lớn. • Đối với mỗi hạng mục lớn, tất cả luật có độ tin tưởng nhỏ được phát sinh sau: • Để có hạng mục lớn X và Y  X, sao cho Z= X-Y; khi đó nếu mức hỗ trợ (X)/ mức phổ biến(Y)  độ tin cậy nhỏ nhất, luật Z => Y (i.e X - Y =>Y) là luật hợp lệ.

Các thuật toán cơ bản dựa trên luật kết hợp • Hiện nay các thuật toán tìm các hạng mục lớn được thiết kế để làm những việc sau: • Kiểm tra mức độ hỗ trợ của hạng mục có chiều dài là 1, gọi là 1-itemsets, bằng cách quét toàn bộ cơ sở dữ liệu. Bỏ qua những thành phần có mức hỗ trợ thắp hơn so yêu cầu. • Mở rộng 1-itemsets thành 2-itemsets bằng cách thêm vào một item cho mỗi phần, để tạo ra các ứng viên hạng mục có chiều dài là 2 .Kiểm tra mức hỗ trợ của các ứng viên hạng mục bằng cách quét vào cơ sở dữ liệu và loại ra những hạng mục không đáp ứng độ phổ biến. • Lặp lại bước trên; tới bước k, các tập ứng cử viên được xác định dựa vào các tập mục lớn đã xác định tại vòng k – 1. • Quá trình xác định các tập mục sẽ kết thúc khi không xác định được thêm tập mục lớn nào nữa.

Một số thuật toán thường gặp: • Thuật toán Apriori. • Thuật toán Sampling. • Thuật toán cây Frequent-pattern. • Thuật toán Phân vùng.

Luật kết hợp nằm trong Hệ phân cấp. • Đó là những loại kết hợp đặc biệt được chú ý vì những lí do đặc biệt. • Những mối kết hợp xảy ra trong hệ thống cấp bậc của những mẫu tin. Điển hình, nó có thể chia các mẫu tin trong đó hệ phân cấp độc lập dựa trên tính chất tự nhiên của miền giá trị. • Ví dụ: thức ăn trong siêu thị những hạng mục trong cùng một tầng hay quần áo trong một tiệm đồ thể thao đều có thể được phân loại theo lớp hoặc phân lớp.

Mối kết hợp phủ định. • Vấn đề đây là khai thác mối kết hợp phủ định thì khó hơn so với khai thác mối kết hợp ngẫu nhiên. • Một phủ định mối kết hợp được hiểu :”60% khách hàng mua khoai tây chiên mà không mua nước uống” .(Ở đây, 60% tương ứng với độ tin cậy dành cho luật phủ định mối kết hợp.)

Cân nhắc việc bổ sung các luật kết hợp. • Đối với nguồn dữ liệu rất lớn, một cách để khai thác hiệu quả đó là lấy theo mẫu. • Nếu mẫu tiêu biểu thể hiện được tất cả các đặc tính trong dữ liệu gốc, khi đó hầu hết các luật có thể được thiết lập dựa trên dữ liệu mẫu đó. Một trong số thuật toán đề xuất tìm ra dữ liệu mẫu là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,. v.v. • Đây là tiến trình có tìm ẩn nguy cơ khi khám phá một số hạng mục sai( hạng mục lớn thì thật sự không lớn) cách tốt nhất bỏ qua các phủ định sai ở một số hạng mục lớn và tương ứng một số luật kết hợp.

Khám phá luật kết hợp trong cơ sở dữ liệu thực rắc rối do các yếu tố: • Trong một số trường hợp tập hợp con của các hạng mục thì vô cùng lớn, và số lượng của các giao tác là rất cao. • Hoạt động của các cơ sở dữ liệu cửa hàng bán lẻ tập hợp thông tin trao đổi của các quốc gia lên đến hàng chục triệu mỗi ngày. • Các giao tác biểu thị tính thay đổi trong các nhân tố liên quan vị trí địa lí và các mùa, làm mẫu phức tạp. • Mẫu của các phân lớp tồn tại dạng đa chiều. Do đó, việc điều khiển tiến trình khai thác với miền tri thức, đặc biệt những luật phủ định, thì cực kì khó. • Đặc trưng của dữ liệu là có thể thay đổi; vấn đề quan trọng tồn tại việc bỏ qua, không đúng, trùng lắp, được xem như là dữ liệu thừa ở nhiều quốc gia.

Ví dụ: • Việc kiểm tra dữ liệu là mẫu máu với thuộc tính như hemoglobin, đếm tế bào máu đỏ, tế bào màu trắng, tỉ lệ đường trong máu, ure, tuổi của bệnh nhân, và vân vân. Mỗi thuộc tính có thể chia thành loại, và sự có mặt của thuộc tính với một giá trị khác nhau có thể được cho là một mẫu. • Vì vậy, nếu thuộc tính hemoglobin được chia loại: 0-5, 6-7, 8-9,10-12,13-14 và trên 14, khi đó chúng sẽ tương ứng là những mẫu H1, H2, H3,…, H7. Một giá trị hemoglobincủa bệnh nhân sẽ một trong 7 mẫu có sẵn trên.

Tổng quan về khai phá dữ liệu