1 / 50

IT4853 Tìm kiếm và trình diễn thông tin

IT4853 Tìm kiếm và trình diễn thông tin. Chương 1: Giới thiệu chung Nguyễn Bá Ngọc. Tìm kiếm thông tin là gì?.

dwight
Download Presentation

IT4853 Tìm kiếm và trình diễn thông tin

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. IT4853 Tìm kiếm và trình diễn thông tin Chương 1: Giới thiệu chung Nguyễn Bá Ngọc

  2. Tìm kiếm thông tin là gì? Tìm kiếm thông tin (IR) là tìm kiếm tài nguyên (thường là những tài liệu) không có cấu trúc (thường là văn bản) trong những bộ dữ liệu lớn (thường được lưu trên máy vi tính) để đáp ứng một nhu cầu thông tin nào đó. Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). [IIR, Christopher D. Manning] Môn học tập trung chủ yếu vào vấn đề tìm kiếm thông tin dạng văn bản (text), và đây cũng là phương tiện thông tin phổ biến nhất.

  3. Tìm kiếm thông tin • Ngày nay khi nói tới tìm kiếm thông tin, chúng ta thường nghĩ ngay tới tìm kiếm trên web, nhưng thực tế có nhiều trường hợp khác: • Tìm kiếm E-mail • Tìm kiếm tệp trên máy tính cá nhân • Tìm kiếm văn bản trong nội mạng công ty • Tìm kiếm sách trong thư viện số • v.v.

  4. Những định hướng mang tính lịch sử • “Sứ mệnh của Google là tổ chức thông tin toàn thế giới và làm cho nó trở nên phổ cập và hữu ích” Larry Page, Sergey Brin, Google’s mission statement, ~1998. • “Memex là một thiết bị để người sở hữu lưu những cuốn sách, ghi chép, và những cuộc đối thoại của họ trong đó. Thiết bị này được cơ khí hóa sao cho có thể giao tiếp với nó một cách linh động với tốc độ cực nhanh. Đó chính là phần mở rộng gắn bó với bộ nhớ của họ.” Vannevar Bush, As we may think, Atlantic monthly, tháng 7 năm 1945.

  5. Truy xuất dữ liệu vs. thông tinData vs. Information retrieval? • Truy xuất dữ liệu • Mục đích chủ yếu là xác định những văn bản trong bộ dữ liệu chứa những từ khóa cụ thể hoặc chuỗi ký tự mẫu • Ngôn ngữ truy xuất dữ liệu xác định chính xác điều kiện mà những đối tượng cần tìm phải thỏa mãn. • Không phù hợp cho mục đích đáp ứng nhu cầu thông tin người dùng. • Truy xuất thông tin • Tập trung vào tìm kiếm văn bản phù hợp với truy vấn người dùng • Khác biệt cơ bản: thỏa mãn điều kiện vs. phù hợp

  6. Truy xuất dữ liệu vs. thông tin So sánh:

  7. Tìm kiếm thông tin vs. cơ sở dữ liệu(Dữ liệu không cấu trúc vs. có cấu trúc) • Dữ liệu có cấu trúc là thuật ngữ thường được sử dụng với ý nghĩa thông tin dạng bảng Nhân viên Quản lý Lương Tài Trí 5 000 000 Thảo Minh 6 000 000 Đức Minh 5 000 000 Thường hỗ trợ tìm kiếm theo khoảng hoặc so khớp, ví dụ, Lương < 6 000 000 AND Quản Lý = Minh

  8. Dữ liệu không có cấu trúc • Dữ liệu không có cấu trúc thường được biết đến là văn bản tự do • Hỗ trợ • Truy vấn bằng từ khóa bao gồm cả toán hạng • Mô hình truy vấn phức tạp hơn, ví dụ: • tìm tất cả trang web có liên quan tới vấn đề sức khỏe • Sử dụng mô hình cổ điển cho tìm kiếm văn bản dạng ký tự

  9. Dữ liệu bán cấu trúc • Thực tế không có dữ liệu nào là hoàn toàn phi cấu trúc • Ví dụ, slide này có hai vùng phân biệt rõ ràng như tiêu đề và nội dung • Hỗ trợ tìm kiếm bán cấu trúc kiểu như • Tiêu đề chứa dữ liệu và nội dung có chứa tìm kiếm • Hoặc thậm chí • Tiêu đề nói về toán rời rạc và tác giả giống như Ng* • Trong đó dấu * là ký tự đại diện

  10. Những phương pháp tìm kiếm thông tin cơ bản • Tìm kiếm bằng cách duyệt (browse) bộ dữ liệu • Theo phương pháp duyệt, văn bản thường được gom thành nhóm (lớp). Các nhóm có thể tiếp tục được tổ chức dưới dạng cây phân cấp. • Tìm kiếm bằng truy vấn • Người dùng thường phải mô tả nhu cầu thông tin bằng ngôn ngữ được hỗ trợ bởi công cụ tìm kiếm (truy vấn). • Hệ thống đưa ra danh sách kết quả mà nó cho rằng sẽ đáp ứng nhu cầu thông tin người dùng (phù hợp).

  11. Ví dụ, duyệt cấu trúc cây

  12. Tổ chức dữ liệu theo dạng cây (1) • Vai trò của cấu trúc dạng cây: • Hỗ trợ duyệt văn bản • Hỗ trợ giải quyết mâu thuẫn ngữ nghĩa • Tiềm năng nâng cao hiệu quả tìm kiếm • Đặc tính kế thừa

  13. Phương pháp xây dựng cây văn bản • Thủ công, bởi chuyên gia – chậm, đắt, không thực tế đối với bộ dữ liệu lớn • Phân loại có kiểm soát • Lớp và cấu trúc cây được thiết lập bởi chuyên gia • Văn bản được tự động xếp vào các lớp • Phân loại không kiểm soát = phân cụm • Những văn bản tương tự được gom thành nhóm • Kết quả bị ảnh hưởng bởi sự đồng nhất của văn bản, phương pháp đánh chỉ mục, phân cụm và tham số

  14. Ví dụ tổ chức văn bản theo cấu trúc dạng cây, Yahoo!

  15. Ví dụ tổ chức văn bản theo cấu trúc dạng cây, hệ thống tệp trong Windows

  16. Tìm kiếm bằng truy vấn:Tác vụ (thao tác) người dùng Tìm kiếm: Nhu cầu thông tin → Truy vấn → Kết quả Duyệt: Di chuyển, lựa chọn văn bản trong bộ dữ liệu.

  17. Tác vụ tìm kiếm • Người dùng phải mô tả nhu cầu thông tin dưới dạng truy vấn • Tập hợp từ khóa • Biểu thức Boolean • Tập điều kiện mà văn bản phải thỏa mãn • v.v. • Hệ thống phải trả về danh sách văn bản (kết quả tìm kiếm)

  18. Ví dụ tác vụ tìm kiếm

  19. Ví dụ tác vụ tìm kiếm, Google

  20. Nội dung chính • 1. Tìm kiếm thông tin là gì? • 2. Quy trình tìm kiếm thông tin • 3. Phân loại hệ thống tìm kiếm và truy vấn • 4. Mô hình tìm kiếm thông tin là gì?

  21. 2. Quy trình tìm kiếm thông tin • Biểu diễn logic văn bản • Xây dựng mô hình giản lược của văn bản như thế nào? • Quy trình tìm kiếm thông tin, kiến trúc tổng quan của hệ thống tìm kiếm • Tổ chức dữ liệu (xây dựng chỉ mục) • Mô tả truy vấn • So sánh mô tả, xếp hạng văn bản

  22. Quy trình xây dựng mô hình giản lược của văn bản • Mỗi văn bản thường được xử lý để trích rút ra những đặc trưng phục vụ mục đích tìm kiếm gọi là biểu diễn logic văn bản hay mô hình văn bản

  23. Ví dụ, xây dựng mô hình văn bản • Bài viết về tác phẩm “Dế mèn phưu lưu ký” từ Wikipedia • "Dế mèn phiêu lưu kí" là tác phẩm văn xuôi đặc sắc và nổi tiếng nhất của Tô Hoài viết về loài vật, dành cho lứa tuổi thiếu nhi. Ban đầu truyện có tên là "Con dế mèn" (chính là ba chương đầu của truyện) do Nhà xuất bản Tân Dân, Hà Nội phát hành năm 1941. Sau đó, được sự ủng hộ nhiệt tình của nhân dân, Tô Hoài viết thêm truyện "Dế Mèn phiêu lưu kí" (là bảy chương cuối của chuyện).

  24. Ví dụ, tách từ • Kết quả: 44 từ/cụm từ • {Dế mèn phiêu lưu kí, là, tác phẩm văn xuôi, đặc sắc, và, nổi tiếng nhất, của, Tô Hoài, viết, về, loài vật, dành cho, lứa tuổi thiếu nhi, Ban đầu, truyện, có tên, là, Con dế mèn, chính là, ba, chương đầu, của, truyện, do, Nhà xuất bản Tân Dân, Hà Nội, phát hành, năm 1941, Sau đó, được, sự ủng hộ, nhiệt tình, của, nhân dân, Tô Hoài, viết thêm, truyện, Dế Mèn phiêu lưu kí, là, bảy, chương, cuối, của, chuyện}

  25. Ví dụ, loại bỏ từ dừng • Kết quả: còn lại 33 từ/cụm từ • {Dế mèn phiêu lưu kí, tác phẩm văn xuôi, đặc sắc, nổi tiếng nhất, Tô Hoài, viết, loài vật, dành cho, lứa tuổi thiếu nhi, Ban đầu, truyện, có tên, Con dế mèn, ba, chương đầu, truyện, Nhà xuất bản Tân Dân, Hà Nội, phát hành, năm 1941, Sau đó, được, sự ủng hộ, nhiệt tình, nhân dân, Tô Hoài, viết thêm, truyện, Dế Mèn phiêu lưu kí, bảy, chương, cuối, chuyện}

  26. Ví dụ, lọc từ loại • Kết quả: còn lại 33 từ/cụm từ • {Dế mèn phiêu lưu kí, tác phẩm văn xuôi, Tô Hoài, loài vật, lứa tuổi thiếu nhi, Ban đầu, truyện, Con dế mèn,ba, chương đầu, truyện, Nhà xuất bản Tân Dân, Hà Nội, năm 1941, Sau đó, sự ủng hộ, nhân dân, Tô Hoài, truyện, Dế Mèn phiêu lưu kí, bảy, chương, chuyện}

  27. Ví dụ, chuẩn hóa chữ hoa/chữ thường • {dế mèn phiêu lưu kí, tác phẩm văn xuôi, tô hoài, loài vật, lứa tuổi thiếu nhi, ban đầu, truyện, con dế mèn,ba, chương đầu, truyện, nhà xuất bản tân dân, hà nội, năm 1941, sau đó, sự ủng hộ, nhân dân, tô hoài, truyện, dế mèn phiêu lưu kí, bảy, chương, chuyện}

  28. Ví dụ, mô hình túi từ (bag-of-words) của văn bản • d = {ba, ban đầu, bảy, chương, chương đầu, chuyện, con dế mèn, dế mèn phiêu lưu kí, hà nội, loài vật, lứa tuổi thiếu nhi, năm 1941, nhà xuất bản tân dân, nhân dân, sau đó, sự ủng hộ, tác phẩm văn xuôi, tô hoài, truyện}

  29. Tách từ theo khoảng trắng • Kết quả: 84 từ • {Dế, mèn, phiêu, lưu, kí, là, tác, phẩm, văn, xuôi, đặc, sắc, và, nổi, tiếng, nhất, của, Tô, Hoài, viết, về, loài, vật, dành, cho, lứa, tuổi, thiếu, nhi, Ban, đầu, truyện, có, tên, là, Con, dế, mèn, chính, là, ba, chương, đầu, của, truyện, do, Nhà, xuất, bản, Tân, Dân, Hà, Nội, phát, hành, năm, 1941, Sau, đó, được, sự, ủng, hộ, nhiệt, tình, của, nhân, dân, Tô, Hoài, viết, thêm, truyện, Dế, Mèn, phiêu, lưu, kí, là, bảy, chương, cuối, của, chuyện}

  30. Lựa chọn phương pháp phân tích văn bản • Phương pháp tách từ đúng là gì? • Giới hạn khả năng thực hiện truy vấn • Ảnh hưởng tới tính chính xác của kết quả • Kích thước chỉ mục • v.v.

  31. Quy trình tìm kiếm thông tin

  32. Ví dụ, kiến trúc tổng quát công cụ tìm kiếm trên Web • Kiến trúc (tổng quan) hệ thống tìm kiếm thông tin trên web

  33. Các thành phần cơ bản của hệ thống tìm kiếm thông tin • Kiến trúc tổng quan hệ thống tìm kiếm thông tin: • I. Bộ thu thập văn bản (sử dụng chương trình tương ứng gọi là bộ quét – crawler, spider). • II. Bộ đánh chỉ mục – tổ chức văn bản để nâng cao hiệu quả tìm kiếm (indexer). • III. Trung tâm thực hiện truy vấn – tiếp nhận một truy vấn, xác định những văn bản phù hợp, và trả về kết quả (có thể kèm xếp hạng). • IV. Giao diện truy vấn – định hình truy vấn và hiển thị kết quả.

  34. Nội dung chính • 1. Tìm kiếm thông tin là gì? • 2. Quy trình tìm kiếm thông tin • 3. Phân loại hệ thống tìm kiếm và truy vấn • 4. Mô hình tìm kiếm thông tin là gì?

  35. 3. Phân loại hệ thống tìm kiếm và truy vấn trên web • Hệ thống tìm kiếm thông tin • Quy mô • Phương tiện • Phạm vi • Truy vấn trên web • Mục đích người dùng

  36. Phân loại hệ thống tìm kiếm theo quy mô • Tìm kiếm cá nhân • Trên một máy tính • Sử dụng tối thiểu tài nguyên máy • Tìm kiếm trong mạng nội bộ • Trong phạm vi một công ty, một tổ chức • Có thể áp dụng thuật toán phức tạp trên máy chủ chuyên biệt • Tìm kiếm trên Web • Khối lượng thông tin lớn • Khó khăn trong việc thu gom dữ liệu • Cần hệ thống máy tính hiệu suất cao

  37. Phân loại theo phương tiện • Tìm kiếm văn bản (text retrieval) • Lĩnh vực truyền thống và phổ biến nhất • Tìm kiếm đa phương tiện • Tài liệu nói (speech) • Video • Hình ảnh • Lĩnh vực mở

  38. Phân loại theo phạm vi • Tự do • Xét đến tất cả văn bản trong bộ dữ liệu • Chọn lọc • Xét đến một phần bộ dữ liệu

  39. Phạm vi tìm kiếm: Tự do vs. chọn lọc • Tìm kiếm tự do:

  40. Tìm kiếm: Tự do vs. Chọn lọc • Chọn lọc:

  41. Tìm kiếm: Tự do vs. chọn lọc • Truy vấn tương đối ổn định trong khi văn bản mới thường xuyên được thêm vào • Xây dựng hồ sơ người dùng để định hình sở thích của người dùng • Ví dụ, vấn đề so khớp chuỗi ký tự khi mẫu cần tìm là cố định và văn bản thay đổi • Bộ dữ liệu văn bản tương đối ổn định trong khi truy vấn thay đổi • Xếp hạng để xác định mức độ phù hợp với nhu cầu thông tin người dùng • Ví dụ, vấn đề so khớp chuỗi ký tự khi cố định văn bản và thay đổi mẫu cần tìm

  42. Phân loại truy vấn trên web theo mục đích người dùng • Truy vấn định hướng • Tìm một trang web cụ thể • Ví dụ, “Trang web Đại học bách khoa hà nội” • Truy vấn giao dịch • Thể hiện mong muốn thực hiện giao dịch • Thường thấy trong các công cụ tìm kiếm trên web • Ví dụ, “Lắp đặt điều hòa” • Truy vấn thông tin • Người dùng cần thông tin nhưng không quan tâm đến trang web có thông tin đó • Ví dụ, “nhiệt độ nóng chảy của sắt”

  43. Nội dung chính • 1. Tìm kiếm thông tin là gì? • 2. Quy trình tìm kiếm thông tin • 3. Phân loại hệ thống tìm kiếm và truy vấn • 4. Mô hình tìm kiếm thông tin là gì?

  44. 4. Mô hình tìm kiếm thông tin là gì? • Nền tảng lý thuyết để xây dựng công cụ tìm kiếm • Giải thích về hoạt động của hệ thống tương ứng • Phương pháp biểu diễn văn bản và truy vấn • Phương pháp so khớp văn bản với truy vấn • Xếp hạng văn bản

  45. Mô hình tìm kiếm thông tin là gì? (1) Mỗi mô hình tìm kiếm được xác định bởi: • D: Biểu diễn của các văn bản • R: Biểu diễn của các truy vấn • F: Nền tảng lý thuyết để mô hình hóa D, Q, và quan hệ giữa chúng • Lý thuyết tập hợp, đại số, xác suất,... • R(d, q): Hàm xếp hạng/đánh giá mức độ phù hợp giữa văn bản và truy vấn.

  46. Các mô hình tìm kiếm

  47. Các mô hình tìm kiếm • Mô hình tìm kiếm, biểu diễn logic văn bản và tác vụ người dùng là những đặc trưng cơ bản của hệ thống tìm kiếm

More Related