1 / 53

IT4853 Tìm kiếm và trình diễn thông tin

IT4853 Tìm kiếm và trình diễn thông tin. Chương 3: Đánh giá hiệu quả tìm kiếm Nguyễn Bá Ngọc. Nội dung chính. Đánh giá chất lượng của công cụ tìm kiếm Bốn đặc trưng chất lượng Đánh giá dựa trên tập kết quả mẫu Những bộ dữ liệu chuẩn phổ biến Trình diễn kết quả tìm kiếm. Nội dung chính.

Download Presentation

IT4853 Tìm kiếm và trình diễn thông tin

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. IT4853 Tìm kiếm và trình diễn thông tin Chương 3: Đánh giá hiệu quả tìm kiếm Nguyễn Bá Ngọc

  2. Nội dung chính • Đánh giá chất lượng của công cụ tìm kiếm • Bốn đặc trưng chất lượng • Đánh giá dựa trên tập kết quả mẫu • Những bộ dữ liệu chuẩn phổ biến • Trình diễn kết quả tìm kiếm

  3. Nội dung chính • Đánh giá chất lượng của công cụ tìm kiếm • Bốn đặc trưng chất lượng • Đánh giá dựa trên tập kết quả mẫu • Những bộ dữ liệu chuẩn phổ biến • Trình diễn kết quả tìm kiếm

  4. Những độ đo dựa trên xếp hạng Phù hợp nhị phân Độ chính xác tại K (Precision@K hoặc P@K) Bình quân độ chính xác trung bình (MAP) Độ chính xác R (R-Precision) Trung bình hạng nghịch đảo (MRR) Phù hợp đa mức Tổng mức lợi ích đã giảm giá trị sau chuẩn hóa (NDCG)

  5. Precision@K Thiết lập ngưỡng K Tính tỉ lệ văn bản phù hợp trong K kết quả đầu tiên Bỏ qua những văn bản xếp hạng thấp hơn K Ví dụ: d1*, d2, d3*, d4, d5* Precision@3 = 2/3 Precision@4 = 2/4 Precision@5 = 3/5 Một cách tương tự chúng ta có Recall@K

  6. Bình quân độ chính xác trung bình (MAP) Ghi nhớ vị trí của mỗi văn bản phù hợp K1, K2, … KR Tính Precision@K cho mỗi K1, K2, … KR Độ chính xác trung bình = trung bình của P@K Ví dụ: d1*, d2, d3*, d4, d5* có AvgPrec (AP) bằng MAP là độ chính xác trung bình trên tất cả truy vấn

  7. Độ chính xác trung bình (AP) • Xếp hạng # 1: (1,0 + 0,67 + 0,75 + 0,8 + 0,83 + 0,6)/6 = 0,78 • Xếp hạng # 2: (0,5 + 0,4 + 0,5 + 0,57 + 0,56 + 0,6)/6 = 0,52 ****** Văn bản phù hợp

  8. Bình quân độ chính xác trung bình (MAP) ***** Văn bản phù hợp với truy vấn 1 *** Văn bản phù hợp với truy vấn 2 Độ chính xác trung bình truy vấn 1 = (1,0 + 0,67 + 0,5 + 0,44 + 0,5)/5 = 0,62 Độ chính xác trung bình truy vấn 2 = (0,5 + 0,4 + 0,43)/3 = 0,43 Bình quân độ chính xác trung bình = (0,62 + 0,44)/2 = 0,53

  9. Bình quân độ chính xác trung bình • Nếu một văn bản phù hợp không được trả về thì chúng ta coi độ chính xác ứng với văn bản đó bằng 0 • MAP là trung bình vĩ mô • Coi các truy vấn bình đẳng • Hiện nay hầu như là độ đo phổ biến nhất trong nghiên cứu

  10. Độ chính xác R Độ chính xác tại vị trí R trong danh sách kết quả ứng với một truy vấn có R văn bản phù hợp R = # văn bản phù hợp = 6 R-Precision = 4/6 = 0.67

  11. Trung bình hạng nghịch đảo Giả sử chỉ có một văn bản phù hợp duy nhất Kịch bản: Tìm kiếm văn bản đã biết Truy vấn định hướng Tìm kiếm một sự khẳng định (fact) Thời gian tìm kiếm tỉ lệ với vị trí xếp hạng Đo công sức của người dùng

  12. Trung bình hạng nghịch đảo (1) Xét vị trí xếp hạng, K, của văn bản phù hợp đầu tiên Giá trị hạng nghịch đảo = MRR là trung bình của RR trên tất cả truy vấn mẫu

  13. Sự phù hợp đa mức Mức phù hợp cao Mức phù hợp trung bình

  14. Tổng mức lợi ích đã giảm giá trị (Discounted cumulative gain) • Độ đo phổ biến để đánh giá tìm kiếm trên web và những thao tác liên quan • Hai giả thuyết: • Những văn bản phù hợp ở mức cao thì hữu ích hơn những văn bản ở ngưỡng phù hợp • Vị trí xếp hạng của một văn bản phù hợp càng thấp thì nó càng ít hữu ích cho người dùng, bởi vì nó có ít cơ hội được xét đến

  15. Tổng mức lợi ích đã giảm giá trị • Sử dụng sự phù hợp đa mức như độ đo lợi ích thu được từ kiểm duyệt một văn bản • Mức lợi ích được tổng hợp từ đầu danh sách xếp hạng và có thể bị giảm giá trị ở những vị trí xếp hạng thấp hơn • Luật giảm giá trị phổ biến là 1/log(rank) • Với cơ số 2, mức giảm giá trị ở vị trí 4 là 1/2, và ở vị trí 8 là 1/3

  16. Đánh giá kết quả xếp hạng: DCG Tổng mức lợi ích (CG) tại vị trí xếp hạng n Đặt mức độ phù hợp của n văn bản là r1, r2, …rn (theo thứ tự xếp hạng) CG = r1+r2+…rn Tổng mức lợi ích đã giảm giá trị (DCG) tại vị trí n DCG = r1 + r2/log22 + r3/log23 + … rn/log2n Chúng ta có thể sử dụng hệ cơ số bất kỳ cho hàm log

  17. Tổng mức lợi ích đã giảm giá trị • DCG là tổng mức hữu ích tích lũy được ở vị trí xếp hạng p cụ thể: • Công thức tương đương: • Nhấn mạnh vào tìm kiếm những văn bản có độ phù hợp cao

  18. Ví dụ DCG • 10 văn bản đã xếp hạng được đánh giá theo thang điểm phù hợp 0-3: 3, 2, 3, 0, 0, 1, 2, 2, 3, 0 • Mức lợi ích đã giảm giá trị: 3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2.81, 2/3, 3/3.17, 0 = 3, 2, 1.89, 0, 0, 0.39, 0.71, 0.67, 0.95, 0 • DCG: 3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61

  19. Đánh giá kết quả xếp hạng: NDCG Tổng mức lợi ích đã giảm giá trị sau chuẩn hóa (NDCG) tại vị trí n Chia DCG tại vị trí n cho giá trị DCG tại vị trí n của một xếp hạng mẫu Xếp hạng mẫu phải trả về văn bản theo thứ tự giảm dần mức độ phù hợp đã định Giá trị chuẩn hóa sẽ hữu ích trong so sánh những xếp hạng với số lượng văn bản phù hợp khác nhau NDCG hiện nay khá phổ biến trong đánh giá kết quả tìm kiếm trên Web

  20. NDCG – Ví dụ 4 văn bản: d1, d2, d3, d4

  21. Nội dung chính • Đánh giá chất lượng của công cụ tìm kiếm • Bốn đặc trưng chất lượng của công cụ tìm kiếm • Đánh giá dựa trên tập kết quả mẫu • Những bộ dữ liệu chuẩn phổ biến • Trình diễn kết quả tìm kiếm

  22. Dữ liệu sử dụng trong đánh giá dựa trên tập kết quả mẫu • Bộ văn bản mẫu • Văn bản sử dụng cho đánh giá phải sát với những văn bản mà chúng ta sẽ xử lý trong thực tế. • Tập nhu cầu thông tin • . . .thể hiện dưới dạng truy vấn • Những nhu cầu thông tin mẫu cần bao quát được những trường hợp thực tế khác nhau. • Đánh giá phù hợp bởi người dùng • Đánh giá thủ công đòi hỏi nhiều thời gian. • Chi phí cao, không khả thi đối với những bộ dữ liệu lớn • Người đánh giá phải là người đại diện cho những nhóm người dùng khác nhau trong thực tế.

  23. Bộ dữ liệu chuẩn: TREC • TREC = Text Retrieval Conference (TREC) • Được tổ chức bởi U.S. National Institute of Standards and Technology (NIST) • TREC là tổ hợp của một vài bộ dữ liệu khác nhau. • Phổ biến nhất là TREC Ad Hoc, được sử dụng cho 8 hội thảo TREC đầu tiên giữa những năm 1992 và 1999 • 1.89 triệu văn bản, chủ yếu là tin tức và 450 nhu cầu thông tin • Không có đánh giá phù hợp đầy đủ vì cần kinh phí quá cao • NIST cung cấp đánh giá cho những văn bản trong top k được trả về bởi những hệ thống tham gia hội thảo TREC cho những nhu cầu thông tin đã được đưa ra.

  24. Đánh giá phù hợp • Sự phù hợp là rất trừu tượng • Người dùng thường kết luận văn bản có phù hợp hay không sau khi họ kiểm tra nó • Những người dùng khác nhau thường không thống nhất về sự phù hợp của văn bản • Người biên soạn tập kết quả phù hợp cần sử dụng chung một định nghĩa tường minh của sự phù hợp

  25. Ví dụ một chủ đề (nhu cầu thông tin) trong TREC <top> <num> Number: 351 <title> Falkland petroleum exploration <desc> Description: What information is available on petroleum exploration in the South Atlantic near the Falkland islands? <narr> Narrative: Any document discussing petroleum exploration in the South Atlantic near the Falkland Islands is considered relevant. Documents discussing petroleum exploration in continental South America are not relevant. </top>

  26. Định nghĩa sự phù hợp • TREC định nghĩa sự phù hợp như sau: If you were writing a report on the subject of the topic and would use the information contained in the document in the report, then the document is relevant. Only binary judgments ("relevant" or "not relevant") are made, and a document is judged relevant if any piece of it is relevant (regardless of how small the piece is in relation to the rest of the document). Giả sử nếu bạn đang viết một báo cáo về chủ đề đang xét và bạn muốn sử dụng thông tin chứa trong một văn bản cụ thể trong báo cáo của mình thì văn bản đó được coi là phù hợp. Chỉ thực hiện đánh giá nhị phân (“phù hợp" hoặc “không phù hợp"), và một văn bản được coi là phù hợp nếu một phần bất kỳ của nó là phù hợp (không quan tâm phần đó nhỏ tới mức nào nếu so sánh với phần còn lại của văn bản).

  27. Kiểm định đánh giá phù hợp • Đánh giá phù hợp chỉ có thể sử dụng được nếu nó đảm bảo tính xác thực. • Nếu chúng không xác thực, thì sẽ không có “chân lý” và không lặp lại thí nghiệm được. • Chúng ta đo sự thống nhất giữa những thành viên tham gia đánh giá như thế nào? • → Chỉ số Kappa

  28. Chỉ số kappa • Chỉ số kappa thể hiện mức độ thống nhất giữa những đánh giá. • Được thiết kế để đánh giá kết quả phân lớp • P(A) = tỉ lệ số lần thống nhất giữa những đánh giá • P(E) = giá trị mong đợi của tỉ lệ thống nhất ngẫu nhiên • Giá trị к trong khoảng [2/3, 1.0] là chấp nhận được. • Với những giá trị nhỏ hơn: cần điều chỉnh phương pháp đánh giá phù hợp đang sử dụng.

  29. Ví dụ tính chỉ số thống kê kappa Theo dõi tỉ lệ số lần thống nhất của kết quả P(A) = (300 + 70)/400 = 370/400 = 0.925 Giá trị biên tổng hợp P(không phù hợp) = (80 + 90)/(400 + 400) = 170/800 = 0.2125 P(phù hợp) = (320 + 310)/(400 + 400) = 630/800 = 0.7878 Giá trị xác suất của sự thống nhất ngẫu nhiên P(E) = P(không phù hợp)2 + P(phù hợp)2 = 0.212522 + 0.787822 = 0.665 Chỉ số kappa к = (P(A) − P(E))/(1 − P(E)) = (0.925 − 0.665)/(1 − 0.665) = 0.776 (trong khoảng được chấp nhận)

  30. Sự thống nhất giữa những thành viên đánh giá tại TREC

  31. Ảnh hưởng của sự không thống nhất giữa những thành viên • Sự thống nhất giữa những thành viên nằm ở mức thấp. Liệu điều đó có làm kết quả thí nghiệm trở nên vô nghĩa? • Không! Đã thực hiện thí nghiệm sử dụng kết quả đánh giá của một thành viên • Ảnh hưởng lớn tới giá trị của các độ đo • Không ảnh hưởng gì tới thứ tự xếp hạng các hệ thống • Giả sử chúng ta muốn biết liệu thuật toán A có tốt hơn thuật toán B? • Phương pháp đánh giá sử dụng kết quả mẫu sẽ cho chúng ta một câu trả lời đáng tin cậy. . . • . . . kể cả nếu tồn tại sự không thống nhất giữa những người biên soạn kết quả mẫu.

  32. Bộ dữ liệu Cranfield • Vai trò tiên phong: bộ dữ liệu đầu tiên cho phép định lượng chất lượng trong tìm kiếm thông tin • Ra đời cuối những năm 1950s, UK • 1398 tóm tắt tạp trí khí động lực học và 225 truy vấn, cùng với đánh giá phù hợp đầy đủ cho tất cả cặp truy vấn – văn bản • Quá nhỏ, không phù hợp để đánh giá công cụ tìm kiếm thông tin quy mô lớn như ngày nay

  33. Một vài bộ dữ liệu khác • Những thí nghiệm đầu tiên thường tiến hành trên những bộ dữ liệu tương đối nhỏ Collection Number Of Number Of Raw Size Name Documents Queries (Mbytes) CACM 3,204 64 1.5 CISI 1,460 112 1.3 CRAN 1,400 225 1.6 MED 1,033 30 1.1 TIME 425 83 1.5 • Những nhà nghiên cứu khác nhau thường sử dụng những bộ dữ liệu và kỹ thuật đánh giá khác nhau.

  34. Bộ dữ liệu CACM • Bộ dữ liệu nhỏ, bao gồm những tài liệu thuộc khoa học máy tính • Khoảng 3 204 văn bản – những báo cáo được công bố ở the Communications of the ACM (1958 – 1979) • Phù hợp để đánh giá thuật toán tìm kiếm dựa trên thông tin trích (citation) dẫn giữa những văn bản.

  35. Bộ dữ liệu CACM: trường dữ liệu có cấu trúc • Bộ dữ liệu còn chứa những dữ liệu có cấu trúc: • Tên tác giả • Thông tin ngày tháng • Thuật ngữ được tách ra ở mục tiêu đề và tóm tắt • Phân loại được rút ra từ sơ đồ phân loại • Trích dẫn trực tiếp giữa những bài báo • Những tài liệu tham khảo giống nhau (bibliographic coupling) • Số trích dẫn giống nhau (co-citation) cho mỗi cặp bài báo

  36. Truy vấn CACM • Bộ dữ liệu CACM sử dụng 52 mô tả nhu cầu thông tin • Ví dụ nhu cầu thông tin số 1: • What articles exist which deal with TSS (Time Sharing System), an operating system for IBM computers? • Với mỗi nhu cầu thông tin, bộ dữ liệu còn cung cấp 2 truy vấn Boolean và tập hợp văn bản phù hợp (khoảng 15)

  37. Bộ dữ liệu CISI (ISI) • Gồm những văn bản được lựa chọn từ một bộ dữ liệu thiết lập bởi H. Small tại Institute of Scientific Information (ISI) • H. Small. The relationship of information science to the social sciences: A co-citation analysis. Information Processing & Management, 17(1): 39-50, 1981

  38. Bộ dữ liệu CISI (2) • Văn bản trong CISI gồm những trường sau: • Tên tác giả • Thuật ngữ tách từ tiêu đề và tóm tắt • Thông số đồng trích dẫn (co-citation) cho mỗi cặp báo cáo • Truy vấn • Khoảng 35 nhu cầu thông tin cùng với truy vấn Boolean tương ứng • Khoảng 41 nhu cầu thông tin bổ xung (không có truy vấn Boolean tương ứng) • Tập văn bản phù hợp với mỗi nhu cầu thông tin (~50)

  39. Bộ dữ liệu Cystic Fibrosis (CF) • 1,239 tóm tắt bài báo tạp chí y học • 100 nhu cầu thông tin (truy vấn) dưới dạng câu hỏi tiếng Anh đầy đủ • văn bản phù hợp được xác định và xếp hạng bởi 4 chuyên gia y tế độc lập theo thang 0-2 • 0: không phù hợp • 1: trên ngưỡng phù hợp • 2: phù hợp mức độ cao

  40. Trường dữ liệu văn bản CF • Số truy cập MEDLINE • Tác giả • Tiêu đề • Nguồn (source) • Chủ đề chính • Chủ đề phụ • Tóm tắt • Liên kết tới văn bản khác • Trích dẫn đến văn bản này

  41. Ví dụ văn bản CF AN 74154352 AU Burnell-R-H. Robertson-E-F. TI Cystic fibrosis in a patient with Kartagener syndrome. SO Am-J-Dis-Child. 1974 May. 127(5). P 746-7. MJ CYSTIC-FIBROSIS: co. KARTAGENER-TRIAD: co. MN CASE-REPORT. CHLORIDES: an. HUMAN. INFANT. LUNG: ra. MALE. SITUS-INVERSUS: co, ra. SODIUM: an. SWEAT: an. AB A patient exhibited the features of both Kartagener syndrome and cystic fibrosis. At most, to the authors' knowledge, this represents the third such report of the combination. Cystic fibrosis should be excluded before a diagnosis of Kartagener syndrome is made. RF 001 KARTAGENER M BEITR KLIN TUBERK 83 489 933 002 SCHWARZ V ARCH DIS CHILD 43 695 968 003 MACE JW CLIN PEDIATR 10 285 971 … CT 1 BOCHKOVA DN GENETIKA (SOVIET GENETICS) 11 154 975 2 WOOD RE AM REV RESPIR DIS 113 833 976 3 MOSSBERG B MT SINAI J MED 44 837 977 …

  42. Ví dụ truy vấn CF QN 00002 QU Can one distinguish between the effects of mucus hypersecretion and infection on the submucosal glands of the respiratory tract in CF? NR 00007 RD 169 1000 434 1001 454 0100 498 1000 499 1000 592 0002 875 1011 QN 00004 QU What is the lipid composition of CF respiratory secretions? NR 00009 RD 503 0001 538 0100 539 0100 540 0100 553 0001 604 2222 669 1010 711 2122 876 2222 NR: Số văn bản phù hợp RD: Những văn bản phù hợp Hạng: Bốn đánh giá 0-2, mỗi giá trị từ một chuyên gia

  43. Nội dung chính • Đánh giá chất lượng của công cụ tìm kiếm • Bốn đặc trưng chất lượng của công cụ tìm kiếm • Đánh giá dựa trên tập kết quả mẫu • Những bộ dữ liệu chuẩn phổ biến • Trình diễn kết quả tìm kiếm

  44. Trình diễn kết quả như thế nào? • Phổ biến nhất: dưới dạng một danh sách • “Đường dẫn tới khoảng 10 văn bản gốc” • Nên mô tả văn bản trong danh như thế nào? • Mô tả này có vai trò quan trọng. • Người dùng thường có thể xác định kết quả phù hợp dựa trên mô tả đó. • Không cần mở tất cả văn bản theo thứ tự

  45. Mô tả văn bản • Phổ biến nhất: tiêu đề văn bản, url, siêu dữ liệu . . . • . . . và một đoạn tóm tắt • Chúng ta sinh (tính) đoạn tóm tắt như thế nào?

  46. Tóm tắt • Hai dạng cơ bản: (i) tĩnh (ii) động • Tóm tắt tĩnh của một văn bản là không đổi cho mọi truy vấn được cung cấp bởi người dùng. • Tóm tắt động phụ thuộc vào truy vấn. Cố gắng giải thích vì sao văn bản phù hợp với truy vấn đó.

  47. Tóm tắt tĩnh • Thực tế, tóm tắt tĩnh là một phần nội dung văn bản. • Giải thuật tham lam đơn giản nhất: 50 từ đầu tiên (hoặc hơn) của văn bản • Phức tạp hơn: trích từ mỗi văn bản một tập những câu quan trọng nhất • Giải thuật tham lam (NLP) để đánh giá độ quan trọng của câu • Tóm tắt được tổng hợp từ những câu được đánh giá cao nhất. • Phức tạp nhất: Sử dụng phương pháp NLP để tổng hợp/sinh đoạn tóm tắt • Ít khi được sử dụng trong công cụ tìm kiếm

  48. Tóm tắt động • Cung cấp một hoặc nhiều “cửa sổ” trích đoạn văn bản có chứa từ truy vấn. • Ưu tiên trích đoạn trong đó từ truy vấn xuất hiện như một câu • Ưu tiên trích đoạn trong đó từ truy vấn xuất hiện tập trung trong một cửa sổ nhỏ • Trích đoạn được tính theo cách này là toàn bộ nội dung của cửa sổ (không chỉ từ trong truy vấn).

  49. Tóm tắt động, ví dụ Truy vấn: “phát triển kinh tế Việt Nam” Trích đoạn (được bôi đen) được trích rút ra từ một văn bản: ... Trong giai đoạn này, kinh tế Việt Nam Dân chủ Cộng hòa phát triển bình quân năm là 6% (GDP đầu người bình quân năm tăng khoảng 3%), còn kinh tế Việt Nam Cộng hòa phát triển trung bình 3,9%/năm (bình quân đầu người tăng 0,8%). Đặc biệt kinh tế Việt Nam Cộng hòa phát triển ở số âm trong giai đoạn 1965-75 phần lớn do chiến tranh đã lan rộng khắp miền và ở mức độ quyết liệt ... [Google] ...Từ chỗ chỉ hợp tác thương mại thông thường đã tiến tới hợp tác kinh tế toàn diện, từ chỗ hợp tác song phương đã tiến tới hợp tác kinh tế đa phương. Cho đến giữa năm 2007, Việt Nam đã có quan hệ kinh tế với 224 nước và vùng lãnh thổ trên thế giới, đã ký hơn 350 hiệp định hợp tác phát triển song phương, 87 hiệp định thương mại, 51 hiệp định thúc đẩy và bảo hộ đầu tư, 40 hiệp định tránh đánh thuế hai lần, 81 thoả thuận về đối xử tối huệ quốc....[Cốc Cốc]

  50. Tóm tắt tĩnh • Truy vấn “GDP Việt Nam” hoặc “phát triển kinh tế Việt Nam” • Trích đoạn từ văn bản trong Wikipedia tiếng việt (phần bôi đen): Việt Nam là nền kinh tế lớn thứ 6 ở Đông Nam Á và lớn thứ 57 trên thế giới xét theo quy mô tổng sản phẩm nội địa danh nghĩa năm 2011 và đứng thứ 128 xét theo tổng sản phẩm nội địa danh nghĩa bình quân đầu người. Tổng Thu nhập nội địa GDP năm 2011 là 124 tỷ USD ... [Yahoo!]

More Related