THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008

Tính cấp thiết • World Wide Web đã xâm nhập vào cuộc sống hàng ngày • Giao diện cho Web tiến triển từ duyệt đến tìm kiếm • DL là một trong những hướng nghiên cứu chính về công nghệ thông tin trên thế giới • Tổng quan hoạt động nghiên cứu DL • Sự bùng nổ về nghiên cứu DL, các dự án và chương trình DL ở Mỹ và trên thế giới • Trọng tâm của các dự án DL • Về công nghệ: các phương pháp và công nghệ mới về lưu trữ và tìm kiếm thông tin

(tiếp) • Về xã hội: khảo sát CSDL tài liệu và các vấn đề xã hội liên quan tới DL • Hoạt động nghiên cứu DL ở Mỹ • Có nhiều hoạt động và chương trình nghiên cứu DL đang được tiến hành ở Mỹ và số lượng tăng nhanh • 2 dự án DL được tài trợ bởi chính phủ Mỹ là Dự án thư viện số - giai đoạn 2 (DLI-2) và Dự án thư viện số quốc tế • Dự án thư viện số DLI: • Dự án thư viện video số Informedia của Đại học Carnegie Mellon CMU

(tiếp) • Dự án dịch vụ thông tin số của Đại học California ở Berkeley • Dự án Alexandria của Đại học California ở Santa Barbara • Dự án Interspace của Đại học Illinois ở Urbana-Champaign • Dự án UMDL của Đại học Michigan • Dự án InfoBus của Đại học Stanford • Các dự án DL chủ yếu khác ở Mỹ: • Thư viện quốc hội (Library of Congress) • Dự án công nghệ thư viện số DLT của NASA • Dự án FedStats của hơn 70 cơ quan chính phủ khác nhau của Mỹ

(tiếp) • Dự án thư viện số của IBM • Dự án thư viện số California CDL • Chương trình thư viện số D-Lib của DARPA (the Defence Advanced Researh Project Agency) • Dự án MOA của hai Đại học Cornel và Michigan • Dự án Open Book của Đại học Yale • Dự án hợp tác Red Sage của Đại học California ở San Francisco, Công ty AT&T Laboratories và Springer-Verlag • Dự án TULIP của nhà xuất bản Elsevier Science Publisher

(tiếp) • Hoạt động DL ở các nước khác: Tập trung vào các CSDL tài liệu, nói riêng vào nâng cao truy cập tới các CSDL tài liệu về lịch sử, văn hoá và nghệ thuật: Canada, Anh, Pháp, Đức, Nhật, Hàn quốc, Singapore, Trung quốc, Hồng Kông, Đài loan, Australia, New Zealand

(tiếp) • Việt Nam • Nhu cầu nghiên cứu DL bắt đầu từ khi hoạch định chiến lược phát triển thông tin - thư viện cho đến năm 2010, 2020, trước xu thế của sự chuyển hướng toàn cầu sang xã hội thông tin • Xây dựng DL lý tưởng, độc lập, với vốn tư liệu hoàn toàn số hoá, với toàn bộ dịch vụ chuyển sang phương thức điện tử, là không khả thi • Xu hướng sẽ xuất hiện nhiều thư viện điện tử là kết quả của quá trình tin học hoá, là các cổng vào thông tin và là một bộ phận của các thư viện lớn truyền thống ở Việt Nam

(tiếp) • Con đường mà đại bộ phận thư viện sẽ đi là: kết hợp các nguồn tin truyền thống với hiện đại, bổ sung thêm các tạp chí điện tử toàn văn trên CD-ROM, đặt mua các tạp chí điện tử toàn văn trên mạng, số hoá một phần vốn tư liệu, tự động hoá các dịch vụ và tạo điều kiện cho NSD chủ động khai thác thông tin • Hiện nay, một số phần mềm được cài đặt: • Giải pháp thư viện điện tử ILIB của công ty CMC ở Thư viện Quốc giaViệt Nam • Giải pháp thư viện điện tử LIBOL của công ty Tinh vân ở Trung tâm Thông tin khoa học và công nghệ Quốc gia • Hệ phần mềm thư viện số Greenstone của dự án New Zealand Digital Library ở thư viện Đại học Khoa học tự nhiên TP Hồ Chí Minh

I. TỔNG QUAN VỀ THƯ VIỆN SỐ 1. ĐỊNH NGHĨA • Định nghĩa 1.1 (Arms W.Y.):DL là một kho thông tin có quản lý với các dịch vụ liên kết, trong đó thông tin được lưu trữ ở dạng số và có thể truy cập qua một mạng. • Định nghĩa 1.2 (Chen H., Houston A.L.): DL là một thực thể liên quan tới sự tạo ra các nguồn tin và sự hoạt động thông tin qua các mạng toàn cầu. • Định nghĩa 1.3 (Reddy R., Wladawsky-Berger I.): DL là các kho dữ liệu mạng về tài liệu văn bản số, ảnh, âm thanh, dữ liệu khoa học và phần mềm là lõi của Internet hiện nay và các kho dữ liệu số có thể truy cập phổ biến về tất cả tri thức của loài người trong tương lai.

(tiếp) • Định nghĩa 1.4 (Sun Microsystems): DL là sự mở rộng điện tử về các chức năng điển hình NSD thực hiện và các tài nguyên NSD truy cập trong thư viện truyền thống. • Định nghĩa 1.5 (Witten I.H., Bainbridge D.): DL là các kho đối tượng số, bao gồm văn bản, video và audio cùng với các phương pháp truy cập và tìm kiếm, lựa chọn, tổ chức và bảo trì. • Tóm lại, thư viện số là một kho thông tin số khổng lồ có tổ chức với các dịch vụ liên kết qua mạng. • LÝ DO CHÍNH XÂY DỰNG DLThư viện số phân phát thông tin tốt hơn thư viện truyền thống

(tiếp) • LỢI ÍCH CỦA DL • Thư viện số mang thư viện đến người sử dụng • Máy tính được sử dụng để tìm kiếm và duyệt • Thông tin có thể được chia sẻ • Thông tin dễ dàng cập nhật hơn • Thông tin luôn sẵn có • Các dạng thông tin mới trở thành thực hiện được • Giá của DL • 4 lĩnh vực kỹ thuật nổi bật đối với DL • Lưu trữ điện tử trở nên rẻ hơn giấy • Hiển thị máy tính cá nhân trở nên dùng thích hợp hơn • Mạng tốc độ cao trở nên phổ biến • Máy tính trở nên di động

(tiếp) • NGHIÊN CỨU TIN HỌC TRONG DL • Mô hình đối tượng • Giao diện NSD • Chỉ mục và Tìm kiếm thông tin • Quản trị và bảo trì CSDL • Tính liên tác • CHỈ MỤC & TÌM KIẾM THÔNG TIN • Siêu dữ liệu mô tả • Chỉ mục tự động • Xử lý ngôn ngữ tự nhiên • Tài liệu phi văn bản

Kho lưu trữ NSD Hệ thống định vị Hệ thống tìm kiếm (tiếp)Hình - Máy tính trong thư viện số (W.Y.Arms)

(tiếp) 2. Mô hình hình thức cho DL • Cơ sở toán học • Dòng Định nghĩa 1.14: Một dòng là một dãy có miền giá trị là một tập không rỗng. • Cấu trúcĐịnh nghĩa 1.15: Một cấu trúc là một bộ (G, L, F), trong đó G = (V, E) là một dồ thị có hướng với tập đỉnh V và tập cạnh E, L là một tập giá trị nhãn và F là một hàm gán nhãn F : (V  E)  L • Không gian Định nghĩa 1.23: Một không gian là một không gian đo được, không gian độ đo, không gian xác suất, không gian vector hoặc một không gian topo

(tiếp) • Kịch bản Định nghĩa 1.26: Một kịch bản là một dãy sự kiện chuyển trạng thái liên quan (e1, e2, ... , en) trên tập trạng thái S sao cho ek = (sk, sk+1) đối với 1  k  n • Cộng đồngĐịnh nghĩa 1.29: Một cộng đồng là một bộ (C, R), trong đó: C = {c1 , c2, ... , cn} là một tập của các cộng đồng khái niệm, mỗi một cộng đồng quy về một tập cá thể có cùng lớp hoặc kiểu; R = {r1 , r2, ... , rn} là một tập quan hệ, mỗi một quan hệ là một bộ rj = (ej, ij) trong đó ej là một tích Đề các ck1 x ck2 x ... x cknj , 1  k1 < k2 < ... < knj n, định rõ các cộng đồng bị dính vào quan hệ và ij là một hoạt động mô tả tương tác hoặc truyền thông giữa các cá thể

(tiếp) • Định nghĩa hình thức thư viện số Định nghĩa 1.41: Một thư viện số là một bộ bốn (R, MC, DV, XH) trong đó: R là một kho; MC là một mục lục siêu dữ liệu; DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt; XH là một cộng dồng NSD thư viện số.

II. CHỈ MỤC TÀI LIỆU VĂN BẢN 2.1 MỞ ĐẦU • Định nghĩa 2.1 (từ để nhận dạng đối với chỉ mục): là một dãy cực đại của các ký tự chữ và số, nhưng giới hạn tối đa 256 ký tự và tối đa 4 ký tự số • Bảng 2.1 - CSDL TREC Số tài liệu N 741856 Số thuật ngữ F 333338738 Số thuật ngữ riêng biệt n 535346 Số con trỏ chỉ mục f 134994414 Kích thước tổng (MB) 2070.29

(tiếp) 2.2 CHỈ MỤC TỆP ĐẢO IFID • Định nghĩa 2.2 (Đỗ Trung Tuấn): Chỉ mục là bảng dữ liệu hay cấu trúc dữ liệu dùng để xác định vị trí của các dòng trong tệp theo điều kiện nào đó • Định nghĩa 2.3 (Folk M.J., Zoellick B., Riccardi G.): Chỉ mục là một cách tìm kiếm thông tin • Định nghĩa 2.4: Chỉ mục là một cơ chế nhằm định vị thuật ngữ cho trước trong văn bản • Định nghĩa 2.5 (chỉ mục tệp đảo IFID):Đối với mỗi một thuật ngữ trong từ điển, một IF chứa một danh sách đảo (IL) lưu trữ một danh sách con trỏ tới tất cả xuất hiện của thuật ngữ đó trong văn bản chính, trong đó mỗi một con trỏ trong thực tế là số tài liệu mà thuật ngữ đó xuất hiện. IL đôi khi được coi là một danh sách mục lục và các con trỏ là mục lục • Đây là phương pháp chỉ mục tự nhiên nhất, gần tương ứng với chỉ mục của một cuốn sách và với cách dùng mục lục truyền thống

(tiếp) Bảng 2.2 - Văn bản mẫu; mỗi dòng là một tài liệu TÀI LIỆU VĂN BẢN 1 Information retrieval is searching and indexing 2 Indexing is building an index 3 An inverted file is an index 4 Building an inverted file is indexing

(tiếp) Bảng 2.3 - IF đối với văn bản của bảng 2.2 Số Thuật ngữ IL(tài liệu; vị trí) 1 an (2;4), (3;1), (3;5), (4;2) 2 and (1;5) 3 building (2;3), (4;1) 4 file (3;3), (4;4) 5 index (2;5), (3;6) 6 indexing (1;6), (2;1), (4;6) 7 information (1;1) 8 inverted (3;2), (4;3) 9 is (1;3), (2;2), (3;4), (4;5) 10 retrieval (1;2) 11 searching (1;4)

(tiếp) • Định nghĩa 2.6: Độ hạt(granularity) của một chỉ mục là tính chính xác để nhận dạng vị trí của thuật ngữ Bảng 2.4 - IF mức từ đối với văn bản của bảng 2.2 Số Thuật ngữ (Tài liệu; từ) 1 an <4; (2;4), (3;1), (3;5), (4;2)> 2 and <1; (1;5)> 3 building <2; (2;3), (4;1)> 4 file <2; (3;3), (4;4)> 5 index <2; (2;5), (3;6)> 6 indexing <3; (1;6), (2;1), (4;6)> 7 information <1; (1;1)> 8 inverted <2; (3;2), (4;3)> 9 is <4; (1;3), (2;2), (3;4), (4;5)> 10 retrieval <1; (1;2)> 11 searching <1; (1;4)>

(tiếp) 2.3CHỈ MỤC TỆP KÝ SỐ SFID Bảng 2.5 – Mã hoá chồng lên của tài liệu 2 đối với SF Thuật ngữ Ký số thuật ngữ indexing 0001 0000 1100 0100 is 0100 0100 0001 0000 building 0101 0011 0000 0000 an 0000 0100 0100 1100 index 1100 1000 0010 0000 Ký số bloc 1101 1111 1111 1110 • Tệp ký số SF: là một phương pháp xác suất để chỉ mục văn bản. Mỗi một tài liệu có một ký số liên kết, một xâu bit bắt nội dung tài liệu theo một nghĩa nào đó • Tệp ký số bitslice: Sự truy cập SF có thể được tăng nhanh hơn bằng cách dùng kỹ thuật bitslicing, tức là kỹ thuật chuyển vị ma trận bit

(tiếp) 2.4SO SÁNH CÁC PHƯƠNG PHÁP CHỈ MỤC • Phương pháp chỉ mục tệp đảo IFID và chỉ mục tệp ký số SFID là hai phương pháp chỉ mục chính tài liệu trong thư viện số. • Quy luật chỉ mục tài liệu trong DL: Ở hầu hết các ứng dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi. 2.5CÁC MÔ HÌNH NÉN IFID 2.5.1 Đặt vấn đề Khảo sát các mô hình và phương pháp mã hoá để nén IFID CSDL tài liệu trong thư viện số.Chìa khoá của bài toán nén là nhận xét mỗi một IL có thể được lưu trữ như một dãy số nguyên tăng dần.

(tiếp) 2.5.2 Mô hình nén toàn cục • Mô hình không tham số • Mô hình Bernoulli toàn cục 2.5.3 Các mô hình nén cục bộ • Mô hình hyperbol cục bộ • Mô hình Bernoulli cục bộ • Mô hình Bernoulli lệch • Mô hình nén nội suy

(tiếp) 2.5.4 Hiệu năng của các mô hình nén chỉ mục Bảng 2.9 - Nén IF bằng số bit/con trỏ đối với TREC Mô hình Số bit/con trỏ Mô hình toàn cục Đơn nguyên 1918 Nhị phân 20.00 Bernoulli 12.30  6.63  6.38 Mô hình cục bộ Hyperbol 5.89 Bernoulli 5.84 Bernoulli lệch 5.44 Nội suy 5.18

(tiếp) • NHẬN XÉT: các mô hình cục bộ có xu hướng thực hiện nén tốt hơn mô hình toàn cục và không hiệu quả hơn về thời gian xử lý đòi hỏi trong khi giải mã, vì chúng có xu hướng cài đặt phức tạp hơn. Đối với mục đích thực hành, mô hình nén chỉ mục phù hợp nhất là phương pháp Bernoulli cục bộ, cài đặt dùng kỹ thuật mã hoá Golomb 2.6 CÁC HIỆU ỨNG • Gộp dạng chữ • Truy gốc từ • Từ bỏ qua

III. TÌM KIẾM THÔNG TIN 3.1 MỞ ĐẦUKhảo sát hai kiểu truy vấn: • Truy vấn Boole BQ truyền thống • Truy vấn xếp hạng RQ 3.2 TRUY VẤN BOOLE BQ 3.2.1 Truy vấn BQ hộiDạng t1 AND t2 AND ... AND tr 3.2.2 Truy vấn BQ không hộiDạng phổ biến khác là một phép hội của các phép tuyển:(text OR data OR information) AND(search OR seek) AND(retrieval OR indexing)

(tiếp) 3.3 TRUY VẤN XẾP HẠNG RQ 3.3.1 So khớp toạ độĐếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu 3.3.2 Tích trong độ tương tựQuá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệuĐộ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau: S(Q, Dd) = Q . Dd(3.1) trong đó: phép toán.là phép tích trongTích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa: (3.2)

(tiếp) Ví dụ:S(indexing, D1) = (0, 0, 0, 1, 0, 0, 0, 0) . (1, 1, 1, 1, 0, 0, 0, 0) = 1 Cách tiếp cận so khớp toạ độ có 3 hạn chế:1. không tính đến tần suất thuật ngữ2. không tính đến sự khó tìm thuật ngữ3. các tài liệu dài với nhiều thuật ngữ Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t : Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu Ví dụ:Tính độ tương tự đối với truy vấn mẫu trở thànhS(information retrieval, D1) = (1, 1, 0, 0, 0, 0, 0, 0,) . (1, 1, 1, 1, 0, 0, 0, 0)= 2

(tiếp) Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn S(Q, Dd) = Q . Dd =(3.3) Độ tương tự là tích trong của hai trọng số S(Q, Dd) =(3.4) Nếu hạng được coi là một độ đo tầm quan trọng thì trọng số wt của một thuật ngữ t được tính như sau: (3.5) trong đó: ft là số tài liệu chứa thuật ngữ t

(tiếp) Nhân tử chuẩn hoá để không kể đến phần đóng góp của các tài liệu dài. Do đó, luật tích trong đánh giá độ tương tự bằng (3.10) trong đó là độ dài của tài liệu Dd 3.3.3 Mô hình không gian vectơ Độ tương tự đối với một cặp vectơ là khoảng cách Euclide: (3.11)

(tiếp) Hướng chỉ thị bởi 2 vectơ (3.14) Công thức có 2 hàm ý:1. Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài liệu2. Cung cấp một sự trực quan rõ ràng của luật xếp hạng

(tiếp) Luật cosin đối với xếp hạng: (3.15) Độ tương tự: (3.18)

(tiếp) 3.4 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM 3.4.1 Độ chính xác và độ phục hồiĐộ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn: (3.19) Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số tài liệu có liên quan được tìm kiếm trong r cao nhất: (3.20)

3 (tiếp) 3.4.2 Đường cong độ phục hồi-độ chính xác Hình 3.1 – Đường cong P-R đối với hạng của bảng 3.2

(tiếp) 3.5 ĐỘ ĐO COSIN 3.5.1 Tần suất bên trong tài liệu 3.5.2 Tính độ đo cosinXét lại công thức (3.18) đối với độ đo cosin:

(tiếp) Tìm kiếm r tài liệu dùng độ đo cosin, 1. Đặt A  { }. A là tập thanh tích luỹ. 2. Đối với mỗi một thuật ngữ truy vấn t  Q, (a) Truy gốc từ t. (b) Tìm kiếm từ vựng. (c) Ghi ft và địa chỉ của It , mục vào IF đối với t. (d) Đặt wt 1 + loge(N / ft). (e) Đọc mục vào IF It. (f) Đối với mỗi một cặp (d, fd,t) thuộc It , i> Nếu Ad A thì Đặt Ad 0 , Đặt A  A + {Ad}. ii> Đặt Ad Ad + loge(1 + fd,t) * wt.

(tiếp) 3. Đối với mỗi một Ad A, Đặt Ad  Ad / Wd. Bây giờ Ad tỉ lệ với giá trị cos(Q, Dd). 4. Đối với 1  i  r, (a) Lựa chọn d sao cho Ad = max{A}. (b) Dò tìm địa chỉ của tài liệu d. (c) Tìm kiếm tài liệu d và trình bày với NSD. (d) Đặt A  A - {Ad}. Giải thuật 3.2 Tìm kiếm r tài liệu dùng độ đo cosin. Giải thuật nêu lên 3 điểm như sau: 1. Wq bị bỏ qua vì Wq là một hằng số 2. lượng lớn bộ nhớ được sử dụng 3. chỉ r << N tài liệu có mặt

KẾT LUẬN • Đưa ra một mô hình hình thức cho thư viện số dựa vào đại số hiện đại: Một thư viện số là một bộ bốn (R, MC, DV, XH)trong đó: R là một kho; MC là một mục lục siêu dữ liệu; DV là một tập dịch vụ chứa tối thiểu các dịch vụ chỉ mục, tìm kiếm và duyệt; XH là một cộng đồng NSD thư viện số.

KẾT LUẬN 2. Phân tích chi tiết các phương pháp chỉ mục tài liệu văn bản trong DL: phương pháp chỉ mục tệp đảo IFID và phương pháp chỉ mục ký số SFID, so sánh 2 phương pháp chỉ mục, rút ra quy luật chỉ mục tài liệu trong DL:Ở hầu hết ứng dụng, IF thực hiện tốt hơn SF trong phạm vi của cả hai kích thước chỉ mục và tốc độ truy vấn. IF nén chắc chắn là phương pháp chỉ mục hữu ích nhất một CSDL lớn các tài liệu văn bản có độ dài có thể thay đổi. Phân tích các mô hình nén toàn cục và mô hình nén cục bộ hyperbol, từ đó, đề xuất mô hình nén cục bộ Bernoulli và nén nội suy đối với IFID dựa vào các phương pháp xác suất và thống kê toán học, phương pháp mã hóa, phương pháp nén dữ liệu.

KẾT LUẬN 3. Phân tích chi tiết mô hình tìm kiếm thông tin kinh điển dựa vào truy vấn Boole BQ hiện đang được sử dụng trong hầu hết các hệ thư viện, chỉ ra nhược điểm của truy vấn BQ. Từ đó, luận án đề xuất một mô hình tìm kiếm văn bản dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ chính xác P và độ phục hồi R. 4.Phân tích chi tiết các giải thuật kinh điển: giải thuật đảo danh sách móc nối và giải thuật đảo dựa vào sắp xếp, chỉ ra hạn chế của chúng là chỉ thích hợp với các CSDL tài liệu văn bản cỡ nhỏ và vừa. Từ đó, luận án đề xuất hai giải thuật trộn nhiều đường tại chỗ dựa vào sắp xếp và giải thuật phân chia dựa vào văn bản phù hợp với CSDL tài liệu văn bản cỡ lớn trong DL.

ĐỊNH HƯỚNG NGHIÊN CỨU TƯƠNG LAI • Nghiên cứu các phương pháp chỉ mục và tìm kiếm ảnh; • Nghiên cứu các phương pháp chỉ mục và tìm kiếm video; • Nghiên cứu các phương pháp chỉ mục và tìm kiếm audio; • Nghiên cứu bài toán tóm tắt và trích rút tài liệu văn bản trong DL.

KẾT THÚC Chân thành cám ơn !

THƯ VIỆN SỐ QUÁCH TUẤN NGỌC ĐỖ QUANG VINH HÀ NỘI - 2008