220 likes | 368 Views
Th.s : Huỳnh Ngọc Tín Sinh viên thực hiện : Nguyễn Phước Cường Đỗ Văn Tiến. XÂY DỰNG DỮ LIÊU CHỈ MỤC CÁC BÀI BÁO KHOA HỌC (Science Article Bibliography Database). Nội dung. Đặt vấn đề . Mục tiêu phạm vi của đề tài . Dữ liệu chỉ mục DBLP
E N D
Th.s : HuỳnhNgọcTín Sinhviênthựchiện: NguyễnPhướcCường ĐỗVănTiến XÂY DỰNG DỮ LIÊU CHỈ MỤC CÁC BÀI BÁO KHOA HỌC (Science Article Bibliography Database)
Nội dung • Đặtvấnđề. • Mụctiêuphạm vi củađềtài. • Dữliệuchỉmục DBLP • Hệthốngthưviệnsốvàcâyphânlớpcủathưviệnsố. • Kiếntrúccủađềtài. • Module thuthậpdữliệu. • Kếhoạchtriểnkhaitronggiaiđoạntới. • Kếtquảdựkiến.
Đặtvấnđề Việctìmkiếmthông tin mộtbàibáokhoahọc: • TrênthưviệnsốvàcáccôngcụSearchengine. • Trêncácdữliệuchỉmục. chưatìmkiếmđượcbàibáotrongcáchệthốngtheochủđề - hoặcnếucóthìcácchủđềnàyrộnghoặcquáhẹp so vớinhữngchủđềtìmkiếm. • Từđó, nhómxâydựnghệthốngcóthểthuthậpvàphânloạicácbàibáokhoahọctừthưviệnsố - cậpnhậpphânloạichủđềtrongcácdữliệuchỉmục.
Mụctiêuvàphạm vi MụcTiêu: • Xây dựng một cơ sở dữ liệu chỉ mục của các bài báo khoa học từ nhiều nguồn khác nhau. • Phânloạicácbàibáosaukhihệthốngthuthậpvềtheotừngchuyênmục, chuyênđềmàbàibáođềcậpđến. Phạm Vi: • Thông tin vềcácbàibáođượcthuthậptừ DBLP vàcácthưviệnsố ACM, IEEExplore, Citeseer. • Phânloạicủabàibáokhoahọcđượcsửdụngtrongđềtàithuộclĩnhvựckhoahọcmáytính
Kiếntrúcđềtài Thưviệnsố Module Thu thập Module Rúttríchthông tin bàibáo Metadata KiểmTra Thông tin bàibáokhoahọc Title, abstract DBLP Subject Title Module Import dữliệu Module Phânlớp CSDL Chỉmục Bàibáo
Dữliệuchỉmục DBLP • Tổngquan. • Cáchxâydựngvàcậpnhật. • Cácchươngtrìnhxâytrên DBLP
DBLP - Digital Bibliography & Library Project • DBLP cungcấpthông tin vềchỉmụccácbàibáotronglĩnhvựckhoahọcmáytính, hệthốngđượcpháttriểnbởitrườngđạihọcUniversität TriercủaĐức. • Tínhđếntháng 12/2010 DBLP chứathông tin của 1,4 triệubàibáo. • Dữliệucủa DBLP đượcxuấtracácdạng CDF, XML và SQL. • Dữliệu DBLP đượccậpnhậtkhitácgiảcócác file TOCs củacáchộinghị, bàibáo. http://dblp.uni-trier.de/db/about/faqsoft.html
DBLP Author Page In DBLP List Name of Authors TOCs TOC - OUT xmosaic Parser xhHTMLParser TOCs tables of contents of proceedings and journals. (The TOCs were typed in directly in the HTML format and connected to a few introduction pages by handcrafted links) Author Page TOC OUT single text file using a line-oriented http://dblp.uni-trier.de/db/about/faqsoft.html
Mộtsốứngdụngxâytrên DBLP Database • CompleteSearch DBLP [1] • Tìmkiếmtheotừ. • Tìmkiếmtheotêntácgiả. • Tìmkiếmtheotêntổchứccôngbốbàibáo. • Tìmkiếmtheonămxuấtbảncủabàibáo. • Faceted search [2] • Tìmkiếmdựavàothông tin metadata bàibáo. • Tìmkiếmtheotêntácgiả. • Tìmkiếmtheonơicôngbốbàibáo. • DBL – Browser Làchươngtrìnhsửdụngđểtìmkiếmtrên file dữliệu DBLP khôngcầnkếtnối internet [1]. http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php [2]http://dblp.l3s.de/?q=&newQuery=yes&resTableName=query_result0n7KsQ
Hệthốngthưviệnsốvàcâyphânlớpcủathưviệnsố.Hệthốngthưviệnsốvàcâyphânlớpcủathưviệnsố. • ACM. • IEEE Xplore • Cicesser
ACM- Association for Computing Machinery • ACM cungcấpmộtthưviệnsốchophépngườidùngtìmkiếmcácbàibáokhoahọcđượccôngbốbởi ACM vàcáctổchứckhác. • ACM sửdụngkhungphânloại ACM Computing Classification System (CCS). Cấutrúccủa CCS gồm 1473 node đượcchiatrêncâyphânlớpthành 3 cấp, cấpđầutiênbaogồm 11 node, cấpsauđógồm 81 node vàcònlạithuộccấpsố 3 (theophiênbảnnăm 1998). • Ngườidùngcóthểtìmkiếmbàibáotheothông tin ngườidùngnhậpvàohoặctên node trêncây CCS , hệthốngsẽdựavàosựxuấthiêncủatừkhóatìmkiếmtrêncáctrường metadata hoặctên node màngườidùngnhậpvàođểđưarakếtquả http://www.acm.org/about/class/ccs98-html
Citeseerx • Làmộtthưviệnsốcungcấptàiliệuvềlĩnhvựcmáytínhđượccôngbốbởinhiềutổchức. • Khingườidùngnhậpthông tin tìmkiếmhệthốngsẽdựavàosựxuấthiệncủatừkhóađótrêncáctrường metadata đểđưarakếtquảchongườidùng. • Hệthốngkhôngcócâyphânlớpchủđềcũngnhưtrongdữliệukhônglưuchủđềcủabàibáo.
IEEE Xplore - Institute of Electrical and Electronics Engineers • Làthưviệnsốcungcấpcácbàibáokhoahọcđượccôngbốbởi IEEE vàcáctổchứckhác. • Hệthốngtìmkiếmdựatrêntừkhóacủangườidùngnhậpvàovàtrảvềkếtquả. • Cácbàibáotronghệthốngđượcphânloạitheo 16 chủđề, nhữngchủđềnàykháiquátcáclĩnhvựcchứkhông chi tiếtkhiếnchongườidùnggặpkhókhăntrongviệctìmkiếmtàiliệutheochủđề http://ieeexplore.ieee.org/Xplore/guesthome.jsp
Module thuthậpdữliệu. • Demo • Database DBSA. • Lấythông tin từthưviệnsố.
Tácgiả Tựađề HộiNghị ACM, Citeseer, IEEE Xplore S Search Thông tin trongbàibáo Links Bàibáokhoahọcmáytính Tácgiả Hộinghị Năm Abstract Reference Title Metadata Module Rúttríchthông tin bàibáo (1) Module Thu thập
Bàibáokhoahọcmáytính DBLP Metadata Metadata Lấythông Tin Title KiểmTra Thông tin bàibáokhoahọc Module Phânlớp Subject CSDL Chỉmục Bàibáo (3) Module Import dữliệutừ DBLP vàohệthống
Tácgiả Tựađề HộiNghị Cáchthuthậptàiliệutừthưviệnsố ACM, Citeseer, IEEE Xplore Thông tin trongbàibáo URL Search Bàibáokhoahọcmáytính Tácgiả Hộinghị Năm Abstract Reference Title Links Metadata Module Rúttríchthông tin bàibáo HTML Content Regular Expresstion SAX Parser
Mộtsốhướngtronggiaiđoạntiếptheo • Thựchiệnphânloạichủđềchocácbàibáothuthậpđược, dựavào Title - abstract củabàibáo.Phạm vi phânloạichủđềthuộckhoahọcmáytính (tênchủđềđượcthamkhảotừ wiki). • Cậpnhật abstract chocácbàibáotrongdữliệuchỉmục DBLP. + Dùng title bỏlên search engine nhưgoogle,yahoo. + Dùng title đưalêntrựctiếp 1 thưviệnsốđểlấy abstract về. • Dựavàotêntácgiả tìmtrang web cánhâncủatácgiả. Từtrang web nàylấythông tin cácbàibáođểbổxungvàdữliệu. • Dùngtêntácgiảđưalên search Search engine lấyvề link homepage củatácgiả. • Parse nội dung HTML đểlấythông tin bàibáobổxungvàodbsa.
Kếtquảdựkiến. • Thu thậpđượccơsởdữliệutừcácthưviệnsố. • Import dữliệutừcácdữliệuchỉmụcvàohệthống. • Phânloạiđượctàiliệuthuộclĩnhvựckhoahọcmáytínhdựatrên title, abtractmà module thuthậpvề.