1 / 22

XÂY DỰNG DỮ LIÊU CHỈ MỤC CÁC BÀI BÁO KHOA HỌC (Science Article Bibliography Database)

Th.s : Huỳnh Ngọc Tín Sinh viên thực hiện : Nguyễn Phước Cường Đỗ Văn Tiến. XÂY DỰNG DỮ LIÊU CHỈ MỤC CÁC BÀI BÁO KHOA HỌC (Science Article Bibliography Database). Nội dung. Đặt vấn đề . Mục tiêu phạm vi của đề tài . Dữ liệu chỉ mục DBLP

jered
Download Presentation

XÂY DỰNG DỮ LIÊU CHỈ MỤC CÁC BÀI BÁO KHOA HỌC (Science Article Bibliography Database)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Th.s : HuỳnhNgọcTín Sinhviênthựchiện: NguyễnPhướcCường ĐỗVănTiến XÂY DỰNG DỮ LIÊU CHỈ MỤC CÁC BÀI BÁO KHOA HỌC (Science Article Bibliography Database)

  2. Nội dung • Đặtvấnđề. • Mụctiêuphạm vi củađềtài. • Dữliệuchỉmục DBLP • Hệthốngthưviệnsốvàcâyphânlớpcủathưviệnsố. • Kiếntrúccủađềtài. • Module thuthậpdữliệu. • Kếhoạchtriểnkhaitronggiaiđoạntới. • Kếtquảdựkiến.

  3. Đặtvấnđề Việctìmkiếmthông tin mộtbàibáokhoahọc: • TrênthưviệnsốvàcáccôngcụSearchengine. • Trêncácdữliệuchỉmục.  chưatìmkiếmđượcbàibáotrongcáchệthốngtheochủđề - hoặcnếucóthìcácchủđềnàyrộnghoặcquáhẹp so vớinhữngchủđềtìmkiếm. • Từđó, nhómxâydựnghệthốngcóthểthuthậpvàphânloạicácbàibáokhoahọctừthưviệnsố - cậpnhậpphânloạichủđềtrongcácdữliệuchỉmục.

  4. Mụctiêuvàphạm vi MụcTiêu: • Xây dựng một cơ sở dữ liệu chỉ mục của các bài báo khoa học từ nhiều nguồn khác nhau. • Phânloạicácbàibáosaukhihệthốngthuthậpvềtheotừngchuyênmục, chuyênđềmàbàibáođềcậpđến. Phạm Vi: • Thông tin vềcácbàibáođượcthuthậptừ DBLP vàcácthưviệnsố ACM, IEEExplore, Citeseer. • Phânloạicủabàibáokhoahọcđượcsửdụngtrongđềtàithuộclĩnhvựckhoahọcmáytính

  5. Kiếntrúcđềtài Thưviệnsố Module Thu thập Module Rúttríchthông tin bàibáo Metadata KiểmTra Thông tin bàibáokhoahọc Title, abstract DBLP Subject Title Module Import dữliệu Module Phânlớp CSDL Chỉmục Bàibáo

  6. Dữliệuchỉmục DBLP • Tổngquan. • Cáchxâydựngvàcậpnhật. • Cácchươngtrìnhxâytrên DBLP

  7. DBLP - Digital Bibliography & Library Project • DBLP cungcấpthông tin vềchỉmụccácbàibáotronglĩnhvựckhoahọcmáytính, hệthốngđượcpháttriểnbởitrườngđạihọcUniversität TriercủaĐức. • Tínhđếntháng 12/2010 DBLP chứathông tin của 1,4 triệubàibáo. • Dữliệucủa DBLP đượcxuấtracácdạng CDF, XML và SQL. • Dữliệu DBLP đượccậpnhậtkhitácgiảcócác file TOCs củacáchộinghị, bàibáo. http://dblp.uni-trier.de/db/about/faqsoft.html

  8. DBLP Author Page In DBLP List Name of Authors TOCs TOC - OUT xmosaic Parser xhHTMLParser TOCs tables of contents of proceedings and journals. (The TOCs were typed in directly in the HTML format and connected to a few introduction pages by handcrafted links) Author Page TOC OUT single text file using a line-oriented http://dblp.uni-trier.de/db/about/faqsoft.html

  9. Mộtsốứngdụngxâytrên DBLP Database • CompleteSearch DBLP [1] • Tìmkiếmtheotừ. • Tìmkiếmtheotêntácgiả. • Tìmkiếmtheotêntổchứccôngbốbàibáo. • Tìmkiếmtheonămxuấtbảncủabàibáo. • Faceted search [2] • Tìmkiếmdựavàothông tin metadata bàibáo. • Tìmkiếmtheotêntácgiả. • Tìmkiếmtheonơicôngbốbàibáo. • DBL – Browser Làchươngtrìnhsửdụngđểtìmkiếmtrên file dữliệu DBLP khôngcầnkếtnối internet [1]. http://dblp.mpi-inf.mpg.de/dblp-mirror/index.php [2]http://dblp.l3s.de/?q=&newQuery=yes&resTableName=query_result0n7KsQ

  10. Hệthốngthưviệnsốvàcâyphânlớpcủathưviệnsố.Hệthốngthưviệnsốvàcâyphânlớpcủathưviệnsố. • ACM. • IEEE Xplore • Cicesser

  11. ACM- Association for Computing Machinery • ACM cungcấpmộtthưviệnsốchophépngườidùngtìmkiếmcácbàibáokhoahọcđượccôngbốbởi ACM vàcáctổchứckhác. • ACM sửdụngkhungphânloại ACM Computing Classification System (CCS). Cấutrúccủa CCS gồm 1473 node đượcchiatrêncâyphânlớpthành 3 cấp, cấpđầutiênbaogồm 11 node, cấpsauđógồm 81 node vàcònlạithuộccấpsố 3 (theophiênbảnnăm 1998). • Ngườidùngcóthểtìmkiếmbàibáotheothông tin ngườidùngnhậpvàohoặctên node trêncây CCS , hệthốngsẽdựavàosựxuấthiêncủatừkhóatìmkiếmtrêncáctrường metadata hoặctên node màngườidùngnhậpvàođểđưarakếtquả http://www.acm.org/about/class/ccs98-html

  12. Citeseerx • Làmộtthưviệnsốcungcấptàiliệuvềlĩnhvựcmáytínhđượccôngbốbởinhiềutổchức. • Khingườidùngnhậpthông tin tìmkiếmhệthốngsẽdựavàosựxuấthiệncủatừkhóađótrêncáctrường metadata đểđưarakếtquảchongườidùng. • Hệthốngkhôngcócâyphânlớpchủđềcũngnhưtrongdữliệukhônglưuchủđềcủabàibáo.

  13. IEEE Xplore - Institute of Electrical and Electronics Engineers • Làthưviệnsốcungcấpcácbàibáokhoahọcđượccôngbốbởi IEEE vàcáctổchứckhác. • Hệthốngtìmkiếmdựatrêntừkhóacủangườidùngnhậpvàovàtrảvềkếtquả. • Cácbàibáotronghệthốngđượcphânloạitheo 16 chủđề, nhữngchủđềnàykháiquátcáclĩnhvựcchứkhông chi tiếtkhiếnchongườidùnggặpkhókhăntrongviệctìmkiếmtàiliệutheochủđề http://ieeexplore.ieee.org/Xplore/guesthome.jsp

  14. Module thuthậpdữliệu. • Demo • Database DBSA. • Lấythông tin từthưviệnsố.

  15. Tácgiả Tựađề HộiNghị ACM, Citeseer, IEEE Xplore S Search Thông tin trongbàibáo Links Bàibáokhoahọcmáytính Tácgiả Hộinghị Năm Abstract Reference Title Metadata Module Rúttríchthông tin bàibáo (1) Module Thu thập

  16. Bàibáokhoahọcmáytính DBLP Metadata Metadata Lấythông Tin Title KiểmTra Thông tin bàibáokhoahọc Module Phânlớp Subject CSDL Chỉmục Bàibáo (3) Module Import dữliệutừ DBLP vàohệthống

  17. DBLP - Database

  18. DBSA Database

  19. Tácgiả Tựađề HộiNghị Cáchthuthậptàiliệutừthưviệnsố ACM, Citeseer, IEEE Xplore Thông tin trongbàibáo URL Search Bàibáokhoahọcmáytính Tácgiả Hộinghị Năm Abstract Reference Title Links Metadata Module Rúttríchthông tin bàibáo HTML Content Regular Expresstion SAX Parser

  20. Mộtsốhướngtronggiaiđoạntiếptheo • Thựchiệnphânloạichủđềchocácbàibáothuthậpđược, dựavào Title - abstract củabàibáo.Phạm vi phânloạichủđềthuộckhoahọcmáytính (tênchủđềđượcthamkhảotừ wiki). • Cậpnhật abstract chocácbàibáotrongdữliệuchỉmục DBLP. + Dùng title bỏlên search engine nhưgoogle,yahoo. + Dùng title đưalêntrựctiếp 1 thưviệnsốđểlấy abstract về. • Dựavàotêntácgiả  tìmtrang web cánhâncủatácgiả. Từtrang web nàylấythông tin cácbàibáođểbổxungvàdữliệu. • Dùngtêntácgiảđưalên search Search engine lấyvề link homepage củatácgiả. • Parse nội dung HTML đểlấythông tin bàibáobổxungvàodbsa.

  21. Kếtquảdựkiến. • Thu thậpđượccơsởdữliệutừcácthưviệnsố. • Import dữliệutừcácdữliệuchỉmụcvàohệthống. • Phânloạiđượctàiliệuthuộclĩnhvựckhoahọcmáytínhdựatrên title, abtractmà module thuthậpvề.

More Related