1 / 23

Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh

Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh. Nhóm: Trần Thắng Bình Ngô Mạnh Quyền Chu Thị Phương Thảo Hà nội, tháng 11 năm 2013. Nội dung. Mô hình chủ để: LSA, LDA Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS Công cụ: Mallet Mô hình Kết quả

arva
Download Presentation

Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh Nhóm: Trần Thắng Bình Ngô Mạnh Quyền Chu Thị Phương Thảo Hà nội, tháng 11 năm 2013

  2. Nội dung Mô hình chủ để: LSA, LDA Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS Công cụ: Mallet Mô hình Kết quả Đánh giá chất lượng cụm tự động Hướng nghiên cứu tiếp

  3. Định hướng nghiên cứu • Mục đích nghiên cứu: • Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ liệu y sinh dựa vào mô hình học không giám sát • Nghiên cứu các phương pháp sinh ra các cụm từ vựng: • Mô hình chủ đề: LSA, LDA (thực tập chuyên ngành) • Gom cụm từ vựng (Word clustering) • Phương pháp biểu diễn từ vựng Word2vector • Tìm hiểu nguồn dữ liệu và các tài nguyên ngôn ngữ trong miền dữ liệu y sinh • Xây dựng mô hình đánh giá chất lượng các cụm từ vựng tự động

  4. LSA (Latent Semantic Analysis) • Làmộtmôhìnhchủđềđượcsửdụngđểphântíchtàiliệuđưaranhững ý nghĩacủatàiliệuđó. [ls] • Cácbướcthựchiện: • Tạo ma trậnchủđề - từ (đếmsốlầnxuấthiệncủatừtrongtàiliệu) • Sửdụnggiátrịtf-idfđểđánhtrọngsốchotừngtừ • Loại bỏ nhữngtừnhiễuvàtạolại ma trận. • Gomcụmtàiliệu, gomcụmtừ.

  5. LSA (Latent Semantic Analysis) • Mộtsốhạnchếcủamôhình LSA: • LSA sửdụngphânphối Gaussian cóthểkhôngphùhợpvớinhiềutrườnghợp. Vídụnhưcáctừtrongtàiliệuthườngcóphânphốituântheophânphối Poisson hơn. • LSA khôngthểxửlýtrườnghợpđanghĩa (mộttừcónhiềunghĩa) • Khó cậpnhậtlạikhicómộttàiliệumớixuấthiện.

  6. LDA (Latent Dirichlet Allocation) • LDA giảsửmôhìnhsinhchomỗitài liệu • Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó • Với mỗi từ trong văn bản • Chọnngẫunhiênchủđềtừphânbốchủđề ở trên • Chọnngẫunhiêntừtrongphânbốtừcủachủđề. • Input: Tậpcáctàiliệu • Output: • Ma trậnTừ - Chủđề • Ma trậnChủđề - Tàiliệu

  7. LDA (Latent Dirichlet Allocation) LDA baogồmcácbướclặpvàsaumỗivònglặpsẽtốiưuhóalạicácgiátrịxácsuấttrong 2 ma trậnTừ- ChủđềvàChủđề - Tài liệu [bl11] Vònglặpsẽdừnglạikhihộitụhoặcchạyhếtsốvònglặpchotrước

  8. Nguồn dữ liệu và tài nguyên • Pubmed Central • PMC là kho lưu trữ tài liệu y sinh và tạp chí khoa học tại Thư viện y khoa quốc gia Hoa kỳ(NLM) – thư viện y khoa lớn nhất thế giới. Các bài báo đều là full – text (các bài đầy đủ)[pm] • Cách thu thập dữ liệu: • Lấy các tất cả các bài báo theo tên tạp chí và định dạng tgz: ftp://ftp.ncbi.nlm.nih.gov/pub/pmc • Lấy bài báo bằng id: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?id=PMC13901 • Lấy theo ngày: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01 • Lấy 1000 bài tiếp theo trong một tập kết quả: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?resumptionToken=843921!20120101000000!!!6e8a2c112f595273 • Lấy những bài có định dạng PDFs : http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01&format=pdf

  9. Nguồn dữ liệu và tài nguyên • Pubmed Central • Số lượng dữ liệu đã thu thập: 623.989 bài báo y sinh từ PMC( 02/10/2013) • Xử lý dữ liệu: • Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”

  10. Nguồn dữ liệu và tài nguyên • Pubmed Central • Xử lý dữ liệu:

  11. Nguồn dữ liệu và tài nguyên • UMLS: • UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um] • 3 công cụ UMLS: • Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM, MeSH,… • Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng. • SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngôn ngữ tự nhiên. • Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm khoảng 6 triệu từ vựng.

  12. Nguồn dữ liệu và tài nguyên • UMLS có cấu trúc rõ ràng:

  13. Nguồn dữ liệu và tài nguyên • UMLS: • Thu thập: • Web browsers: Tìm kiếm dữ liệu thông qua các ứng dụng. • Local Installation: Cài đặt UMLS trên máy tính và down các file về. Có thể lưu dữ liệu tải về vào hệ thống cơ sở dữ liệu như MySQL, Oracle. • Web Services APIs: Sử dụng giao diện chương trình ứng dụng để yêu cầu UMLS trong ứng dụng. • Xử lý dữ liệu: • Từ 623.989 bài báo y sinh ở trên, lọc qua từ vựng UMLS thu được 2 triệu từ có trong UMLS và cũng có trong dữ liệu.

  14. Công cụ • Mallet đượcviếtbởi: Andrew McCallumvàcộngsự. • Trangchủ: http://mallet.cs.umass.edu/index.php • Mallet làcôngcụchoxửlíngônngữtựnhiên, phânloạitàiliệu, gomcụm, môhìnhchủđề, tríchxuấtthông tin vàcácứngdụnghọcmáykhácbằngthốngkê. • Bộcôngcụ Mallet chomôhìnhchủđềhoạtđộngdựatrênsựthihànhcủaLatent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.

  15. Công cụ • Input • File dữliệu text đầuvàovớimỗidònglàmộtdocument. • Tham số k(sốchủđềmuốnsinhratừtậpdữliệuđầuvào). • Output Ma trậntừ/chủ đề

  16. Mô hình Tiền xử lý UMLS PMC Web UMLS Website Download Docs Tiền xử lý K=200 Longest matching Dict UMLS term Mallet Ma trận từ/chủ đề Loại bỏ từ có trọng số thấp Model Ma trận tài liệu/chủ đề

  17. Kếtquả Bảng 1 Bảng 2

  18. Kết quả các cụm từ

  19. Kếtquả các cụm từ • Big question: Làmthếnàođánhgiáchấtlượngcụmtừvựng ? • Phươngphápthôngthường: đánhgiáthủcôngdựatrêntưtưởng Mộtcụmđượcđánhgiálàtốtnếutậpchungvàomộtvàichủđềcóliênquanđếnnhau (1) • Key: Mỗimộttừtrong UMLS sẽthuộcmộtsốnhãnngữnghĩa. • Dựatrên (1),(2) Cóthểsửdụngcácnhãnngữnghĩacủa UMLS đểđánhgiáchấtlượngcụmtừvựng

  20. Kếtquả Cụmtốt Cáctừhướngđếnmộthoặcmộtsốít cácnhãn (biểuđồchỉcómộtsốít cộtnổitrội).

  21. Kếtquả Cụmnhiễu Cáctừtrong 1 cụmhướngđến nhiềunhãn. (khôngxuấthiệncáccộtnổitrội)

  22. Công việc tiếp theo Hoàn thành đánh giá chất lượng cụm được sinh ra bởi mô hình chủ đề Hoàn thành thực tập chuyên ngành (20/11/2013) Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline: 22/11/2013) Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active re-ranking model for biomedical search engine)

  23. Tài liệu tham khảo [bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003 [bl11] Blei2011_Probabilistic topic models [ls] http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html?start=5 [pm] http://www.ncbi.nlm.nih.gov/pmc/ [um] http://www.nlm.nih.gov/research/umls/

More Related