Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh

Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh Nhóm: Trần Thắng Bình Ngô Mạnh Quyền Chu Thị Phương Thảo Hà nội, tháng 11 năm 2013

Nội dung Mô hình chủ để: LSA, LDA Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS Công cụ: Mallet Mô hình Kết quả Đánh giá chất lượng cụm tự động Hướng nghiên cứu tiếp

Định hướng nghiên cứu • Mục đích nghiên cứu: • Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ liệu y sinh dựa vào mô hình học không giám sát • Nghiên cứu các phương pháp sinh ra các cụm từ vựng: • Mô hình chủ đề: LSA, LDA (thực tập chuyên ngành) • Gom cụm từ vựng (Word clustering) • Phương pháp biểu diễn từ vựng Word2vector • Tìm hiểu nguồn dữ liệu và các tài nguyên ngôn ngữ trong miền dữ liệu y sinh • Xây dựng mô hình đánh giá chất lượng các cụm từ vựng tự động

LSA (Latent Semantic Analysis) • Làmộtmôhìnhchủđềđượcsửdụngđểphântíchtàiliệuđưaranhững ý nghĩacủatàiliệuđó. [ls] • Cácbướcthựchiện: • Tạo ma trậnchủđề - từ (đếmsốlầnxuấthiệncủatừtrongtàiliệu) • Sửdụnggiátrịtf-idfđểđánhtrọngsốchotừngtừ • Loại bỏ nhữngtừnhiễuvàtạolại ma trận. • Gomcụmtàiliệu, gomcụmtừ.

LSA (Latent Semantic Analysis) • Mộtsốhạnchếcủamôhình LSA: • LSA sửdụngphânphối Gaussian cóthểkhôngphùhợpvớinhiềutrườnghợp. Vídụnhưcáctừtrongtàiliệuthườngcóphânphốituântheophânphối Poisson hơn. • LSA khôngthểxửlýtrườnghợpđanghĩa (mộttừcónhiềunghĩa) • Khó cậpnhậtlạikhicómộttàiliệumớixuấthiện.

LDA (Latent Dirichlet Allocation) • LDA giảsửmôhìnhsinhchomỗitài liệu • Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó • Với mỗi từ trong văn bản • Chọnngẫunhiênchủđềtừphânbốchủđề ở trên • Chọnngẫunhiêntừtrongphânbốtừcủachủđề. • Input: Tậpcáctàiliệu • Output: • Ma trậnTừ - Chủđề • Ma trậnChủđề - Tàiliệu

LDA (Latent Dirichlet Allocation) LDA baogồmcácbướclặpvàsaumỗivònglặpsẽtốiưuhóalạicácgiátrịxácsuấttrong 2 ma trậnTừ- ChủđềvàChủđề - Tài liệu [bl11] Vònglặpsẽdừnglạikhihộitụhoặcchạyhếtsốvònglặpchotrước

Nguồn dữ liệu và tài nguyên • Pubmed Central • PMC là kho lưu trữ tài liệu y sinh và tạp chí khoa học tại Thư viện y khoa quốc gia Hoa kỳ(NLM) – thư viện y khoa lớn nhất thế giới. Các bài báo đều là full – text (các bài đầy đủ)[pm] • Cách thu thập dữ liệu: • Lấy các tất cả các bài báo theo tên tạp chí và định dạng tgz: ftp://ftp.ncbi.nlm.nih.gov/pub/pmc • Lấy bài báo bằng id: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?id=PMC13901 • Lấy theo ngày: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01 • Lấy 1000 bài tiếp theo trong một tập kết quả: http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?resumptionToken=843921!20120101000000!!!6e8a2c112f595273 • Lấy những bài có định dạng PDFs : http://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01&format=pdf

Nguồn dữ liệu và tài nguyên • Pubmed Central • Số lượng dữ liệu đã thu thập: 623.989 bài báo y sinh từ PMC( 02/10/2013) • Xử lý dữ liệu: • Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”

Nguồn dữ liệu và tài nguyên • Pubmed Central • Xử lý dữ liệu:

Nguồn dữ liệu và tài nguyên • UMLS: • UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um] • 3 công cụ UMLS: • Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM, MeSH,… • Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng. • SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngôn ngữ tự nhiên. • Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm khoảng 6 triệu từ vựng.

Nguồn dữ liệu và tài nguyên • UMLS có cấu trúc rõ ràng:

Nguồn dữ liệu và tài nguyên • UMLS: • Thu thập: • Web browsers: Tìm kiếm dữ liệu thông qua các ứng dụng. • Local Installation: Cài đặt UMLS trên máy tính và down các file về. Có thể lưu dữ liệu tải về vào hệ thống cơ sở dữ liệu như MySQL, Oracle. • Web Services APIs: Sử dụng giao diện chương trình ứng dụng để yêu cầu UMLS trong ứng dụng. • Xử lý dữ liệu: • Từ 623.989 bài báo y sinh ở trên, lọc qua từ vựng UMLS thu được 2 triệu từ có trong UMLS và cũng có trong dữ liệu.

Công cụ • Mallet đượcviếtbởi: Andrew McCallumvàcộngsự. • Trangchủ: http://mallet.cs.umass.edu/index.php • Mallet làcôngcụchoxửlíngônngữtựnhiên, phânloạitàiliệu, gomcụm, môhìnhchủđề, tríchxuấtthông tin vàcácứngdụnghọcmáykhácbằngthốngkê. • Bộcôngcụ Mallet chomôhìnhchủđềhoạtđộngdựatrênsựthihànhcủaLatent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.

Công cụ • Input • File dữliệu text đầuvàovớimỗidònglàmộtdocument. • Tham số k(sốchủđềmuốnsinhratừtậpdữliệuđầuvào). • Output Ma trậntừ/chủ đề

Mô hình Tiền xử lý UMLS PMC Web UMLS Website Download Docs Tiền xử lý K=200 Longest matching Dict UMLS term Mallet Ma trận từ/chủ đề Loại bỏ từ có trọng số thấp Model Ma trận tài liệu/chủ đề

Kếtquả Bảng 1 Bảng 2

Kết quả các cụm từ

Kếtquả các cụm từ • Big question: Làmthếnàođánhgiáchấtlượngcụmtừvựng ? • Phươngphápthôngthường: đánhgiáthủcôngdựatrêntưtưởng Mộtcụmđượcđánhgiálàtốtnếutậpchungvàomộtvàichủđềcóliênquanđếnnhau (1) • Key: Mỗimộttừtrong UMLS sẽthuộcmộtsốnhãnngữnghĩa. • Dựatrên (1),(2) Cóthểsửdụngcácnhãnngữnghĩacủa UMLS đểđánhgiáchấtlượngcụmtừvựng

Kếtquả Cụmtốt Cáctừhướngđếnmộthoặcmộtsốít cácnhãn (biểuđồchỉcómộtsốít cộtnổitrội).

Kếtquả Cụmnhiễu Cáctừtrong 1 cụmhướngđến nhiềunhãn. (khôngxuấthiệncáccộtnổitrội)

Công việc tiếp theo Hoàn thành đánh giá chất lượng cụm được sinh ra bởi mô hình chủ đề Hoàn thành thực tập chuyên ngành (20/11/2013) Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline: 22/11/2013) Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active re-ranking model for biomedical search engine)

Tài liệu tham khảo [bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003 [bl11] Blei2011_Probabilistic topic models [ls] http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html?start=5 [pm] http://www.ncbi.nlm.nih.gov/pmc/ [um] http://www.nlm.nih.gov/research/umls/

Đề tài: Mô hình chủ đề ẩn trích xuất thực thể y sinh