1 / 23

M ột số tài nguyên cho nhận dạng thực thể y sinh

M ột số tài nguyên cho nhận dạng thực thể y sinh. TRẦN MAI VŨ. NỘI DUNG. Thực thể y sinh Một số kho dữ liệu về y sinh Một số công cụ nhận diện thực thể y sinh Kế hoạch tiếp theo. Thực thể y sinh. Các thực thể y sinh phổ biến: Protein, DNA, RNA, Cell line, Cell type, Gene…

philander
Download Presentation

M ột số tài nguyên cho nhận dạng thực thể y sinh

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Một số tài nguyên cho nhận dạng thực thể y sinh TRẦN MAI VŨ

  2. NỘI DUNG • Thực thể y sinh • Một số kho dữ liệu về y sinh • Một số công cụ nhận diện thực thể y sinh • Kế hoạch tiếp theo

  3. Thực thể y sinh • Các thực thể y sinh phổ biến: • Protein, DNA, RNA, Cell line, Cell type, Gene… • Disease (bệnh), Symptom (triệu chứng), Virus, Atom… => Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical)

  4. Thách thức • Thiếuquyướcđặctêntrongsinhhọc • Sựđadạngtrongthuậtngữ: • DùngtừtiếngAnh: Vd: light, map, complement,…tên gene • Sửdụngsố: Vd: 9-cis retinoic acid • Sửdụngcáckýtựvàmã: M(2)201 • Sựlồngnhaugiữacáctên: • Vd: “[leukaemic[T [cell line]] Kit225]” • Sựphốihợp: “B and T cells” • Sựđồngâm • Tínhđanghĩa • Nhiềubiếnthểcủamộttên: • Vd: “-150 CD28 responseelement (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”.

  5. Phenotype Entity • Kiểu hình(Phenotype): • Đặc tính ấn định bởi di truyền có thể quan sát được của một tế bào hoặc sinh vật [1] • Tổ hợp của các đặc điểm quan sát được hoặc những đặc điểm của một sinh vật: như hình thái, sự phát triển, đặc tính sinh hóa hoặc sinh lý, vật hậu học (phenology), hành vi, và các sản phẩm của hành vi (chẳng hạn như tổ của một con chim).[2] • Ví dụ: 4-5 finger syndactyly [1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003) [2]. http://en.wikipedia.org/wiki/Phenotype

  6. Pubmed • PubMed Central (Trungtâmlưutrữbáođiệntửvề y sinhvàkhoahọcđờisốngcủaViện Y họcquốcgiaMỹ) • PubMedcungcấpquyềntruycậpmiễnphítới CSDL Medline. MEDLINE: làcsdlthưmụchàngđầucủathưviện y khoaquốcgiaHoaKỳ, gồm: - 4.800 nhanđềtạpchívề y khoa - 19 triệuthamchiếu (references) lưutrữtừđầuthậpniên 50’ đến nay.

  7. Pubmed

  8. MeSH • MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây. • Ví dụ: • 21,973 mô tả • Hàng nghìn tham chiếu chéo

  9. UMLS • UMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt) • Hơn 1.5 triệutừtiếngAnhnằmtronghơn 60 nhómvàđượctổchứctrong 775 nghìnkháiniệm

  10. MedTag • L. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộ • MedPost: 6700 câu đã gắn nhãn từ loại (POSTagger chính xác 97.4%) • GENETAG: 15000 câu đã gắn nhãn Gene và Protein. • ABGene: 4000 câu đã gắn nhãn Gene và Protein

  11. GENIA • Junichi Tsujii (University of Tokyo) • Genia Corpus • 44 nhãn thực thể • Genia Ontology • Genia Tools • GENIA Sentence Splitter: Tách câu (mô hình ME) • GENIA Tagger: PosTag, NER, Shallow parsing

  12. CALBC Corpora • CALBC (Collaborative Annotation of a Large Biomedical Corpus) Challenge task A: Named Entity Recognition Challenge task B: Concept identification

  13. CALBC Corpora • CALBC-SSC-III-Small: • 174,999 Medline abstracts, 2,548,900 annotations • CALBC-SSC-III-Big: • 714,283 Medline abstracts, 10,304,172 annotations 16 nhãn ngữ nghĩa và 133 nhãn con tương ứng UMLS

  14. Human Phenotype Ontology • Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man) • Gần 10 nghìn từ về kiểu hình trên người • Gần 50 nghìn chú thích về sự di truyền bệnh

  15. Một số Corpora khác

  16. B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets. In Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA), Geneva, Switzerland, pages 104-107. ABNER • Tác giả Burr Settles • http://pages.cs.wisc.edu/~bsettles/abner/ (Java) • Sử dụng mô hình CRF(Mallet) và 2 loại đặc trưng chính: • Chính tả: viết hoa, chữ số,… • Ngữ nghĩa: Thêm đặc trưng lớp ngữ nghĩa của từ Ví dụ:

  17. Leaman, R. & Gonzalez G. (2008) BANNER: An executable survey of advances in biomedical named entity recognition. Pacific Symposium on Biocomputing 13:652-663(2008) Banner • Tác giả Bob Leaman và Graciela Gonzalez • http://banner.sourceforge.net/ (Java) • Sử dụng mô hình CRF • Sử dụng thêm đặc trưng phân tích cú pháp ở mức sâu

  18. Banner

  19. Các loại đặc trưng

  20. Một số phương pháp giải quyết

  21. Định hướng tiếp theo • Nhậndạng Phenotype, Gene, Bệnh (Disease), Hóachất (Chemical) • Vấnđề: Phenotype chưacótậpdữliệuhuấnluyện, chỉcó HPO • Dựkiến: • Sửdụng CALBC làmtậphuấnluyện • Dùng HPO nhậndạngcáccâucóchứa Phenotype, sửdụngcáccâutìmđượclàmcâuhuấnluyện • Thửnghiệmtrênmộtsốđặctrưngđãkhảosát

  22. THANK YOU

More Related