M ột số tài nguyên cho nhận dạng thực thể y sinh

23
MộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH TRẦN MAI VŨ

description

M ột số tài nguyên cho nhận dạng thực thể y sinh. TRẦN MAI VŨ. NỘI DUNG. Thực thể y sinh Một số kho dữ liệu về y sinh Một số công cụ nhận diện thực thể y sinh Kế hoạch tiếp theo. Thực thể y sinh. Các thực thể y sinh phổ biến: Protein, DNA, RNA, Cell line, Cell type, Gene… - PowerPoint PPT Presentation

Transcript of M ột số tài nguyên cho nhận dạng thực thể y sinh

Page 1: M ột số tài nguyên cho nhận dạng thực thể y sinh

MộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH

TRẦN MAI VŨ

Page 2: M ột số tài nguyên cho nhận dạng thực thể y sinh

NỘI DUNG

Thực thể y sinh Một số kho dữ liệu về y sinh Một số công cụ nhận diện thực thể y sinh Kế hoạch tiếp theo

Page 3: M ột số tài nguyên cho nhận dạng thực thể y sinh

Thực thể y sinh

Các thực thể y sinh phổ biến: Protein, DNA, RNA, Cell line, Cell type,

Gene… Disease (bệnh), Symptom (triệu chứng),

Virus, Atom…=> Kiểu hình(Phenotype), Gene, Bệnh

(Disease) , Hóa chất (Chemical)

3

Page 4: M ột số tài nguyên cho nhận dạng thực thể y sinh

Thách thức4

Thiếu quy ước đặc tên trong sinh học Sự đa dạng trong thuật ngữ:

Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene Sử dụng số: Vd: 9-cis retinoic acid Sử dụng các ký tự và mã: M(2)201

Sự lồng nhau giữa các tên: Vd: “[leukaemic[T [cell line]] Kit225]”

Sự phối hợp: “B and T cells” Sự đồng âm Tính đa nghĩa Nhiều biến thể của một tên:

Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”.

Page 5: M ột số tài nguyên cho nhận dạng thực thể y sinh

Phenotype Entity

Kiểu hình(Phenotype): Đặc tính ấn định bởi di truyền có thể quan

sát được của một tế bào hoặc sinh vật [1] Tổ hợp của các đặc điểm quan sát được

hoặc những đặc điểm của một sinh vật: như hình thái, sự phát triển, đặc tính sinh hóa hoặc sinh lý, vật hậu học (phenology), hành vi, và các sản phẩm của hành vi (chẳng hạn như tổ của một con chim).[2]

Ví dụ: 4-5 finger syndactyly

5

[1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003)[2]. http://en.wikipedia.org/wiki/Phenotype

Page 6: M ột số tài nguyên cho nhận dạng thực thể y sinh

Pubmed

PubMed Central (Trung tâm lưu trữ báo điện tử về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ)

PubMed cung cấp quyền truy cập miễn phí tới CSDL Medline.MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm:- 4.800 nhan đề tạp chí về y khoa- 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay.

6

Page 7: M ột số tài nguyên cho nhận dạng thực thể y sinh

Pubmed

Page 8: M ột số tài nguyên cho nhận dạng thực thể y sinh

MeSH

MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây. Ví dụ: 21,973 mô tả Hàng nghìn tham chiếu chéo

Page 9: M ột số tài nguyên cho nhận dạng thực thể y sinh

UMLS

UMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt) Hơn 1.5 triệu từ tiếng Anh

nằm trong hơn 60 nhóm và được tổ chức trong 775 nghìn khái niệm

Page 10: M ột số tài nguyên cho nhận dạng thực thể y sinh

MedTag

L. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộ MedPost: 6700 câu đã gắn nhãn từ loại

(POSTagger chính xác 97.4%) GENETAG: 15000 câu đã gắn nhãn Gene và

Protein. ABGene: 4000 câu đã gắn nhãn Gene và

Protein

Page 11: M ột số tài nguyên cho nhận dạng thực thể y sinh

GENIA

Junichi Tsujii (University of Tokyo) Genia Corpus

44 nhãn thực thể Genia Ontology Genia Tools

GENIA Sentence Splitter: Tách câu (mô hình ME)

GENIA Tagger: PosTag, NER, Shallow parsing

11

Page 12: M ột số tài nguyên cho nhận dạng thực thể y sinh
Page 13: M ột số tài nguyên cho nhận dạng thực thể y sinh

CALBC Corpora

CALBC (Collaborative Annotation of a Large Biomedical Corpus)

Challenge task A: Named Entity RecognitionChallenge task B: Concept identification

Page 14: M ột số tài nguyên cho nhận dạng thực thể y sinh

CALBC Corpora

CALBC-SSC-III-Small: 174,999 Medline abstracts,

2,548,900 annotations CALBC-SSC-III-Big:

714,283 Medline abstracts, 10,304,172 annotations

16 nhãn ngữ nghĩa và 133 nhãn con tương ứng UMLS

Page 15: M ột số tài nguyên cho nhận dạng thực thể y sinh

Human Phenotype Ontology

Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man) Gần 10 nghìn từ về kiểu hình trên người Gần 50 nghìn chú thích về sự di truyền

bệnh

Page 16: M ột số tài nguyên cho nhận dạng thực thể y sinh

Một số Corpora khác

Page 17: M ột số tài nguyên cho nhận dạng thực thể y sinh

ABNER

Tác giả Burr Settles http://pages.cs.wisc.edu/~bsettles/abner/ (Java) Sử dụng mô hình CRF(Mallet) và 2 loại đặc trưng

chính: Chính tả: viết hoa, chữ số,… Ngữ nghĩa: Thêm đặc trưng lớp ngữ nghĩa của từ

Ví dụ:

B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets. In Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA), Geneva, Switzerland, pages 104-107.

Page 18: M ột số tài nguyên cho nhận dạng thực thể y sinh

Banner

Tác giả Bob Leaman và Graciela Gonzalez http://banner.sourceforge.net/ (Java) Sử dụng mô hình CRF

Sử dụng thêm đặc trưng phân tích cú pháp ở mức sâu

Leaman, R. & Gonzalez G. (2008) BANNER: An executable survey of advances in biomedical named entity recognition. Pacific Symposium on Biocomputing 13:652-663(2008)

Page 19: M ột số tài nguyên cho nhận dạng thực thể y sinh

Banner

Page 20: M ột số tài nguyên cho nhận dạng thực thể y sinh

Các loại đặc trưng 20

S SVM sh Dạng tự sy Nhãn cú pháp

H HMM gn Chuỗi gene tr Luật

C CRF wv Biến thể của từ ab Viết tắt

M MEMM ln Độ dài từ ca Các thực thể khác

lx Từ vựng gz Tra từ điển do Thông tin tài liệu

af Các thông tin liên quan (ngram) po Nhãn từ loại pa Dấu ngoặc

or Chính tả np Nhãn cụm danh từ pr Sử dụng các nhãn đã dữ đoán

Page 21: M ột số tài nguyên cho nhận dạng thực thể y sinh

Một số phương pháp giải quyết

21

Page 22: M ột số tài nguyên cho nhận dạng thực thể y sinh

Định hướng tiếp theo

Nhận dạng Phenotype, Gene, Bệnh (Disease), Hóa chất (Chemical) Vấn đề: Phenotype chưa có tập dữ liệu

huấn luyện, chỉ có HPO Dự kiến:

Sử dụng CALBC làm tập huấn luyện Dùng HPO nhận dạng các câu có chứa

Phenotype, sử dụng các câu tìm được làm câu huấn luyện

Thử nghiệm trên một số đặc trưng đã khảo sát

Page 23: M ột số tài nguyên cho nhận dạng thực thể y sinh

THANK YOU