130 likes | 266 Views
GeneOrder : comparing the order of genes in small genomes. 200034061 윤 여 란. ABSTRACT. Motivation - 전체 게놈 DNA 순서 데이터의 빠른 성장으로 완벽한 분석을 위한 유전자 데이터 마이닝 소프트웨어 툴의 필요 성 커짐 Results - GeneOrder : 웹 기반의 상호 작용 계산 툴 2 개의 유전자에서 유전자 순서 비교 출력에서 ‘ Protein Cording Regions ’ 로 가는 하이퍼
E N D
GeneOrder: comparing the order of genes in small genomes 200034061 윤 여 란
ABSTRACT • Motivation -전체 게놈 DNA 순서 데이터의 빠른 성장으로 완벽한 분석을 위한 유전자 데이터 마이닝 소프트웨어 툴의 필요 성 커짐 • Results - GeneOrder : 웹 기반의 상호 작용 계산 툴 2개의 유전자에서 유전자 순서 비교 출력에서 ‘Protein Cording Regions’로 가는 하이퍼 링크 제공
INTRODUCTION • 비교유전학 - 생물학적인 기능을 더 잘 이해하는데 도움을 줌 - 조직내의 보통의 관련된 유전자를 밝혀내고, 순서의 차이 연구. 추정되는 유전자에는 이미 알려진 유전자 순서의 유사함에 기반하여 기능 부여 - 게놈 분석 프로그램 : BLAST, FASTA - 연구 활발하지 못함 : 사용자에게 친숙한 소프트웨어 부족 - KEGG 웹 사이트에서 프로그램 제공 -> 한계 -> 개선된 프로그램 개발 (GeneOrder)
INTRODUCTION • NCBI - National Center for Biotechnology Information (미국 국립 생물 정보 센터) - GenBank 운영, 데이터 분석, retrieval & resource들 제공, 단백질 구조 링크 • BLAST - Basic Local Alignment Search Tool - NCBI/GenBank의 research staff에 의해 개발된 유사성 검색 프로그램 - BLASTP : 단백질 서열간의 비교
MATERIALS AND METHODS • Algorithm - NCBI GenBank의 DB에서 두 개의 전체 게놈 엔티티들은 GenBank 접근 번호를 통해 접근 가능 - reference 데이터베이스 게놈, query 게놈 - 주석(annotation) : 추정 단백질의 순서 포함 - 질의 단백질은 BLASTP 사용하여 순서대로 DB에 질의 ->alignment score >= 전에 할당 된 BLASTP high score 초기값 ->유전자들 짝 지음, 유전자 번호 추출하여 저장 - x-y 차원에서 데이터를 좌표에 나타내는 프로그램 사용
MATERIALS AND METHODS • Program description - Perl, 자바 스크립트 사용 - 기본 : BLASTP 프로그램 - score가 사용자 지정 범위 안에 있으면 유전자 번호와 BLASTP high score 추출, 출력 테이블 생성 - 하이퍼링크 : protein cording region
MATERIALS AND METHODS • Parameter - 데이터베이스 박스 : 게놈 순서를 위한 GenBank 접근 번호 입력 - 질의 박스 : 비교 될 게놈 순서를 위한 GenBank 접근 번호 입력 - 데이터베이스 선택 (드롭-다운 메뉴: GeneBank) - A, B, C 박스 : 세 개의 범위로 BLASTP high score 파라미터(75이상)를 지정, 각각 A, B, C 박스로 들어감 (디폴트 : A-200이상, B-100~200, C-75~100)
RESULT AND DISCUSSION • GeneOrder application description - 초기 출력 : 테이블 형태 - 양과 사람의 아데노바이러스 비교 - x : 질의 조직 유전자 번호 - y : 데이터베이스 조직 유전자 번호 -A, B, C 디폴트 값 사용 -하이퍼 링크
RESULT AND DISCUSSION • 그래프로 표현 - Microsoft Excel의 ‘Chart Wizard’사용
RESULT AND DISCUSSION • 수행시간 - ATCC, NCBI 서버에 의존 - 200개 유전자 가진 게놈->표로 출력 : 1~3분 소요 (이더넷으로 연결된 iMac(233 MHz)에서..) • 제약 - 유전자 순서 생성할 때 NCBI 데이터베이스에서 데이터를 가져오므로 NCBI DB에 질의하는데 요구되는 시간에 의존하게 됨 - GenBank 접근 번호를 가진 NCBI DB만 오직 사용 됨 - 각각의 게놈 안의 유전자 전체 개수 약 200개로 한정(출력 임시 파일을 저장하는데 제공되는 디스크 공간 부족)
RESULT AND DISCUSSION • 결 론 - GeneOrder : 탐색자들이 게놈의 타입을 결정하고 분석하는 것 도움 -기능 향상 노력 : * 사용자들 소유의 DB를 포함한 다른 DB로의 접근을 허락, 비교 * 서버에 전체 게놈 데이터를 보관하여 응답 시간 향상시키도록...