第二十五章基因结构分析的基本策略

第二十五章基因结构分析的基本策略 Basic strategy for analyzing gene structure

主要内容： 第一节基因序列结构的生物信息学检索和比对分析第二节基因转录起始点的鉴定第三节启动子的结构及功能分析第四节编码序列结构分析

第一节 基因序列结构的生物信息学检索和比对分析

基因或DNA序列比对 • 就是在数据库中对基因序列或DNA序列进行比对分析，以其能够推测出其结构、功能及在进化上的联系. • 比对方法： • 1. 双重比对 • 2. 多序列比对直接的数量关系 • 序列比对目的： • 判断两个或多个序列间是否具有足够的相似性 • 从而判断二者之间是否具有同源性进化上曾具有共同祖先

序列比对的结果： • 取代 • 插入 • 缺失 • 保守序列： • 可能是共同进化的标志 • 可能并不代表功能的重要性缺失？ Mouse: GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish: GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-- • 当两个序列非常相似时，是否一定说明它们具有相似的功能？插入？保守序列

NCBI数据库 NCBI首先创建GenBank数据库 • 于1991年开发了Entrez数据库检索系统，该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息以及MEDLINE有关序列的文献信息，并通过相关链接，将他们有机地结合在一起 • NCBI还提供了其他数据库，包括在线人类孟德尔遗传(OMIM）、三维蛋白结构的分子模型数据库（MMDB）、人类基因序列集成（UniGene）、人类基因组基因图谱（GMHG）、生物门类（Toxonomy）等数据库

1. 各种数据库的介绍 (1) Nucleotide • 该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL）三部分数据组成 • 三个组织每天交换各自数据库中的新增序列实现数据共享

(2) Genome • 即基因组数据库，提供了多种基因组、完全染色体、重叠序列图谱以及一体化基因物理图谱 (3) Structures • 即结构数据库或称分子模型数据库(MMDB)，包含来自X线晶体学和三维结构的实验数据 • NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D，可以很容易地从Entrez获得分子的分子结构间相互作用的图像

(4) Taxonomy • 即生物学门类数据库，可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等 (5) PopSet • 包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列 • PopSet既包含了核酸序列数据又包含了蛋白质序列数据

(7) 文献数据库 • PubMed：生物医药科学的检索系统 • OMIM：孟德尔遗传学数据库是人类基因和基因疾病的目录数据库 • 其他：书目，杂志，文章引用匹配等 • 该数据库包括原文信息、图片和参考信息，同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息

2. NCBI数据库检索 • 在检索框中输入检索词，检索词间默认逻辑关系为AND，检索规则基本同PubMed • 可以通过下拉菜单选择记录的显示格式，通常选择GenBankReport格式或FASTA Report格式。 • 当选择GenBank Report格式后，屏幕显示较完整的基因记录，包括：基因位点(Locus）、基因定义(Definition）、基因存取号(Accession）、核酸编号(NID）、关键词(Keywords）、来源(Source）、组织分类(Organism)、参考文献(Reference)、著者(Author）、题目(Title）、期刊(Journal）、Medline存取号(Medline）、序列特征(Features）、基因(Gene）、CDS（cDNA）、等位基因(Allele）对等的肽(Mat-Peptide）、计算碱基数(Base Count）、原序列(Origin）。 • 而FASTA Report格式仅包括检出序列的简要特征描述。

例如：人EPO基因序列检索 • 输入关键词，选择合适的程序

向下拉寻找符合目标的条目

点击此条打开连接

向下拉寻找关注的内容

可以直接拷贝保存相关内容 • 凡是连接的地方都可以点击查看

3. NCBI数据库搜索工具 • Entrez： • 是一个用以整合NCBI数据库中信息的搜寻和检索工具 • Entrez的一个强大和独特的特点是检索相关的序列，结构，和参考文献的能力  • BLAST： • 是一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段  • NCBI提供的附加软件工具有：开放阅读框寻觅器（ORF Finder），电子PCR，和序列提交工具，Sequin和BankIt

Entrez: 

BLAST:

程序数据库查询 内容 Blastp 蛋白质蛋白质使用取代矩阵寻找较远的关系：可以进行SEG过滤 Blastn 核苷酸核苷酸寻找较高分值的匹配，对较远关系不太适用 Blastx 核苷酸蛋白质对于新的DNA序列和ESTs的分析极（翻译）为有用 Tblastn 蛋白质核苷酸对于寻找数据库中没有标注的编码（翻译）区极为有用 Tblastx 核苷酸核苷酸对于分析EST极为有用（翻译）（翻译） • BLAST程序

点击核酸序列blast，在框内输入序列：

选择搜索条件：

选择特殊程序：

比较两个序列之间的相似性：

以上仅简介了NCBI相关数据库及工具软件关于其他数据库及软件工具等信息见书中第二十五章表1-5。

第二节 基因转录起始点的鉴定

主要内容： 一、基因转录起始点的序列特征二、基因转录起始点的序列分析

顺式作用元件 结构基因 -GCGC---CAAT---TATA 转录起始点 TATA box 增强子 CAAT box GC box 一、基因转录起始点的序列特征 1. 真核基因及其调控元件

Start site +20 +10 -40 -30 -20 -10 +1 +5 -3 ATG Initiator 2. 转录起始点（TSS） • II 型启动子的TSS： • 没有明确的保守序列 • 有一种趋势，即mRNA 的第一个碱基是A，其侧翼碱基倾向于是嘧啶 • 与mRNA第一个碱基对应的位置标记为-1区 • -3 ~ +5区域被称作起始子 (initiator) Py2CAPy5

二、基因转录起始点的序列分析 • 思考： • 转录起始点 (TSS)位于基因编码序列的5端 • 基因编码区是指能体现在多肽链中的核苷酸序列 • 多肽链是以mRNA为模板经翻译合成的因此，分析鉴定TSS的方法都是以cDNA为切入点

AAAAAn TTTTT15-18 TTTTT15-18 1. cDNA克隆测序 mRNA AAAAAn AAAAAn 反转录酶 Oligo (dT)15-18 mRNA AAAAAn CCCCC cDNA第一链反转录酶的末端转移酶活性 Oligo (dG)15-18 cDNA第二链 nGGGG nCCCC cDNA第一链与线性载体相连接要求： cDNA的5端完整无缺克隆扩增，5端测序分析

AAAAAn AAAAAn TTTTT15-18 TTTTT15-18 TTTTT15-18 2. cDNA末端快速扩增技术(RACE) • 传统的RACE： mRNA 反转录酶 Oligo (dT)15-18 mRNA -5 3- cDNA 末端转移酶 dGTP nGGGGG 锚定PCR扩增 nGGGGG nCCCCC 锚定引物特异引物 PCR产物

AAAAAn AAAAAn AAAAAn AAAAAn • Deep-RACE：用寡核苷酸替代mRNA的5′端帽结构以及发光标记巢氏PCR引物实现高通量鉴定转录起始点 mRNA 5-p 帽牛小肠磷酸酶 (CIP) 5-帽烟草酸焦磷酸酶 (TAP) 5- 将5-RACE adaptor (寡核苷酸)加到脱帽RNA分子上 5-RACE adaptor (寡核苷酸) 反转录酶 10nt 随机引物

随机引物 长短不同的cDNA 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 用10nt随机引物与5-RACE引物进行PCR扩增随机引物 PCR产物 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 以5’-RACE引物和5’端甩尾的基因特异性反向引物进行巢氏PCR 5-RACE adaptor 以5’-RACE发光标记引物对PCR混合物直接进行一次性测序分析基因转录起始点

3.连续分析基因转录起始点 • 在RACE的基础上，通过在转录本5 ′端引入一个特殊的II型限制性核酸内切酶识别位点，实现了基因5 ′端短片段串联连接产物一次测序分析多个基因转录起始点的目的 • 主要有两种方法： • 5 ′端连续分析基因表达（5 ′ -end serial analysis of gene expression, 5 ′ SAGE） • 帽分析基因表达（cap analysis gene expression, CAGE）

(1) 5 ′ SAGE • 5′SAGE是在PCR过程中将MmeI酶切位点引物cDNA的5′端，通过酶切和连接获得不同短片段重复序列，并对重复序列进行测序获得大量片段序列信息 • 不同序列的短片段代表不同基因的转录起始点 (TSS) • MmeI: • 是一种特殊的II型限制性核酸内切酶 • 识别的序列不是回文结构，而是不对称的DNA序列5′-TCCRAC-3′（R代表G或A） • 在识别位点下游18~20碱基处切开双链DNA

5 5 5 5 5 5 5 Biotin mRNA Gppp AAAAAAAAn 用BAP和TAP处理 p AAAAAAAAn 在RNA的5端加上寡核苷酸帽 MmeI XhoI AAAAAAAAn 反转录酶 RT 随机引物 cDNA AAAAAAAAn PCR Biotin-标记引物 Biotin 酶切消化 MmeI 用亲和素-生物素，可以将5-端片段与其他片段分离开亲和素 20 mer

5 5 5 5 5 5 5 5 Biotin Biotin Biotin Biotin 连接 20 mer 20 mer PCR扩增 XhoI 酶切消化自身连接串联体测序分析

(2) CAGE • CAGE与5′SAGE非常相似 • 所不同的是: • CAGE不需要在RNA上加接头，而是用oligo(dT)引物先进行第一链cDNA的合成 • 然后通过捕获帽结构，将含有MmeI和另一内切酶位点如XmaJI的linker加到单链全长cDNA的3′末端

mRNA Cap AAAAAAn Oligo (dT)15~18 反转录酶 Cap AAAAAAn TTTTTTTn cDNA 捕获5-帽结构 XmaJI 连接 MmeI 单链linker Biotin TTTTTTTn cDNA第二链的合成 AAAAAAn TTTTTTTn 酶切 MmeI 用亲和素-生物素，可以将5-端片段与其他片段分离开亲和素 20 mer

连接第二个linker PCR（用linker1和linker2作引物） XmaJI XbaI 20 mer Linker 1 Linker 2 酶切消化 XmaJI, Xbal XmaJI和XbaI是同尾酶： XmaJI：C^CTAGG XbaI： T^CTAGA 纯化，串联连接，克隆串联体测序分析

第三节 启动子的结构及功能分析

主要内容： 一、启动子的结构分析二、启动子的功能分析

启动子（promoter） • 是一段能被蛋白质识别的、参与特定基因转录调控的DNA序列 • II型启动子通常位于结构基因的上游 • 共通序列(consensus sequence)是其特征性序列 • 共通序列和启动子所处的位置是研究启动子的重要线索

Start site +20 +10 -40 -30 -20 -10 +1 +5 -3 ATG Initiator 共通序列 • 例如： • 原核基因的共通序列： • -10区：Pribnow box（T77A76T60A61A56T82序列） • -35区：T69T79G61A56C54A54 序列 • 真核基因的共通序列： • 真核基因启动子在-50区域附近（大约5%~30%基因启动子在-25~-30区域）有TATA box（TATAAA序列） TATAAT TTGACA

一、启动子的结构分析 • 主要方法： • 利用PCR技术克隆启动子 • 利用核酸-蛋白质相互作用方法研究启动子 • 生物信息学预测启动子

（一）利用PCR技术克隆启动子 1. 根据已知基因序列直接进行PCR扩增基因上游序列基因组DNA 特异性基因序列根据基因序列合成一条反向引物正向引物用随机引物 PCR扩增特异引物随机引物 • 注意： • 真核基因有内含子，应该根据mRNA序列设计特异性引物 • 特异性引物尽可能靠近基因的5端克隆及测序分析

2. 利用TSS钓取启动子 mRNA Cap 5- AAAAAAn 反转录 Cap 5- AAAAAAn TTTTTTn cDNA 插入载体，克隆扩增以基因特异引物与载体引物配对 PCR扩增 5- 测序分析基因转录起始点序列以TSS序列为引物，基因组序列为模板，与随机引物配对进行TSS上游序列的PCR扩增

3. 利用环状PCR钓取启动子 基因组DNA 酶切消化基因组DNA片段直接环化连接加上接头后环化连接接头根据基因上游序列设计一对反向互补引物 PCR扩增 PCR扩增根据接头序列设计引物 • 加接头环化PCR不依赖特异基因序列 • 可用于筛选启动子克隆测序分析克隆测序分析

第二十五章 基因结构分析的基本策略