800 likes | 1.07k Views
第二十五章 基因结构分析的基本策略. Basic strategy for analyzing gene structure. 主要内容: 第一节 基因序列结构的生物信息学检索和比对 分析 第二节 基因转录起始点的鉴定 第三节 启动子的结构及功能分析 第四节 编码序列结构分析. 第一节 基因序列结构的生物信息学检索和比对分析. 基因或 DNA 序列比对. 就是在数据库中对基因序列或 DNA 序列进行 比对分析,以其能够推测出其结构、功能及在进化上的联系 . 比对方法: 1. 双重比对 2. 多序列比对. 直接的数量关系. 序列比对目的:
E N D
第二十五章基因结构分析的基本策略 Basic strategy for analyzing gene structure
主要内容: 第一节 基因序列结构的生物信息学检索和比对 分析 第二节 基因转录起始点的鉴定 第三节 启动子的结构及功能分析 第四节 编码序列结构分析
第一节 基因序列结构的生物信息学检索和比对分析
基因或DNA序列比对 • 就是在数据库中对基因序列或DNA序列进行 比对分析,以其能够推测出其结构、功能及在进化上的联系. • 比对方法: • 1. 双重比对 • 2. 多序列比对 直接的数量关系 • 序列比对目的: • 判断两个或多个序列间是否具有足够的相似性 • 从而判断二者之间是否具有同源性 进化上曾具有共同祖先
序列比对的结果: • 取代 • 插入 • 缺失 • 保守序列: • 可能是共同进化的标志 • 可能并不代表功能的重要性 缺失? Mouse: GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish: GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-- • 当两个序列非常相似时,是否一定说明它们具有相似的功能? 插入? 保守序列
NCBI数据库 NCBI首先创建GenBank数据库 • 于1991年开发了Entrez数据库检索系统,该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息以及MEDLINE有关序列的文献信息,并通过相关链接,将他们有机地结合在一起 • NCBI还提供了其他数据库,包括在线人类孟德尔遗传(OMIM)、三维蛋白结构的分子模型数据库(MMDB)、人类基因序列集成(UniGene)、人类基因组基因图谱(GMHG)、生物门类(Toxonomy) 等数据库
1. 各种数据库的介绍 (1) Nucleotide • 该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成 • 三个组织每天交换各自数据库中的新增序列实现数据共享
(2) Genome • 即基因组数据库,提供了多种基因组、完全染色体、重叠序列图谱以及一体化基因物理图谱 (3) Structures • 即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据 • NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像
(4) Taxonomy • 即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等 (5) PopSet • 包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列 • PopSet既包含了核酸序列数据又包含了蛋白质序列数据
(7) 文献数据库 • PubMed:生物医药科学的检索系统 • OMIM:孟德尔遗传学数据库是人类基因和基因疾病的目录数据库 • 其他:书目,杂志,文章引用匹配等 • 该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息
2. NCBI数据库检索 • 在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed • 可以通过下拉菜单选择记录的显示格式,通常选择GenBankReport格式或FASTA Report格式。 • 当选择GenBank Report格式后,屏幕显示较完整的基因记录,包括:基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、 核酸编号(NID)、关键词(Keywords)、 来源(Source)、组织分类(Organism)、参考文献(Reference)、 著者(Author)、题目(Title)、期刊(Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele) 对等的肽(Mat-Peptide)、计算碱基数(Base Count)、原序列(Origin)。 • 而FASTA Report格式仅包括检出序列的简要特征描述。
例如:人EPO基因序列检索 • 输入关键词,选择合适的程序
可以直接拷贝保存相关内容 • 凡是连接的地方都可以点击查看
3. NCBI数据库搜索工具 • Entrez: • 是一个用以整合NCBI数据库中信息的搜寻和检索工具 • Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力 • BLAST: • 是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段 • NCBI提供的附加软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt
Entrez:
程序 数据库 查询 内容 Blastp 蛋白质 蛋白质 使用取代矩阵寻找较远的关系: 可以进行SEG过滤 Blastn 核苷酸 核苷酸 寻找较高分值的匹配,对较远关系 不太适用 Blastx 核苷酸 蛋白质 对于新的DNA序列和ESTs的分析极 (翻译) 为有用 Tblastn 蛋白质 核苷酸 对于寻找数据库中没有标注的编码 (翻译) 区极为有用 Tblastx 核苷酸 核苷酸 对于分析EST极为有用 (翻译) (翻译) • BLAST程序
第二节 基因转录起始点的鉴定
主要内容: 一、基因转录起始点的序列特征 二、基因转录起始点的序列分析
顺式作用元件 结构基因 -GCGC---CAAT---TATA 转录起始点 TATA box 增强子 CAAT box GC box 一、基因转录起始点的序列特征 1. 真核基因及其调控元件
Start site +20 +10 -40 -30 -20 -10 +1 +5 -3 ATG Initiator 2. 转录起始点(TSS) • II 型启动子的TSS: • 没有明确的保守序列 • 有一种趋势,即mRNA 的第一个碱基是A,其侧翼碱基倾向于是嘧啶 • 与mRNA第一个碱基对应的位置标记为-1区 • -3 ~ +5区域被称作起始子 (initiator) Py2CAPy5
二、基因转录起始点的序列分析 • 思考: • 转录起始点 (TSS)位于基因编码序列的5端 • 基因编码区是指能体现在多肽链中的核苷酸序列 • 多肽链是以mRNA为模板经翻译合成的 因此, 分析鉴定TSS的方法都是以cDNA为切入点
AAAAAn TTTTT15-18 TTTTT15-18 1. cDNA克隆测序 mRNA AAAAAn AAAAAn 反转录酶 Oligo (dT)15-18 mRNA AAAAAn CCCCC cDNA第一链 反转录酶的末端转移酶活性 Oligo (dG)15-18 cDNA第二链 nGGGG nCCCC cDNA第一链 与线性载体相连接 要求: cDNA的5端完整无缺 克隆扩增,5端测序分析
AAAAAn AAAAAn TTTTT15-18 TTTTT15-18 TTTTT15-18 2. cDNA末端快速扩增技术(RACE) • 传统的RACE: mRNA 反转录酶 Oligo (dT)15-18 mRNA -5 3- cDNA 末端转移酶 dGTP nGGGGG 锚定PCR扩增 nGGGGG nCCCCC 锚定引物 特异引物 PCR产物
AAAAAn AAAAAn AAAAAn AAAAAn • Deep-RACE: 用寡核苷酸替代mRNA的5′端帽结构以及发光标记巢氏PCR引物实现高通量鉴定转录起始点 mRNA 5-p 帽 牛小肠磷酸酶 (CIP) 5-帽 烟草酸焦磷酸酶 (TAP) 5- 将5-RACE adaptor (寡核苷酸)加到脱帽RNA分子上 5-RACE adaptor (寡核苷酸) 反转录酶 10nt 随机引物
随机引物 长短不同的cDNA 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 用10nt随机引物与5-RACE引物进行PCR扩增 随机引物 PCR产物 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 5-RACE adaptor 以5’-RACE引物和5’端甩尾的基因特异性反向引物进行巢氏PCR 5-RACE adaptor 以5’-RACE发光标记引物对PCR混合物直接进行一次性测序 分析基因转录起始点
3.连续分析基因转录起始点 • 在RACE的基础上,通过在转录本5 ′端引入一个特殊的II型限制性核酸内切酶识别位点,实现了基因5 ′端短片段串联连接产物一次测序分析多个基因转录起始点的目的 • 主要有两种方法: • 5 ′端连续分析基因表达(5 ′ -end serial analysis of gene expression, 5 ′ SAGE) • 帽分析基因表达(cap analysis gene expression, CAGE)
(1) 5 ′ SAGE • 5′SAGE是在PCR过程中将MmeI酶切位点引物cDNA的5′端,通过酶切和连接获得不同短片段重复序列,并对重复序列进行测序获得大量片段序列信息 • 不同序列的短片段代表不同基因的转录起始点 (TSS) • MmeI: • 是一种特殊的II型限制性核酸内切酶 • 识别的序列不是回文结构,而是不对称的DNA序列5′-TCCRAC-3′(R代表G或A) • 在识别位点下游18~20碱基处切开双链DNA
5 5 5 5 5 5 5 Biotin mRNA Gppp AAAAAAAAn 用BAP和TAP处理 p AAAAAAAAn 在RNA的5端加上寡核苷酸帽 MmeI XhoI AAAAAAAAn 反转录酶 RT 随机引物 cDNA AAAAAAAAn PCR Biotin-标记引物 Biotin 酶切消化 MmeI 用亲和素-生物素,可以将5-端片段与其他片段分离开 亲和素 20 mer
5 5 5 5 5 5 5 5 Biotin Biotin Biotin Biotin 连接 20 mer 20 mer PCR扩增 XhoI 酶切消化 自身连接 串联体 测序分析
(2) CAGE • CAGE与5′SAGE非常相似 • 所不同的是: • CAGE不需要在RNA上加接头,而是用oligo(dT)引物先进行第一链cDNA的合成 • 然后通过捕获帽结构,将含有MmeI和另一内切酶位点如XmaJI的linker加到单链全长cDNA的3′末端
mRNA Cap AAAAAAn Oligo (dT)15~18 反转录酶 Cap AAAAAAn TTTTTTTn cDNA 捕获5-帽结构 XmaJI 连接 MmeI 单链linker Biotin TTTTTTTn cDNA第二链的合成 AAAAAAn TTTTTTTn 酶切 MmeI 用亲和素-生物素,可以将5-端片段与其他片段分离开 亲和素 20 mer
连接第二个linker PCR(用linker1和linker2作引物) XmaJI XbaI 20 mer Linker 1 Linker 2 酶切消化 XmaJI, Xbal XmaJI和XbaI是同尾酶: XmaJI:C^CTAGG XbaI: T^CTAGA 纯化,串联连接,克隆 串联体 测序分析
第三节 启动子的结构及功能分析
主要内容: 一、启动子的结构分析 二、启动子的功能分析
启动子(promoter) • 是一段能被蛋白质识别的、参与特定基因转录调控的DNA序列 • II型启动子通常位于结构基因的上游 • 共通序列(consensus sequence)是其特征性序列 • 共通序列和启动子所处的位置是研究启动子的重要线索
Start site +20 +10 -40 -30 -20 -10 +1 +5 -3 ATG Initiator 共通序列 • 例如: • 原核基因的共通序列: • -10区:Pribnow box(T77A76T60A61A56T82序列) • -35区:T69T79G61A56C54A54 序列 • 真核基因的共通序列: • 真核基因启动子在-50区域附近(大约5%~30%基因启动子在-25~-30区域)有TATA box(TATAAA序列) TATAAT TTGACA
一、启动子的结构分析 • 主要方法: • 利用PCR技术克隆启动子 • 利用核酸-蛋白质相互作用方法研究启动子 • 生物信息学预测启动子
(一)利用PCR技术克隆启动子 1. 根据已知基因序列直接进行PCR扩增 基因上游序列 基因组DNA 特异性基因序列 根据基因序列合成一条反向引物 正向引物用随机引物 PCR扩增 特异引物 随机引物 • 注意: • 真核基因有内含子,应该根据mRNA序列设计特异性引物 • 特异性引物尽可能靠近基因的5端 克隆及测序分析
2. 利用TSS钓取启动子 mRNA Cap 5- AAAAAAn 反转录 Cap 5- AAAAAAn TTTTTTn cDNA 插入载体,克隆扩增 以基因特异引物与载体引物配对 PCR扩增 5- 测序分析基因转录起始点序列 以TSS序列为引物,基因组序列为模板,与随机引物配对进行TSS上游序列的PCR扩增
3. 利用环状PCR钓取启动子 基因组DNA 酶切消化 基因组DNA片段 直接环化连接 加上接头后环化连接 接头 根据基因上游序列设计一对反向互补引物 PCR扩增 PCR扩增 根据接头序列设计引物 • 加接头环化PCR不依赖特异基因序列 • 可用于筛选启动子 克隆 测序分析 克隆 测序分析