slide1
Download
Skip this Video
Download Presentation
牛全基因组预测转录因子 数据库构建及分析

Loading in 2 Seconds...

play fullscreen
1 / 71

牛全基因组预测转录因子 数据库构建及分析 - PowerPoint PPT Presentation


  • 82 Views
  • Uploaded on

牛全基因组预测转录因子 数据库构建及分析. 导 师: 张勤教授 研究生: 王志鹏. August, 2008. 概要. 研究背景. 材料与方法. 数据库构建与网页. 结果与讨论. 转录因子. 定义 : 能够结合在某基因上游特异核苷酸序列上从而调控其基因转录的一类蛋白质。 结构特点 : 存在结构域和功能域 结构域 (DBD) :与 DNA 结合的具有特异性 结构模式:锌指,亮氨酸拉链, 螺旋-转角-螺旋,

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '牛全基因组预测转录因子 数据库构建及分析' - tocho


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

牛全基因组预测转录因子数据库构建及分析

导 师: 张勤教授

研究生: 王志鹏

August, 2008

slide2
概要
  • 研究背景
  • 材料与方法
  • 数据库构建与网页
  • 结果与讨论
slide3
转录因子
  • 定义:

能够结合在某基因上游特异核苷酸序列上从而调控其基因转录的一类蛋白质。

  • 结构特点:

存在结构域和功能域

结构域(DBD) :与DNA结合的具有特异性

结构模式:锌指,亮氨酸拉链,

螺旋-转角-螺旋,

螺旋-环-螺旋 ……

  • 顺式作用元件与反式作用因子
slide4
真核生物转录因子

物种 #转录因子 物种 #转录因子

人 1790 拟南芥 1953

猩猩 242 水稻 400

鼠 1305 小麦 97

鸭嘴兽 139 玉米 37

鸡 585 番茄 29

斑马鱼 874 绿藻 90

果蝇 586 红藻 10

线虫 635 酵母 322

--收集于NCBI

slide5
古细菌物种 #转录因子 细菌物种 #转录因子

暖枝菌 8紫色光合细菌20

热变形菌 9具核梭杆菌2

常温泉古菌 15乳酸球菌 1

嗜热菌7发光杆菌7

超嗜熱菌 6双叉杆菌7

嗜盐杆菌39抗辐射细菌 17

古细菌 503细菌332

原核生物转录因子

--收集于NCBI

slide6
转录因子所占比例

--J. L. Riechmann 2000 science.

slide7
生物进化历史

--J. L. Riechmann 2000 science.

slide8
转录因子存在的特性

1. 转录因子存在的普适性2. 物种间的差异性3. 与进化历史有一定关系

slide9
转录因子的作用
  • 基因调控特别针对真核生物的多级调控结构
  • 基因调控网络
  • 辅助基因网络的推断
slide22
物种 #转录因子

猪 94

马 156

牛 634

羊 17

鸡 585

狗 215

猫 5

水稻 400

小麦 97

玉米 37

农场生物转录因子

--收集于NCBI

slide23
牛转录因子
  • 关注于模式生物
  • NCBI~634 编码转录因子的基因
  • TRANSFAC ~10 编码转录因子的基因

~ 16 转录因子调控的基因

  • DBD ~ 2333 预测转录因子 (无注释)
slide24
目 的

全基因组范围完整注释的

牛转录因子库

slide25
概要
  • 背景知识
  • 材料与方法
  • 数据库构建与网页
  • 结果与讨论
slide26
实现步骤
  • 数据的收集
  • 转录因子的识别
  • 预测转录因子的注释
  • 预测转录因子的展示
slide27
基因组,蛋白质组数据

蛋白质二级结构

模型集

( Pfam &SuperFamily)

HMMER 程序

预测转录因子集

已知转录因子集合

本地BLAST

信息整合

基因注释

注 释

转录因子功能注释

转录因子物理位置注释

生物功能信息

基本信息

QTL区域信息

技术路线
slide28
数据收集
  • 牛全基因组序列3.1版本 。( ENSEMBLE )
  • 收集牛已知蛋白质序列2.7万条。(ENSEMBLE)
  • 获得由GENESCAN 预测蛋白质5.6万条。
  • 与转录因子相关的基因信息4357条,

转录信息4933条。 (NCBI)

  • PDB数据3.6万条 。 (SWISS-MODEL)
  • 收集涉及91个性状的QTL共846条。(QTLdb)
slide29
转录因子识别
  • 识别蛋白质是否含有DBD结构
  • 与DNA结合的结构域(DBD)具有特异性
  • HMMER程序 (hmmpscan,hmmsearch)
  • 66个家族231个HMM模型(SCOP)
  • 参数为默认值,取E-value=0.01
slide30
预测转录因子的注释
  • 转录因子基本信息物理位置
  • 转录因子家族信息
  • DBD信息
  • 基因与转录本信息
  • 基因结构与3D结构信息
  • GO信息
  • 表型性状与QTL信息
  • 序列信息
slide31
概要
  • 背景知识
  • 材料与方法
  • 数据库构建与网页
  • 结果与讨论
slide32
预测转录因子的展示
  • C \S构架 动态网站
  • 数据存储 ~ Mysql (5.0.18)
  • 服务 ~ Apache (2.2.4)
  • 界面 ~ Perl (5.8.7)

perl :: DBI 、perl :: CGI

perl :: GD

slide33
TF_family 信息

PDB 信息

注释信息

TF 基本信息

Motif 信息

QTL 信息

转录和外显子信息

基因信息

序列信息

数据表结构
slide41
概要
  • 背景知识
  • 材料与方法
  • 数据库构建与网页
  • 结果与讨论
slide42
结 果 (I)
  • 共计 5479个转录因子,4357个基因

   由已知蛋白集合预测

3810个基因4932个转录因子

由预测蛋白集合预测

4260个基因5487个转录因子

slide43
已知蛋白集合

预测蛋白集合

4357个基因~5479个转录因子

3810~4932

547~547

占全基因组~14%

结 果 (I)
slide45
转录因子的可变剪切
  • 有886个基因产生2个或2个以上的转录蛋白

1 个基因产生 7个不同的转录因子

3 个基因每个产生 6个转录因子

9 个基因每个产生 5个转录因子

712 个基因每个产生 2个转录因子

slide46
可变剪切的影响
  • 可变剪切不影响转录因子绑定形式

ENSBTAG00000005251产生了7个转录因子

每个转录因子只包含RING/U-box结构。

  • 可变剪切影响转录因子绑定形式

ENSBTAG00000000054产生了4个转录因子

3个含Homeodomain-like和 DEATH domain

1个只含有Homeodomain-like结构

这4个因子的Homeodomain-like均为四联体重复

slide47
结 果 (II)
  • 在各条染色体上的分布不均

chr. 19 18 5 3 7 .. 1(146Mb)

367 333 307 287 279 .. 242

slide48
结 果 (II)
  • 每条染色体上分布呈非随机性

Chromosome 1

slide49
结 果 (III)
  • 3174转录因子分到47个性状中

MY PP PY FP FY SCS SCC

187 274 253 184 180 384 122

合计:1584

slide52
结 果 (IV)
  • 2967个转录因子只存在一个DBD结构,其余的存在多个DBD结构。
  • 存在结构洗牌现象

同一DBD结构重复

不同DBD结构的组合

slide53
HTH_10

Com_HTH

HTH_1

HTH_11

结构洗牌

Basic

T_Box

Myc_N

HLH –T_box

HLH –Basic

HLH –Myc_N

HLH

slide54
Pou

bZip_1

Hom –Pou

Zip –ZF

Hom–CUT

Hom –ZF

Homeobox

Zf_C2H2

Fork –ZF

Hom –PAX

CUT

Fork_head

PAX

结构洗牌

slide55
结 果 (IV)
  • 按照DBD结构将转录因子分为64个家族
  • 每个家族所含转录因子数目差异较大,5个家族的成员超过300个,大部分家族含有少许转录因子(幂率分布)。
slide56
结 果 (IV)
  • 部分家族具有种属特异性

牛特有家族 ZF-C2H2_DDE

GATA_Atrophin-1

哺乳动物特有家族 ZF-C2H2_KRAB_SCAN

ZF-C2H2_SCAN

温血动物特有家族 ZF-C2H2_KRAB14

动物特有家族 Fez1 ; Ets

真核生物特有家族 bHLH

  • 部分家族成员数目具有种属特异性(与鸡作比)

牛含量高的家族 ZF-C2H2-3

牛含量低的家族 T-box

slide57
--典型家族进化树分析

结 果 (V)

  • bHLH (生物中共有家族)
  • HomeoBox (牛最多成员数家族)
  • Ets (动物中共有家族)
slide58
bHLH

此树涉及

33个物种

108条数据

slide63
牛Ets家族进化树

--14个成员

slide64
ENSBTAG00000013444 ~193

130Kb

ENSBTAG00000007466 ~190

50Kb

ENSBTAG00000000332 ~185

牛 18号染色体

串联重复

定义:两个或多个同家族成员基因出现在同一条染色体,且距离相差小于200kb。

slide65
187

194

197

189

195

188

X

5

16

17

12

基因重复
slide66
转录因子家族进化树分析结果
  • 存在重复序列和串联重复片段。
  • 有些基因直接来源与祖先基因,一些基因具有直系同源性,一些基因具有并系同源性。
  • 根据进化树可将同一基因家族内的成员进一步细化。
slide67
结 论 (I)
  • 在基因组范围内存在一定比例的基因表达转录因子,且在基因组的分布具有非随机性,存在富集区。
  • 与QTL关联的转录因子可作为候选基因考虑,需要进一步实验验证
slide68
结 论 (II)
  • 所涉及的结构结合域较多,且组合丰富;推测丰富的结构组合性与生物进化复杂度相关。
  • 部分转录因子家族具有种属特异性
  • 转录因子具有丰富的起源和进化形式。
slide69
推论
  • 由于可变剪切,结构洗牌,基因重复和串联重复等特点辅助实现了高等生物特有的复杂性。
slide70
致 谢
  • 导师张勤教授
  • 国家基础研究项目2006CB102104
  • 自然基金重点项目30430500
  • 实验室的每一位成员
ad