第九章 数据挖掘与基因表达调控信息分析
Download
1 / 32

??? ??????????????? - PowerPoint PPT Presentation


  • 153 Views
  • Uploaded on

第九章 数据挖掘与基因表达调控信息分析. 主讲人:孙 啸 制作人 :刘志华. 东南大学 吴健雄实验室. 第一节 引言. 基因表达调控是分子生物学目前研究的一个重点,基因转录水平上的调控是最重要的环节。 与基因表达调控有关的信息包括基因组 DNA 序列、转录因子、调控元件、基因表达数据等。. 数据库技术及数据挖掘技术在基因表达调控信息研究中的应用。. 第二节 生物数据挖掘和可视化. 1 、 数据挖掘 数据挖掘,即数据库中的知识发现,是一个从大量关联数据及数据库中提取隐含信息的过程,目的是发现未知的和规律性的知识 。

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '??? ???????????????' - jake


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
5257850

第九章 数据挖掘与基因表达调控信息分析

主讲人:孙 啸

制作人 :刘志华

东南大学 吴健雄实验室


5257850
第一节 引言

  • 基因表达调控是分子生物学目前研究的一个重点,基因转录水平上的调控是最重要的环节。

  • 与基因表达调控有关的信息包括基因组DNA序列、转录因子、调控元件、基因表达数据等。



5257850
第二节 生物数据挖掘和可视化

1、数据挖掘

  • 数据挖掘,即数据库中的知识发现,是一个从大量关联数据及数据库中提取隐含信息的过程,目的是发现未知的和规律性的知识 。

  • 数据挖掘本质上是对数据库中蕴涵的、未知的、有潜在应用价值的、非平凡知识的提取。


5257850


5257850

  • 数据库集成:

    • 数据仓库技术

      • 所有的数据在物理上集中在一起

    • 虚拟数据库技术

      • 数据表面上或者在逻辑上是集成在一起,然而它们的物理存贮则是分散在Internet不同的数据服务器上


5257850

  • 从两种数据库集成技术来看:

    • 数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的情况。

    • 虚拟数据库技术实用于数据更新速度快、数据类型和使用方法完全不一样的情况。


5257850


5257850
2 ,主要体现在四个方面: 、生物信息可视化

  • 通过数据的可视化,帮助人们认识和理解数据,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律,为科学发现提供依据。


5257850

  • 可视化程序从人类认知特性出发,以 ,主要体现在四个方面: 表格、色彩、多维图形、动画等形式表示生物分子数据。

  • 生物数据可视化包括应用软件的图形用户界面、可视化程序。

  • 通过图形界面,用户可以很方便地使用应用软件,观察生物分子数据,甚至通过图形方式处理生物分子数据。


5257850


5257850

  • 生物分子数据的最大特点是存在着复杂的相互关系生物分子数据的最大特点是存在着复杂的相互关系

    • 如DNA到 RNA的映射关系、基因调控信息与基因表达数据之间的关系、基因之间的相互作用关系等

  • 这一特点决定了生物信息可视化技术不仅要显示信息本身,而且要显示信息之间的关联。


5257850
几种生物信息可视化技术生物分子数据的最大特点是存在着复杂的相互关系

  • (1)层次树与聚焦、关联数据显示鱼眼镜技术

    • 鱼眼镜是一种广角镜,它详细显示中心区域内容,渐粗地扭曲显示远景。


5257850
生物分子数据的最大特点是存在着复杂的相互关系2)信息壁技术

  • 信息壁是适合视窗中显示完整信息空间的二维简化表示法。它利用灰度、阴影、亮度、色彩、象素尺寸等视觉特征及图像压缩技术产生信息空间的缩影。作为导航背景的壁能够提供信息背景,以支持平铺和缩放等更细节的聚焦观察。信息壁的全景观察加上平铺和缩放,就可作为一种独立的可视化工具。


5257850
生物分子数据的最大特点是存在着复杂的相互关系3)魔镜

  • 这是一种新的用户界面工具,看似一块透明玻璃,用户可用来定制数据视窗和底层应用。好比在一平面坐标数据集上放置一成像工具镜,就会得到框架内数据的曲线图。多重镜头重叠可从更多层次上观察数据。


5257850

  • 魔镜是一种生物分子数据的最大特点是存在着复杂的相互关系语义镜

  • 所谓语义镜是一种能对群体目标进行全局浏览并且保持个体间特定关系的可视化方法,它通常通过放大局部细节、缩小周边内容的方法来满足观察需要。

  • 魔镜技术推进了自定义界面的应用。


5257850
3生物分子数据的最大特点是存在着复杂的相互关系、基因调控数据可视化技术

  • 目前,基因数据可视化技术主要有:

    • (1)语义镜技术

    • (2)信息壁技术

    • (3)基因调控网络表示则是表现生物分子相互作用、复合及作用路径等生物信息的新可视化技术


5257850
第三节 基因转录调控元件识别生物分子数据的最大特点是存在着复杂的相互关系

  • 在转录和后转录水平,基因的表达在很大程度上受到一些顺式作用元件(即转录调控元件)的控制

    • 它们本质上是一些比较短的DNA序列,这些序列一般都处在受调控基因的上游区域


5257850

  • 调控序列的分析主要涉及生物分子数据的最大特点是存在着复杂的相互关系三类问题:

    • (1)在给定基因的上游区域寻找已知的调控元件

    • (2)在一系列共表达或者共调控基因的上游区域中发现未知的调控元件

    • (3)寻找由一个已知转录因子调控的未知基因。


5257850

  • 可以通过实验的方法来标识调控元件。生物分子数据的最大特点是存在着复杂的相互关系

  • 主要的方法是通过对目标基因或者假想的调控区域进行突变分析识别调控元件。

  • 另一种方法是通过分析转录因子结合的DNA序列来识别调控元件。


5257850
几种典型的算法 生物分子数据的最大特点是存在着复杂的相互关系

  • 1、计数法

  • 2、WORDUP算法

  • 3、信息含量方法

  • 4、MM(Mixture Model)算法


5257850

ATCGT生物分子数据的最大特点是存在着复杂的相互关系

CGTGA

序列1:CGTGAAC

序列2:ATCGTGA

GTGAA

TCGTG

CGTGA

TGAAC

n-tuples的选择

序列1:CGTGAAC

考虑n=5,相应的矩阵为

序列2:ATCGTGA

7.189641

6.315172

10.687518


5257850

调控元件分析软件生物分子数据的最大特点是存在着复杂的相互关系


5257850

THE END生物分子数据的最大特点是存在着复杂的相互关系


ad