koorio.com
海量文库 文档专家
当前位置:首页 >> 生物学 >>

基因组学数据分析_图文







基因组数据注释和功能分析

课程内容
实习一 实习二 基因组数据注释和功能分析 核苷酸序列分析

基因组学 系 统 生 物 学

实习三
实习四 实习五 实习六

芯片的基本数据处理和分析
蛋白质结构与功能分析 蛋白质组学数据分析

转录物组学

蛋白质组学
系统生物学软件实习

课程提纲
1. 通过序列比对工具BLAST学习,了解 蛋白编码基因的功能注释原理 2. 介绍多序列联配工具ClustalX 3. 分子进化分析软件MEGA4的基本知 识,掌握系统发生树绘制的基本方法

序列比对的进化基础
? 什么是序列比对: – 将两个或多个序列按照最佳匹配方式排列在一起。 – 对应的相同或相似的符号排列在同一列上。 – 错配与突变相应,空位与插入或缺失对应。 ? 序列比对的目的: – 从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他 们的结构、功能以及进化上的联系 – 通过判断两个序列之间的相似性来判定两者是否具有同源性 ? 相似性:可以被数量化,如:序列之间相似部分的百分比 ? 同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断

BLAST
? 基本局部比对搜索工具(Basic Local Alignment Search Tool) ? NCBI上BLAST服务的网址: ? http://www.ncbi.nlm.nih.gov/blast/ ? NCBI上BLAST程序的下载: ? ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/ ? NCBI的BLAST数据库下载网址: ? ftp://ftp.ncbi.nlm.nih.gov/blast/db/

选择物种

选择blast程序

QuerySequence

AminoacidSequence

DNASequence

BLASTp

tBLASTn
Translated

BLASTn

BLASTx
Translated

tBLASTx
Translated

Protein Database

Nucleotide Database

Nucleotide Database

Protein Database

Nucleotide Database

程序名

搜索序列

数据库

内容

备注

blastp

Protein

Protein

比较氨基酸序列与蛋白 使用取代矩阵寻找较 质数据库 远的关系,进行SEG 过滤 比较核酸序列与核酸数 寻找较高分值的匹配, 据库 对较远的关系不太适 用 比较核酸序列理论上的 用于新的DNA序列和 六个读码框的所有转换 ESTs的分析,可转 结果和蛋白质数据库 译搜索序列 比较蛋白质序列和核酸 用于寻找数据库中没 序列数据库,动态转换 有标注的编码区,可 为六个读码框的结果 转译数据库序列 比较核酸序列和核酸序 转译搜索序列与数据 列数据库,经过两次动 库序列 态转换为六个读码框的 结果

blastn

Nucleotide

Nucleotide

blastx

Nucleotide

Protein

tblastn

Protein

Nucleotide

tblastx

Nucleotide

Nucleotide

以Blastx为例:
目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 6个读码框翻译

5’端到3’端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C

3’端到5’端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T

与核酸相关的数据库

与蛋白质相关的数据库

BlastN
序列或目标序列的GI号 以文件格式上传

选择数据库

配对与错配

空位罚分

BlastP

打分矩阵: ?PAM30 ?PAM70 ?BLOSUM80 ?BLOSUM62 ?BLOSUM45
PAM模型可用于寻找蛋白质的进化起 源,而BLOSUM模型则用于发现蛋 白质的保守域。

选择打分矩阵(scoring matrix)
? ? ?

The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1.
The BLOSUM family Based on local alignments. BLOSUM62 is a matrix calculated from comparison s of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments ;they are not extrapolated from comparisons of closely related proteins.

? ?
?

进行比对的数据库

图形化结果

E值(E-value)表示仅仅因为随机性造成获得这一 比对结果的可能性。这一数值 越接近零,发生这一事件的可能性越小。

上机实习1:网上运行blastx和blastn
(NCBIblast网址:http://www.ncbi.nlm.nih.gov/BLAST/)
>lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGC CACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTC TGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGC CTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGC CTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTC AGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGA GACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGC ACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTC AGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGC CTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCA TAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGT AGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGT GTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC

1. 对contig34进行网上blastn(演示), 2. blastx(自行操作)比对

本地运行BLAST
? ? ? ? ? 下载NCBI上blast程序: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/ 安装(安装到C:\) 数据库的格式化(formatdb) 程序运行(blastall)

登陆NCBI的FTP下载blast程序

?bin含可执行程序(将数据库及需要比 对操作的数据放入该文件); ?data文件夹含打分矩阵及演示例子的 序列数据信息; ?doc文件夹含关于各子程序的说明文 档。

双击安装到C盘 产生三个文件夹 ?bin ?data ?doc

将数据库文件(db)及目标序 列文件(in)保存在Blast/bin 文件夹下

本地数据库的构建
? 查看db文件 由fasta格式的序列组成

数据库的格式化
formatdb命令用于数据库的格式化: formatdb [option1] [option2] [option3]?

formatdb常用参数 -i database_name 需要格式化的数据库名称 -p T\F 待格式化数据库的序列类型 (核苷酸选F;蛋白质选T;默认值为T)
例:formatdb -i db -p T 对蛋白质数据库“db”进行格式化

程序运行
blastall命令用于运行五个blast子程序: blastall [option1] [option2] [option3] *可在dos下输入blastall查看各个参数的意义及使用 ? blastall常用参数 ? 四个必需参数 -p program_name,程序名,根据数据库及搜索文件序列性质进行选择; -d database_name,数据库名称,比对完成格式化的数据库; -i input_file,搜索文件名称; -o output_file,BLAST结果文件名称; ? 两个常用参数 -e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5; -m alignment view options:比对显示选项,其具体的说明可以用以下的比对实例 说明 例:blastall -p blastx -d db -i in -o out -e 2e-5 -m 9 (表格显示比对结果) 采用blastx程序,将in中的序列到数据库bd中进行比对, 结果以表格形式输入到out文件

上机实习2:本地运行blastx
? ? ? ? 进入DOS命令行提示符状态(“运行”?cmd) 进入C盘“cd\” 进入包含序列数据的bin目录下“cd blast\bin” 察看目录下内容“dir”

? 格式化数据库db“formatdb -i db -p T”
? 运行blastx
输入 数据库类型:F/T

– “blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 ”
Blast程序 序列输入 数据库 结果输出

? 察看结果“more out ”或在 windows下双击打开

输入“cd\”-〉回车 回到安装目录C盘

输入“cd blast\bin”-〉回车 到达blast程序下bin文件夹

输入“dir”-〉回车 察看bin文件夹下内容

bin文件夹下包含 以.exe为后缀的程序 文件以及这次实习 需要用到的数据可 文件“bd”和目标序 列文件“in”

?空格键翻页 ?输入“q”跳出

输入“more db”-〉回车察看db文件内容

输入“formatdb -i db -p T”-〉回车 对db数据库进行格式化

输入“dir”-〉回车 察看bin文件夹下内容

格式化以后产生的文件

输入“blastall -p blastx -i in -d db -o out -e 2e-5 -m 9” -〉回车 运行blastx程序

产生的结果文件“out”

用”more out” 察看结果文件

不使用-m参数时 比对结果显示序列两两比对

用”more out” 察看结果文件

多序列比对的目的

? 从物种的一些分子特性出发,从而了解物种之 间的生物系统发生的关系。 ? 通过序列同源性的比较进而了解基因的进化以 及生物系统发生的内在规律。

多序列比对的应用: ?系统发育分析(phylogenetic analysis) ?结构预测(structure prediction) ?序列基序鉴定(sequence motif identification) ?功能预测(function prediction) ?ClustalW/ClustalX:一种全局的多序列 比对程序,可以用来绘制亲缘树,分析进化 关系。 ?MEGA4

ClustalW/X的运行
? 本地运行 – 命令行操作的Clustal W(linux & windows) – 窗口化操作的ClustalX(windows) 下载页面:ftp://ftp.ebi.ac.uk/pub/software/

? 欧洲生物学中心(EBI)还提供了Clustal W的网上 运行服务(http://www.ebi.ac.uk/clustalw)

·

下载ClustalX 各种参数设定

目标序列

Jalview 结果下载

点击Start Jalview打开java程序窗口

上机实习3:本地运行ClustalX

17-RNASE1.fasta

? 多序列比对 – (Multiple Alignment)

在 C:\zcni\实习1\Clustalx2 文件夹下,找到clustalx.exe 双击打开

ClustalX窗口

点击File下拉菜单中 Load sequences选项, 打开序列文件17-RNASE1.fasta.txt

打开后的界面

点击进行多序列比对

可在Alignment下拉菜单中的Alignment Parameters中设定各个参数

点击Alignment下拉菜单中的Do Complete Alignment进行比对

比对结果 “*”、“:”、“.” 和空格依次代表改位点的序列一致性由高 到低

MEGA4
一个关于序列分析及比较 统计的工具包 ? ? ? ? ? ? 包含距离建树,MP等建 树法 自动或手动进行序列比对; 推断进化树; 估算分子进化率,进行进化假设测验; 联机进行数据库搜索; ?

MEGA4可以识别 fasta格式文件 将
17-RNASE1.fasta.txt

重命名为
17-RNASE1.fasta

?选择打开方式为MEGA4,打开17-RNASE1.fasta,自动跳 出序列窗口 ?用ClustalW做多序列联配

ClustalW参数设置

以.meg格式保 存结果

回到MEGA主窗口 激活所保存的文件(.meg)

编辑标注 保守区域标注 不匹配的区域

回到MEGA4主窗口构建进化树

已被激活的文件

选择Bootstrap重 复次数,至少为 100次

四种系统进化树构建方法
? 分化程度较大的远缘序列: 邻位相连法(neighbor-joining,NJ) 最小进化法(ME) ? 分化程度较小的近缘序列: 最大简约法(MP) 除权配对法(UPGMA)

进化树的可靠性分析
BootstrapMethod ?从排列的多序列中随机有放回的抽取某一列, 构成相同长度的新的排列序列 ?重复上面的过程,得到多组新的序列 ?对这些新的序列进行建树,再观察这些树与原 始树是否有差异,以此评价建树的可靠性

?至少进行100次重复取样

原始数据多 序列比对结果 对序列中每个 位置重复抽样, 基于原比对结果 生成多个样本

?Original tree ?Bootstrap consensus tree ?节点上的值为通过 Bootstrap检验的次数

不同树型

?Tree:树型选择 ?Branch:分支信息修改 ?Label:分支名称修改 ?Scale:标尺设定 ?Cutoff:cutoff值

软件 ClustalX

网址 http://bips.ustrasbg.fr/fr/Documentation/ClustalX/ http://www.cf.ac.uk/biosi/research/biosoft/ Downloads/clustalw.html http://www.psc.edu/biomed/genedoc/ http://www.mbio.ncsu.edu/BioEdit/bioedit. html http://www.megasoftware.net/ http://paup.csit.fsu.edu/ http://evolution.genetics.washington.edu/p hylip.html http://atgc.lirmm.fr/phyml/ http://abacus.gene.ucl.ac.uk/software/paml. html http://www.tree-puzzle.de/ http://mrbayes.csit.fsu.edu/ http://www.agapow.net/software/mac5/ http://taxonomy.zoology.gla.ac.uk/rod/tree view.html

说明 图形化的多序列比对工具

ClustalW GeneDoc BioEdit MEGA PAUP PHYLIP PHYML

命令行格式的多序列比对工具 多序列比对结果的美化工具 序列分析的综合工具 图形化、集成的进化分析工具, 不包括ML 商业软件,集成的进化分析工具 免费的、集成的进化分析工具 最快的ML建树工具

PAML
Tree-puzzle MrBayes MAC5 TreeView

ML建树工具
较快的ML建树工具 基于贝叶斯方法的建树工具 基于贝叶斯方法的建树工具 进化树显示工具

上机练习4:MEGA4.0

谢谢!

选择构树方法
? 最大简约法(maximumparsimony,MP) 对所有可能的拓扑结构进行计算,并计算出所需替代数最 小的那个拓扑结构,作为最优树。 基于距离矩阵 ? UPGMA(UnweightedPairGroupMethodusingAnathematicAverage) 将类间距离定义为两个类成员距离的平均值,广泛应用于 距离矩阵 ? NJ(Neighbor-joining) 把所有n个序列两两比对,构建NJ树(起指导作用),每 个对比后的成对序列都可以跟第三条序列或者另一个新的 alignment比对,按照距离远近,用来决定下一个参与 比对的序列

最大简约法(MP)

?不需要处理大量核苷 酸或者氨基酸替代

×存在较多的回复突 变或平行突变,而被 检验的序列位点数又 比较少的时候,可能 会给出一个不合理的 或者错误的进化树推 导结果
×突变率相差较大时 (现已较少使用)

UPGMA

?所有分支突变率相近

邻接法(NJ)

?远源序列

×对相似度很低的序 列,往往出现Longbranch attraction (LBA,长枝吸引现 象),严重干扰进化 树的构建


推荐相关:

基因组学数据分析_图文.ppt

基因组学数据分析 - 实 习 一 基因组数据注释和功能分析 课程内容 实习一 实


基因组数据分析_图文.ppt

基因组数据分析 - 基因组数据注释和功能分析 1 1. 通过序列比对工具BLAS


基因组数据注释和功能分析_图文.ppt

基因组数据注释和功能分析 - 基因组数据注释和功能分析 陈启昀 丁文超 陈辰 张增明 浙江加州国际纳米技术研究院(ZCNI) 课程内容 实习一 实习二 基因组数据注释和...


全基因组重测序数据分析_图文.doc

基因组重测序数据分析_生物_自然科学_专业资料。全基因组重测序数据分析 1.


基因组数据注释和功能分析._图文.ppt

基因组数据注释和功能分析. - 实 习 一 基因组数据注释和功能分析 刘振范苗 周国艳 邱庆崇 课程内容 实习一 实习二 基因组数据注释和功能分析 核苷酸序列分析 ...


基因组数据注释和功能分析汇总._图文.ppt

基因组数据注释和功能分析汇总. - 实 习 一 基因组数据注释和功能分析 刘振范苗 周国艳 邱庆崇 课程内容 实习一 实习二 基因组数据注释和功能分析 核苷酸序列...


全基因组重测序数据分析详细说明_图文.doc

基因组重测序数据分析详细说明_生物_自然科学_专业资料。全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现 de novo 的 somatic 和 germ...


实习1基因组数据分析_图文.ppt

实习1基因组数据分析 - 课程内容 实习一 实习二 基因组数据注释和功能分析 核苷酸序列分析 基因组学 系统生物学 实习三 实习四 实习五 实习六 芯片的基本数据...


第二代测序中的数据分析-基因组_图文.pdf

第二代测序中的数据分析-基因组 - 第二代测序中的数据分析 ( 基因组 ) 1 第二代测序分析类型 SNP 全基因组 / 外显子组测序 基因组 目标区域深度测序 De ...


【生物信息学第二版】基因表达数据分析_图文.ppt

【生物信息学第二版】基因表达数据分析 - 生物信息学 生物信息学 第五章 基因表达数据分析 苏州大学 首都医科大学 沈百荣 李冬果 第一节 引言 Introduction 基因...


生物信息学_高通量测序技术及数据分析_陈润生院士_图文.ppt

基因芯片与高通量测序的比较 ? 高通量测序技术的应用 高通量测序数据分析概览 高通量测序数据质量评估与过滤 基因组测序 RNA-seq ChIP-seq UCSC ...


高通量基因组数据的处理、分析与建模_图文.pdf

高通量基因组数据的处理、分析与建模 - 随着高通量测序技术的不断发展,生物学相关数据也越来越多,如何从高通量实验数据中挖掘出有价值的知识和规律是生物信息学及...


生物信息学_高通量测序技术及数据分析_20141015_图文.ppt

生物信息学_高通量测序技术及数据分析_20141015_生物_自然科学_专业资料。生物...基因组测序 RNA-seq ChIP-seq UCSC Genome Bioinformatics 背景介绍 背景介绍 ?...


基于整合的TCGA数据库探索基因组学与临床数据关系_图文.pdf

基于整合的TCGA数据库探索基因组学与临床数据关系 - ⑧ 指导教师签名: 论文


基于测序软件进行生物信息学中数据分析_图文.pdf

。 通过利 用、 等各 种分析软件对基因组 , 原始 实脸 数据进行分析处理使之成为具有明确生物学 关健 词生物信息学基因组学蛋白质组学 文献标识码 生物...


基因组数据分析_图文.pdf

基因组数据分析_生物_自然科学_专业资料。第二代测序中的数据分析 ( 基因组 ) 1 第二代测序分析类型 SNP 全基因组 / 外显子组测序基因组 目标区域深度测序...


基因组和转录组高通量测序数据分析流程和分析平台_图文.pdf

基因组和转录组高通量测序数据分析流程和分析平台 - 高通量测序数据(NGS) 数据分析平台 NGS Data Analysis Strategy Wet lab Database Homo...


全基因组重测序数据分析详细说明_图文.pdf

基因组重测序数据分析详细说明_生物_自然科学_专业资料 暂无评价|0人阅读|0次下载 | 举报文档 全基因组重测序数据分析详细说明_生物_自然科学_专业资料。...


生物信息学在高通量测序数据分析中的应用_图文.ppt

降解组测序表观基因组测序 Chip-seq Clip-seq 生物信息学在高通量测序 数据中的主要应用 常用生物信息学分析平台与资源 ? 常用编程分析平台: Perl / BioPerl ...


芯片数据的基本处理和分析_图文.ppt

基因组学 系统生物学 实习三实习四 实习五 实习六 芯片数据的基本处理和分析蛋白质结构与功能分析 蛋白质组学数据分析 转录物组学 蛋白质组学系统生物学软件实习...

网站首页 | 网站地图
All rights reserved Powered by 酷我资料网 koorio.com
copyright ©right 2014-2019。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com