当前位置：文档之家› BLAST检索和比对

BLAST检索和比对

Alignment: 序列比对。将两个或多个序列排在一起，以达到最大一致性的过程（对于氨基酸序列是比较它们的保守性），这样可以评估序列间的相似性和同源性。

Algorithm: 算法。在计算机程序中包含的一种固定过程。

Bioinformatics: 生物信息学。一门结合生物技术和信息技术从而揭示生物学中新原理的科学。

Bit score: 二进制。二进制值S＇源于统计性质被数量化的打分系统中产生的原始比对分数S。由于二进制值相对于打分系统已经被标准化，它们常用于比较不同搜索之间的比对分数。

BLAST: 基本的局部相似性比对搜索工具。在序列数据库中快速查找与给定序列具有最优局部对准结果的序列的一种序列比对算法。初步搜索是对打分至少为T、长度为W的词进行的。打分的过程是用一个替代矩阵对查询序列和该词作比较。然后词长可以试着向两端伸长以获得一个超过阈值S的打分。参数T反映了搜索的速度大小和敏感性。可以参见BLAST的用户指南和BLAST使用指导来获得更详细的信息。

BLOSUM: 模块替换矩阵。在替换矩阵中，每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的。每个矩阵被修改成一个特殊的进化距离。例如，在BLOSUM62矩阵中，是使用一致性不超过62%的序列进行配对来获得打分值的。一致性大于62%的序列在配对时用单个序列表示，以避免过于强调密切相关的家族成员。Conservation: 保守。指氨基酸或DNA（普遍性较小）序列某个特殊位置上的改变，并不影响原始序列的物理化学性质。

Domain: 结构域。蛋白质在折叠时与其他部分相独立的一个不连续的部分，它有着自己独特的功能。

DUST: 一个低复杂性区段过滤程序。

E value: E值。期望值。在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。E值越低，表明该打分值的显著性越好。

Filtering: 过滤，也叫掩蔽（masking）。指对那么经常产生乱真的高分数的核苷酸或氨基酸序列区域进行隐藏的过程。Gap: 空位。在两条序列比对过程中需要在检测序列或目标序列中引入空位，以表示插入或删除。为了避免在比对时出现太多的空位，可以在收入空位的同时，从比对的打分值中减去一个固定值（空位值）。在多余的核苷酸或氨基酸周围引入空位时，也要对比对的打分值进行罚分。

Global Alignment: 整体联配。对两个核苷酸或蛋白质序列的全长进行的比对。

H: 相对熵值。目标残基和底物残基频率的相对熵记作H。H可以衡量某个位置（这个位置可以通过概率来区分比对）上由于偶然因素而得到的平均信息（用字节表示）。H值越高，短的比对就越可以通过概率来区分；H值越低，需要的比对长度越长。

Homology: 同源性。由共同的祖先所遗传得到的相似性。

HSP: High-scoring segment pair，高打分值片段。在一个给定的搜索中，没有空位的局部比对能得到最高的比对打分值。Identity: 一致性。两个（核苷酸或氨基酸）序列比对时不变部分的长度。

K: K值。用来计算BLAST程序中打分函数的一个统计参数。它可以看作搜索空间大小的一个自然衡量尺度。K值通常用于将原始比对值S转换为二进制值S＇。

Lambda: λ值。用来计算BLAST程序中打分函数的一个统计参数；它可以看作打分系统的一个自然衡量尺度。λ值通常用于将原始比对值S转换为二进制值S＇。

Local Alignment: 局部联配。对两个核苷酸或蛋白质序列的一部分所进行的比对。

Low Complexity Region（LCR）: 低复杂性区域。指组分（包括均聚物、短周期重复片段）区域和有许多单个或多个残基的区域。SEG程序用来筛选或过滤氨基酸序列中低复杂性区域。DUST程序用来筛选或过滤核苷酸序列中的低复杂性区域。

Masking: 掩蔽。也叫过滤（filtering），指为了提高对序列相似性搜索是时的敏感性，而从序列中移除重复的或低复杂性区域的过程。

Motif: 模体或序列模式。蛋白质序列中短的保守区域。它们是结构域中保守性很高的部分。

Multiple Sequence Alignment: 多序列比对。三个或三个以上的多个序列之间的比对，如果序列在同一列有相同结构位置的残基和（或）祖传的残基，则会在该位置插入空位。ClustalW是一种最为广泛使用的多序列比对程序之一。Optimal alignment: 最佳联配。两个序列之间有最高打分值的排列。

Orthologous: 直系同源。指不同种类的同源序列，它们是在物种形成事件中从一个祖先序列独立进化形成的；可能有相似功能，也可能没有。

P value: P值。在比对时，获得某个打分值或更高的打分值的可能性。通过数据库中具有相同长度或组分的随机序列之间的比对，可以得到高打分值的片段的预期分布，将它与观察到的比对打分值S相连，就可以计算出P值。显著性最高的P值应该接近于零。P值和E值用不同的方法来表示比对的显著性。

PAM: Percent Accepted Mutation，可接受点突变。一个用于衡量蛋白质序列的进化突变程度的单位。一个PAM的进化距离表示蛋白质序列中平均1%的氨基酸残基发生突变的概率。PAM（x）替换矩阵是一个查找表，其中每个氨基酸残基的替换打分值是基于进化趋异程度为x的紧密相关蛋白的替换频率而计算的。

Paralogous: 共生同源。指在单个种类中由于基因复制事件而产生的同源序列。

Profile: 表达谱。一种罗列了蛋白质序列的每个位置上每个氨基酸出现频率的表格。这些频率是通过包含指定结构域的序列进行多次比对而得到的。参见PSSM。

Proteomics: 蛋白质组学。对某个生物体中正常或生病组织的蛋白质表达进行系统的分析，包括对所有蛋白的分离、鉴定和特征化。

PSI-BLAST: 特定位点迭代BLAST程序。使用BLAST算法进行迭代搜索。初始搜索产生的表达谱会在接下来的搜索中使用。这个过程会根据需要而一直重复，在每个循环中产生的新序列会用来重新定义表达谱。

PSSM: Position-specific scoring matrix，特定位点记分矩阵。PSSM给出了在目标序列中寻找特定的相配对的氨基酸的对数比分值。参见Profile。

Query: 检测。输入序列（或其他搜索项）与数据库中的所有条目进行的比较。

Raw Score: 初值。指通过计算替换和空位所得打分值之和而得到的联配值S。替换打分值以查找表的形式表示。空位打分值是通过计算空位开放罚分G和空位拓展罚分L求和而得到的。对于长度为n的空位，空位罚分值是G+Ln。空位罚分G与L的选择完全是根据经验，通常G选择一个较高的数值（10~15），L选择一个较低的数值（1~2）。参见PAM、BLOSUM。

Similarity: 相似性。指核苷酸或蛋白质序列的相关程度。两个序列之间的相似性是基于相同和（或）保守序列所占的百分比的。在BLAST中，相似性指一个正定的打分值矩阵。

SEG: 一种过滤氨基酸序列中低复杂性区域的程序，在比较中被过滤掉的氨基酸用“X”表示。在BLAST2.0的blastp子程序中，SEG过滤是默认执行的。

Substitution: 替换。在指定的位置不相同的氨基酸进行联配。如果联配的残基有相似的物理化学性质，那么替换是保守的。

Substitution Matrix: 替换矩阵。替换矩阵中的值与氨基酸对中的第i个氨基酸突变为第j个氨基酸的概率成比例。构建这样的矩阵需要组装一个大的、含有不同的成对排列的氨基酸样本。如果样本足够大，其统计性显著，那么得到的替换矩阵可以反映经过某一阶段进化后的突变概率的真实值。

Unitary Matrix: 酉矩阵，幺正矩阵。也称为单位矩阵。是一个只有在字符相同时才能得到正打分值的打分系统。blastn: 用来将一个核酸的查询序列与一个核酸序列数据库相比较。

blastp: 将一个氨基酸的查询序列与一个蛋白质序列数据库相比较。

blastx: 将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。

tblastn: 将一个蛋白质查询序列与一个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行比较。

tblastx: 将一个核酸查询序列的6种框架和翻译结果与一个核酸序列数据库的6种框架翻译产物进行比较。

Filter: 过滤器。过滤掉查询序列中具有较低复杂度的掩盖部分（或者具有很大偏差的成分）。对于蛋白质查询序列，使用SEG程序进行过滤；对于核酸查询序列则使用DUST程序。

FASTA: （a）FASTA是第一个被广泛使用的数据库相似性搜索算法。这个程序通过扫描序列中的“词”的小配对，从而寻找最优局部比对。首先计算有多个序列的片段的分值（记为init1）；接着这些分值加在一起产生“initn”值；最后输出包含间隔的最佳比对（记为opt）。搜索的敏感性和速度同“词”的长度——“k-tup”变量所控制，并且二者负相关。（b）核苷酸或蛋白质序列的一种输出格式。

Subsequence; 用来设定查询序列中进行比对的子序列。

Descriptions: 对核苷酸或者蛋白质序列的描述。

Alignments: 比对结果。

Query Number: 查询序列的个数。

Job ID: 是在进行BLAST比对的过程中程序自动生成的流水号，用来唯一标识一次比对过程。利用Job ID可以快速找回你曾经进行过的比对结果。

Query ID: 查询序列的ID。

Subject ID: 与查询序列比对的序列的ID。

Length: 比对序列的长度。

Identities: 一致性。指两个（核苷酸或氨基酸）序列比对时不变部分的长度。

Q.start: 查询序列的起始位置。

Q.end: 查询序列的终止位置。

Q.Length: 查询序列的长度。

S.start: 与查询序列相比对的序列的起始位置。

S.end: 与查询序列相比对的序列的终止位置。

S.Length: 与查询序列相比对的序列的长度。

top↑常见问题

什么是BLAST，由来？

BLAST（Basic Local Alignment Search Tool）基本的局部相似性比对搜索工具。是用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具（Altschul,1990,1997）。BLAST搜索是研究一个蛋白质或基因的最基本的方法之一。这种搜索告诉我们哪些相关的序列在同一物种或其他物种中出现。

BLAST的主要功能包括以下几种：

1）确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列。

2）确定哪些蛋白质和基因在特定的物种中出现。

3）确定一个DNA或蛋白质序列身份。

4）发现新基因。

5）确定一个特定基因或者蛋白质有哪些已经被发现了的变种。

6）研究可能存在多种剪接方式的表达序列标签。

7）寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基。

BLAST检索第一次被提出是在Stephen Altschul，David Lipman及同事的一篇经典文献（1990）中。这篇论文描述了BLAST检索的理论基础以及一些基本问题，例如灵敏度（正确度）和速度。晚些时候有对BLAST算法的重要修饰，包括间隔BLAST的引入（Altschul等，1997）。

我应该选择NCBI的BLAST还是SDSPB的BLAST，他们的区别？

SDSPB的数据库中有数据和NCBI的数据库中的数据基本上是同步的，不过NCBI里BLAST能够选择的数据库目前要比我们的多些，但我们正在努力构建其他的数据库，相信不久的将来，我们会拥有NCBI中所有的数据库并拥有一批自己特色的数据库。

SDSPB的BLAST有哪些模块，如何选择这些模块？

SDSPB主要拥有五个模块，使用时直接在BLAST的主页点击相应的子程序即可，这五个模块分别为下：

程序查询搜索数据库的个数数据库

blastp 蛋白质 1 蛋白质

使用blastp来将一个蛋白质查询序列与一个蛋白质数据库进行比较。

blastn DNA 1 DNA

使用blastn来将一个DNA查询序列的两条链与一个DNA数据库进行比较。

blastx DNA 6 蛋白质

使用blastx来将一个DNA序列用所有可能的阅读框翻译成6个蛋白质序列，然后将它们逐一与蛋白质数据库进行比较。

tblastn 蛋白质 6 DNA

使用tblastn来将一个DNA数据库中的每一条序列翻译成6种可能的蛋白质，然后将你要查询的蛋白质序列与翻译的蛋白质逐一进行比较。

tblastx DNA36 DNA

使用tblastx将查询DNA以及数据库中的DNA都翻译成6种可能的蛋白质，然后进行36次蛋白质－蛋白质数据库搜索。

表1：5个BLAST子程序

注：后缀p表示蛋白质（如在blastp）；n表示核苷酸，x表示一个DNA查询被动态的翻译成6种蛋白质序列。前缀t 表示“翻译（translating）”，也就是将一个DNA数据库动态地翻译成6种蛋白质。

做一个BLAST比对有那些流程？

进行任何的BLAST比对都包含以下4个步骤：

1）选择你所感兴趣的序列，将它粘贴到BLAST的输入框中。

2）选择一个BLAST程序（blastp, blastn, blastx, tblastx, tblastn）。

3）选择一个用于搜索的数据库。

4）为搜索和输出格式选择可选参数。这些选项包括选择替换矩阵，过滤复杂度低的序列，以及将搜索范围限制在某些特定的物种中。详细请见“BLAST使用说明”。

BLAST的数据来源，经常更新吗？

对于已经完成全基因组测序的物种数据一般是不会更新的，如果你BLAST中选择了目前正在测序的物种，随着测序工作的完成，你的BLAST结果很有可能因更新而略有不同。

如何读BLAST结果？

请参考“使用说明”中的“BLAST结果说明”。

如何下载、找回我的比对结果？

点击比对结果页面上的“download”即可进行下载，而利用Job ID则可以在BLAST左侧的“近期结果”中找回曾经比对过的结果。

如果我的数据量非常大，SDSPB能实现我的比对吗？

可以。

SDSPB有那些数据库？

目前我们的数据库已经包含了以下数据库，并且数量还在不断增加中：

Name Content Description Update

pdbnt pdb核酸数据库03-18-2008

htgs 高通量基因组序列数据库03-18-2008

est_others 除去人和老鼠的其它物种的est序列数据库03-18-2008

other_genomic 除了人类的其它物种的基因组数序列据库03-18-2008

env_nt 环境样品核酸序列数据库03-18-2008

month.aa 30天内发布或更新的蛋白质数据库03-18-2008

swissprot swissprot数据库03-18-2008

pataa 专利蛋白质数据库03-18-2008

nt 非冗余核酸数据库03-18-2008

patnt 专利核酸的数据库03-18-2008

pdbaa pdb蛋白质数据库03-18-2008

igSeqNt 免疫球蛋白核酸序列数据库03-18-2008

sts 序列标签位点数据库03-18-2008

igSeqProt 免疫球蛋白蛋白序列数据库03-18-2008

month.gss 30天内发布或更新的gss数据库03-18-2008

month.htgs 30天内发布或更新的htgs数据库03-18-2008

month.nt 30天内发布或更新的nt数据库03-18-2008

month.est_others 30天内发布或更新的est_others数据库03-18-2008

nr 非冗余蛋白质数据库03-06-2008

mito.nt 线粒体核酸数据库12-29-2007

alu.n alu重复序列数据库12-29-2007

alu.a alu.n翻译的蛋白质数据库12-29-2007

mito.aa 线粒体蛋白数据库12-29-2007

vector genbank中人工改造的载体数据库12-29-2007

UniV ec 非冗余载体序列数据库12-29-2007

我能建立自己的数据库吗？

可以。如果你已经在我们的网站注册过，那么你就可以上传你的数据，并在“我的账户”——“我的数据”对你上传的数据进行管理和使用。详细过程请参见：“我的账户”——“简介”。

什么是Job id，有什么用？

Job id是你在进行BLAST的过程中由我们的程序自动生成的流水作业号，在“我的账户”——“近期结果”里你可以搜索你拥有的Job id，从而快速取回你曾经BLAST过的结果。对于未注册的用户，由于BLAST的运行结果只可以通过Job id搜索，请务必记录系统生成的Job id。

我任务标题有什么作用？

任务标题是对Blast任务的简要注释。为了保护个人隐私，在近期结果中不提供关于任务标题的搜索。

我要做批量的分析，应该保存什么样的格式？

FASTA格式。

使用BLAST需要注册登录吗？

不需要。但如果你需要使用我们更多的功能，则我们建议你注册并登录我们的网站。当你拥有我们网站的账户并登录后，你就可以使用“BLAST”中的“自助数据库比对”，利用“My Blast”你可以将你需要比对的序列上传到我们的服务器上进行比对，并且你还可以将结果在我们的服务器上长期保留。

什么我的比对等待很长时间还没有结果？

比对时间过长可能是由以下两个原因造成的：一是你选择的比对数据库过于庞大，或者你进行的是批量比对，需要的计算量太大，二是你进行比对的时间正处于我们的服务器繁忙时间。为此我们建议你考虑以下方法来减少你的比对等待时间：一是尽量精确你需要比对的数据库范围，二是错开我们的服务器运行高峰时间段。

top↑使用说明

BLAST模块说明

SDSPB的模块位于BLAST主页的左侧，用户可以通过点击相应的模块来使用，模块分布如下:

1）常用数据库比对

是最常用的BLAST工具，包含了nucleotide blast、protein blast、blastx、tblastn和tblastx五种，使用说明请见本文档的BLAST的操作流程部分。

2）物种基因组比对

提供了数十种常用物种的基因组比对快速链接，用户点击相应的物种名即可直接进行相应物种的基因组比对。使用方法与“常用数据库比对”中相同。

3）其他比对

提供了两个特殊的比对工具：

Screen sequence for vector contamination (vecscreen)

Align two sequences using BLAST (bl2seq)

4）自助数据库比对

使用自助数据库比对需要先在SDSPB上注册一个账号，然后才能使用“My Blast”。

使用“自助数据库比对”用户可以上传自己的序列数据，并把它们格式化为可搜索的数据库，然后进行序列的比对。首先，点击“序列”，上传自己的序列数据，并“格式化为可搜索的数据库”。

返回到“My Blast”主页，点击“比对”，进入自助比对页面：

与其它BLAST相比，My Blast多了一个“自有数据库”选项，即用户自己上传构建的数据库。

返回到“My Blast”主页，点击“结果”，查看比对的结果。

5）近期结果

在近期结果里输入已进行过的“Job ID”，点击查看以前任务的比对结果。

6）数据库说明

SDSPB目前可以使用的比对数据库说明及更新情况。

top↑BLAST参数设置说明

BLAST的参数可以分为如下3种：

1）必须参数：

-p：BLAST五个子程序中的一个（"blastp", "blastn", "blastx", "tblastn", or "tblastx"）

-d：进行比对时用到的数据库。

-i：用来查询的序列。可以是一个accession，gi或者一个FASTA格式的序列文件。

-p -i -d

blastn 核酸核酸

blastp 蛋白质蛋白质

blaxtx 核酸蛋白质

tblastn 蛋白质核酸

tblastx 核酸核酸

表-p参数与-i, -d参数的对应关系

2）比对优化参数

-e：期望值，默认为10.

-F：是否过滤序列。可选项。blastn使用DUST，其他使用SEG。

-L：查询序列的位置。可选项。两个数值，用”,”分开，例如：-L 45,890。

3）显示格式设置

-m:比对结果显示选项。可以是如下值：

0 = pairwise,

1 = query-anchored showing identities,

2 = query-anchored no identities,

3 = flat query-anchored, show identities,

4 = flat query-anchored, no identities,

5 = query-anchored no identities and blunt ends,

6 = flat query-anchored, no identities and blunt ends,

7 = XML Blast output,

8 = tabular,

9 = tabular with comment lines

10 = ASN, text

11 =ASN, binary [Integer]

default = 0

range from 0 to 11

-v:显示匹配序列数目。默认是250。

-b:显示比对排列数目。默认是250。

top↑BLAST结果说明

当提交一个任务后，网页会跳转到Blast运行页面，如下图：

Blast运行页面显示的字段说明如下：

Job ID：提交Blast时产生的流水工作号，可以用于以后找回Blast的结果。

Submitted at：提交任务时间。

Status：Blast工作的状态，“Searching”表示工作仍在运行中，“Done”表示工作已经结束，可以查看结果了。

Title：在提交任务时用户对此次Blast任务的命名。默认为空。

Program：提交任务时选择的五个Blast子程序中的一个。

Database：Blast比对的目标数据库。

Query Number：查询的条目数。

Expires at：预期任务结束时间。

当Blast运行结束后，页面变为选择结果显示页面，如下：

此时在运行显示信息列表的下面多出了两个选择下拉框，“Show results”可以选择结果显示的格式，有两种可以选择，分别为“Pairwise results”和“Hit Table”。“Download”可以按选择的格式进行下载，同时有“Pairwise results”和“Hit Table”两种。

示例：Job ID：SDSPB1208229443745OFS

1）在“Show results”中选择“Pairwise”显示格式，页面自动跳转到“Pairwise results”显示页面：

“Pairwise”格式显示信息有两部分组成：

第一部分是对此次工作的描述性信息，首先是BLAST的名称与版本，以及参考信息。其次是Job ID，并提供了下载本结果文档按钮。接着是比对目标数据库的信息，包括目标数据库的名字、序列条数和字数。最后是用于比对的序列的信息。

第二部分是序列比对的结果显示。显示的字项有Accession、Description、Max score 、Total score、Query coverage、E value和Max ident。其中Accession指序列的AC号，Description是对序列的简要描述性信息，Max score 、Total score、Query coverage、E value和Max ident是序列比对结果的评价性信息，序列结果的排列默认由Max score由高到低排列。在比对结果列表的下文有三个按钮，分别为“Get selected sequences”、“Select all”和“Deselect all”，分别用于获取选定的序列、全选序列与全反选序列。

2）在“Show results”中选择“Hit table”，页面自动跳转到“Hit table”显示页面：

Hit table显示格式的第一部分与Pairwise results的第一部分一样，都是对此次工作的描述性信息。第二部分为序列比对的详细信息。

Hit table的序列比对信息主要有以下几项：

Query ID：用于比对的序列号，即用于查询的第几条序列，如果只有一条，则为Query 1。

Subject ID：目标序列的标识号。

Description：比对目标序列的简要描述。

Alignment Length：比对目标序列的长度

Score：比对得分

E-value：E值。

Identity：匹配率。

Mismatches：错配率。

Gap：空位数。

Hit order：

Q.start：查询序列的开始位点。

Q.end：查询序列的结束位点。

Q.Length：查询序列的长度。

S.start：比对目标序列的开始位点。

S.end：比对目标序列的结束位点。

S.Length：比对目标序列的长度。

Job ID：SDSPB1208229443745OFS

top↑BLAST的操作流程

一般的BLAST操作流程有以下几个步骤：

1）在SDSPB的首页点击“在线服务”——“Blast”，进入BLAST的首页。

2）根据需要选择五个BLAST子程序中的一个，如选择第一个“nucleotide blast”，点击进入其配置页面：

3）添加并配置BLAST参数，通常为以下几个：

在“输入序列”文本框中输入FASTA格式的核酸序列，或者从文件导入含有核酸序列的FASTA格式文件。

在“设置序列范围（可选）”里可以指定序列需要比对的开始位点和结束位点。

在“任务标题”里用户可以根据需要填写此次任务的标题，也可以为空。

在“数据库”下拉列表中选择要使用的数据库，不同的BLAST子程序能够使用不用的数据库，数据库的说明请参考“常见问题”——SDSPB有那些数据库？

在“程序”决定所使用的程序。

决定是否使用“过滤”。

“设置其他参数”：包括期望值、描述、期望命中数以及更多参数。更多参数见本文档“BLAST参数设置说明”。

点击“查询”按钮提交任务，或“重填”按钮重新配置参数。

4）提交任务后，页面跳转到BLAST运行页面，稍等片刻，运行结束，进入结果显示格式选择与下载页面：

在页面中选择“Pairwise results”或者“Hit table”格式进行结果显示或下载。

实验2 序列查询(Entrez)、BLAST序列相似性搜索

实验二：序列查询(Entrez)、BLAST序列相似性搜索实验目的： 1.学会用Entrez系统查找目标序列 2.学会使用BLAST在数据库中搜索相似序列 3.学会分析数据库搜索结果实验内容：一、Entrez Entrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。用户不仅可以方便地检索Genbank的核酸数据，还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。网址：https://www.doczj.com/doc/27256121.html,/Entrez/（或在NCBI主页默认All Databases时点击搜索框右边的Search进入）。如Figure 2.1所示： Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮，即可进入Entrez帮助页面。在搜索栏输入你要查找的关键词，点击“GO”即可开始搜索。如果输入多个关键词，它们之间默认的是“与”（AND）的关系。Ｔｉｐｓ：搜索的关键词可以是一个单词，短语，句子，数据库的识别号，基因名字等等，但必须明确，不能是“ｇｅｎｅ”，　“ｐｒｏｔｅｉｎ”等没有明确指向的词语。但“ｔｒａｎｓｃｒｉｐｔｉｏｎ　ｆａｃｔｏｒ”这样有一定范围的词是可以接受的。可以用你感兴趣的领域的专业术语，也可以是非专业术语，比如：ｈ１ｎ１，ｌｕｎｇ　ｃａｎｃｅｒ，ａｌｂｉｎｉｓｍ；　ｓｕｂｔｉｌｉｓｍ，　ｐｅｒｏｘｉｄａｓｅ，　ｍｙｏｇｌｏｂｉｎ。　输入关键词，点击“GO”之后，每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。点击进入对应的数据库，可以查看搜索到的条目。如果在数据库图标前面为灰色，显示“none”,说明在对应的数据库里没有搜索到任何结果。

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建作者：佚名来源：生物秀时间：2007-12-31 【实验目的】 1、熟悉构建分子系统发生树的基本过程，获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识； 2、掌握使用Clustalx进行序列多重比对的操作方法； 3、掌握使用Phylip软件构建系统发生树的操作方法。【实验原理】在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于我们了解生物进化的历史和进化机制。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行比对（alignment）。⑵要构建一个进化树（phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估，主要采用Bootstraping法。进化树的构建是一个统计学问题，我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；

多序列比对

在寻找基因和致力于发现新蛋白的努力中，人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能，不管它们是双重比对还是多序列比对，都可以回答大量的其它的生物学问题。举例来说，面对一堆搜集的比对序列，人们会研究隐含于蛋白之中的系统发生的关系，以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白，而是研究一个家族中的相关蛋白，看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域，我们可以对蛋白质的整个结构进行预测，并且猜测这些保守区域对于维持三维结构的重要性。显然，分析一群相关蛋白质时，很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域，绝大多数方法都是基于渐进比对（progressive alignment）的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题，但是当比对的序列大大地超过两个时（双重比对），对于计算的挑战就会很令人生畏。在实际操作中，算法会在计算速度和获得最佳比对之间寻求平衡，常常会接受足够相近的比对。不管最终使用的是什么方法，使用者都必须审视结果的比对，因为再次基础上作一些手工修改是十分必要的，尤其是对保守的区域。由于本书偏重于方法而不是原理，这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始，接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法，最后讨论两个具有赠送的方法，因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。渐进比对方法 CLUSTAL W CLUSTAL W算法是一个最广泛使用的多序列比对程序，在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想，得到一系列序列的输入，对于每两个序列进行双重比对并且计算结果。基于这些比较，计算得到一个距离矩阵，反映了每对序列 Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.

实用生物信息技术课程第4次作业BLAST数据库相似性搜索姓名

实用生物信息技术课程第4次作业 BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日 1.以人血红蛋白beta亚基（HBB_HUMAN）为检测序列，搜索Swiss-Prot数据库，找出灵长目动物（Primates）中与HBB_HUMAN序列相似性高于90%（Identity>90%）的beta珠蛋白（beta globin）。 2.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用BlastP搜索Swiss-Prot数据库，改变种子序列字长（Word size）和计分矩阵（Scoring matrix），找出人珠蛋白家族12个成员。 3.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用PSI-Blast搜索Swiss-Prot 数据库，找出人珠蛋白家族成员脑红蛋白（Neuroglobin）。 4.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用DELTA-Blast搜索Swiss-Prot 数据库，找出人珠蛋白家族成员脑红蛋白（Neuroglobin）。 5.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列，提取其编码区序列，进行多序列比对，分析结果。6.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列，提取其编码区序列，进行多序列比对，分析结果。 7.查阅Blast网站帮助文档和相关文献，结合Blast算法，归纳总结Blast数据库相似性搜索的用法 8.结合本人课题研究中的实例，说明Blast具体应用。 9.本地BLAST（选做题） 1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据，构建本地BLAST数据库。 2)以拟南芥转录因子SPL3蛋白质序列为检索序列，用BlastP搜索玉米转录因子蛋白质序列中相似序列，用tBlastN搜索玉米转录因子编码区序列中相似序列，分析结果。 3)以拟南芥转录因子SPL3编码区序列为检索序列，用BlastN搜索玉米转录因子编码区序列中相似序列，用BlastX搜索玉米转录因子蛋白质序列中相似序列，分析结果。 1

生物序列比对算法研究现状与展望

生物序列比对算法研究现状与展望张　敏1,2 (1.大连理工大学计算机科学与工程系,辽宁大连116024;2.大连大学信息工程学院,辽宁大连 116622)Ξ 摘　要:序列比对是生物信息学研究的一个基本方法,寻求更快更灵敏的序列比对算法一直是生物信息学研究的热点.本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,并对每一类算法的优缺点以及应用范围进行了分析,最后指出序列比对算法目前存在的问题以及未来的发展方向. 关　键　词:生物信息学;两序列比对;多序列比对;算法中图分类号:TP301 文献标识码:A 文章编号:100822395(2004)0420075205 Current and prospect of bio 2sequence alignment algorithm ZH ANG Min 1,2 (1.Department of C om puter Science and Engineering ,Dalian University of T echnology ,Dalian 116024,China ;2.C ollege of In formation Engineering ,Dalian University ,Dalian 116622,China ) Abstract :Sequence alignment is a basic and important tool in bioin formatics.The research of fast and sensitive biology sequence alignment alg orithm is a current hot topic of bioin formatics.This paper introduces a definition of sequence align 2 ment ;as wellas the research advance of alignment alg orithms at present ,and describes the advantage and limit of the al 2 g orithms and applicable https://www.doczj.com/doc/27256121.html,stly ,the problems and development directions are pointed out. K ey w ords :bioin formatics ;pair 2wise alignment ;multiple alignment ;alg orithm 随着人类基因组计划的实施,DNA 和蛋白质序列数据库的规模已呈指数增长,单纯依靠实验手段研究、理解这些生物大分子的生物意义已远远不能满足目前分子生物学发展的要求.生物信息学(Bioin for 2matics )作为一门综合运用分子生物学、数学和计算机等学科的理论和方法的交叉学科为阐明和理解这些海量数据所包含的生物意义提供了可能.序列比对是生物信息学研究的重要方法之一,它通过对DNA 和蛋白质序列进行相似性比较,指明序列间的保守区域和不同之处,为进一步研究它们在结构、功能以及进化上的联系提供了重要的参考依据. 本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,分析了每一类算法的应用范围,最后指出了序列比对目前存在的问题以及未来发展方向. 1　序列比对问题的定义与分类定义:序列比对问题可以表示为一个五元组MSA =( ∑’,S ,A ,F ),其中: (1)∑’=∑∪{-}为序列比对的符号集;“-”表示空位(gap );∑表示基本字符集,对于DNA 序列,∑={a ,c ,g ,t}代表4个碱基;对于蛋白质序列,∑由20个字符组成,每个字符代表一种氨基酸残 Ξ收稿日期:2003207215基金项目:大连市科技计划项目(2002年) 作者简介:张　敏(1966-),女,副教授,博士生. 第25卷　第4期2004年8月大连大学学报J OURNA L OF DA LI AN UNI VERSITY Vol.25　No.4Aug.　2004

BLAST序列相似性检索

E值意义：当用查询序列搜索一个数据库时，完全由机会击中对象的平均数。即，因为随机性造成获得这一联配结果的可能次数。例如，E=1，表示在目前大小的数据库中，完全由机会搜到对象数的平均值为1. 从搜索角度讲，E值越小，联配结果越显著（E越接近0，说明发生这一事件的可能性越小）；E值越大，说明这些匹配结果很有可能是随机产生的，而且绝大部分序列来自其他生物。目前，通过数据库查询、cDNA文库直接测序、mRNA差别显示 (DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的 EST序列有数百万个之多。由于 EST代表着一段表达基因序列，这样就可用其与公共数据库进行同源性检索，检索与其同源的核酸序列。典型分析是采取NCBI的Blast 软件对 GenBank 中的非冗余数据库（non-redundant database,nr）进行查询。该数据库是对GenBank EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库，其中包括部分基因组序列。联网至“https://www.doczj.com/doc/27256121.html,/blast/blast.cgi选择数据库“Nucleotide”，利用blastn程序进行同源性检索。”, 按照提示进行查询。相似的蛋白序列很可能具有相似的功能。因此，蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。此方法应至少80个氨基酸长度范围内具有25％以上的序列一致才提示可能的显著意义。目前一般方法是基于NCBI/Blast软件的蛋白质同源性分析类似于核酸序列的同源性分析，用户直接将待分析的蛋白质序列输入NCBI/Blast软件（https://www.doczj.com/doc/27256121.html,/blast/）的序列输入框内，选择程序：Blastp”就可联网进行相应分析。至于具体参数设置，还请仔细阅读说明，记得有一本blast的中文教程，您可以搜搜看。 BLAST序列相似性检索＝＝＝＝＝＝＝＝＝＝＝＝＝＝ Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索，找出与之相似的序列，从而评判新测定的序列是重复别人的工作，还是在前人的基础上有所创新，或是发现了新的序列。现在用于序列类似性检索的软件很多，下面主要介绍GenBank的序列类似性检索工具棗BLAST。 1. BLAST简介 BLAST是Basic Local Alignment Search Tool的英文缩写，意即碱基局部对准检索工具，是一种序列类似性检索工具。它采用统计学记分系统，能将真正配对的序列同随机产生的干扰序列区别开来；同时采用启发式算法系统，即采用的是局部对准算法(Local Alignment Algorithm)，而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似；而局部对准算法是找出两个被比较序列的“最类似”片断，并得出可能只包含两个序列的某个部分的对准结果。