中科院生物信息学复习题Word文件下载.docx

资源描述

中科院生物信息学复习题Word文件下载.docx

《中科院生物信息学复习题Word文件下载.docx》由会员分享，可在线阅读，更多相关《中科院生物信息学复习题Word文件下载.docx（11页珍藏版）》请在冰豆网上搜索。

中科院生物信息学复习题Word文件下载.docx

从种子库中取序列和大库序列比对；

延长种子序列，至不能再延长；

放入库

①构建若干数据库：

总的纯化的数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，数据库；

②用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质；

③用种子和纯化的数据库比对

④用经过一次比对得到的长的片段和蛋白数据库、数据库比较，判断是否为已有序列，再利用该大片段与纯化的数据库比对，重复以上步骤，直到序列不能再延伸；

⑤判断是否为全长序列。

（利用数据库：

原理：

当测序获得一条序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同序列之间常有交叠的区域。

根据这种“交叠”现象，就能找出属于同一个基因的所有序列，进而将它们拼接成和完整基因相对应的全长序列。

而到目前为止，公共数据库（）中已经收集到约800万条的人的序列。

估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。

）

3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？

当前的困难是什么，如何克服？

构建系统进化树，其主要步骤如下：

1）序列相似性比较。

就是将待研究序列与或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有、等；

2）序列同源性分析。

是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。

这是理论分析方法中最关键的一步。

完成这一工作必须使用多序列比较算法。

常用的程序包有等；

3）构建系统进化树。

根据序列同源性分析的结果，重建反映物种间进化关系的进化树。

为完成这一工作已发展了多种软件包，如、等；

4）稳定性检验。

为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70％以上）出现的分支点才是可靠的。

通用的方法使用算法。

当前的主要困难是发现了基因的横向迁移（）现象，即进化程度不同的物种间存在着遗传信息基因的传递，如果拿迁移的基因做进化分析就会出错。

克服的方法：

1）选择垂直进化而来的序列进行研究，即去除横向迁移的数据库，如数据库；

2）使用全基因组数据库进行基因组水平上的对比；

利用生物体的蛋白质组构建进化树。

选取特征对比，不同长度的序列字符串进行对比后，对照其进行归一化；

对比，将采用的分类规则进行分类，再构建进化树

4.什么是，为什么的研究是重要的，举出2~3个相关的网站。

是指单核苷酸多态性，代表了基因组水平上遗传密码的变异，由于这种变异很多以单碱基突变的形式出现，因此称为单核苷酸多态性；

因为研究是基因组领域理论成果走向应用的关键步骤，是联系基因型和表现型之间关系的桥梁，是研究人类基因组计划走向应用的重要步骤。

相关的一些网站：

1）'

s（）

2）将这些数据进行整理，去掉冗余，使每个都是唯一的。

此时的被称为或。

（（）

3）（）这一数据库收录了人基因组中所有已知的序列变化，包括：

、序列的插入和缺失（）、简单重复序列等。

（）

4）（）（）

5）（），蛋白突变数据库。

收录了蛋白质特定位点的氨基酸突变信息，以及这些突变对蛋白质结构功能的影响。

6）（）：

人类群体等位基因频率数据库，

5.什么是系统生物学？

系统生物学对生命科学概念上的发展？

系统生物学是指在系统的层面上研究生命活动。

（研究一个生物系统中所有组成成分的构成，以及特定条件下组分间互作关系。

）包含三个相互衔接的组成：

整合数据，即整合所有各个层次（水平，水平，蛋白质水平，蛋白质相互作用水平）的信息数据；

系统建模，即用这些信息构建描绘生命活动的数学模型；

预测未知，即用这个模型预测生命未来的发展及外界干扰后系统的变异。

概念上的发展主要有：

1）研究思路的变化：

传统的分子生物学研究步骤一般为：

序列→蛋白结构→蛋白功能（一维），而系统生物学是在二维的角度研究生命科学，即：

相互作用→网络→功能，是由一组基因产生并相互作用共同实现的。

2）看待生命活动本质的变化：

因为没有一个生命活动是靠一个基因完成的，生命活动是一组基因相互作用实现的，这种相互作用形成一个网络，既包括每个单元的结构，又包括单元与单元之间的相互作用。

因此，系统生物学不仅考虑每个基因的活动，还描述了基因间的相互作用并导致了网络的产生。

（1）什么是非编码序列，非编码，非编码基因？

（2）以人的基因组为例回答：

在基因组中有多少非编码序列，有多少存在转录本，举2~3个非编码核酸的生物学功能？

（1）非编码序列是基因组中不编码蛋白质和多肽的序列；

非编码是基因组中非编码序列的转录产物/转录本；

功能性的非编码对应基因组上的位置称为非编码基因；

（2）人类基因组中97～98%的序列是非编码序列，有70%～80%存在转录本，非编码核酸的生物学功能：

1）（X染色体失活）是哺乳动物的一种剂量补偿机制，其中一半拷贝转录被抑制从而失活，抑制转录是通过一个2的非编码（）实现的装配在失活X染色体的外侧，引起结构改变导致失活；

2）:

是由（、）导致的转录后基因沉默现象，如由双链小引起的干扰和转录后基因沉默现象，在植物病毒抗性和线虫中的转座子沉默；

一些小核调控基因转录。

（单链易降解，但发现细胞中存在另一种，双链小进入细胞后结合组蛋白形成复合体，该复合体和识别并降解）

3）（具有大量转录本，功能不详）和（生物复杂度到一定程度后会出现发病情况，可能和非编码有关）等。

1.芯片间标准化的方法：

基本方法：

芯片间标准化的目的是基于15五个基因表达量理论的和应该保持恒定，即S13三列每一列的和是相等的。

但实际测定过程中不可能完全相等，因此将这种不等归结于每一组芯片自身的差异而进行芯片间标准化，基本步骤为通过排序取平均重新排序的方法消除芯片间误差，从而可以得到每一组基因表达量的真实值。

（老师给的这组芯片基因完全相同的情况下S3一列数据明显偏高，通过这种标准化实现了芯片间差异的消除）。

2.控制假阳性的方法——–

对于m个独立的样本，其记为，1,2,3…m；

（1）对所有的进行从小到大排序p

（1）≤p

（2）≤p（m）；

（2）对于一个给定的α（此时的α即为统计里的显著水平，范围0~1，通常取0.05），找到最大的k值，满足；

（3）拒绝从p

（1）（k）的无效假设H0（即表示p

（1）（k）表达量存在显著差异）。

计算方法1（α=0.05）：

P（4）=0.03<

0.05*4/6=0.033；

P（5）=0.045>

0.05*5/6=0.041；

4.即G2,G6,G5,G4差异表达，<

0.05

计算方法2（法）：

根据可以推出因此直接计算并与α进行对比即可：

由于G3的大于0.05，因此G2,G6,G5,G4差异表达。

3.转录本表达量的表示方法（：

）：

（1）的作用：

是透过次世代定序的技术来侦测基因表现量的方法，在衡量基因表现量时，若是单纯以到的数来计算基因的表现量，在统计上是一件相当不合理的事，因为在随机抽样的情况下，序列较长的基因被抽到的机率本来就会比序列短的基因较高，如此一来，序列长的基因永远会被认为表现量较高，而错估基因真正的表现量，所以等人在2008年提出以在估计基因的表现量

假设一个物种的基因组上只有两个基因，基因G1的外显子长8，基因G2的外显子长2。

对该物种的一个样本做，共得到23的，其中能够比对到G1的有16个，能够比对到G2的有4个.计算G1和G2的。

16420

G1:

16,000,0008

16,000,000/（20*8）=100,000

G2:

4,000,0002

4,000,000/（20*2）=100,000

（2）与的区别：

两者基本相同。

代表，代表。

在中，由于来源于的逆转录，转录物的表达量与片段成比例。

配对末端实验每个片段产生两个，但这并不意味着两个都可在图上标注。

例如，第二个低品质。

如果我们对计数而不是片段，我们可能对某些片段重复计数，而对另一些只计一次，导致对表达量估计的偏差。

因此以片段为单位计数，而不是数。

（来源于网上，原网址：

预测：

1.高通量测序数据分析总括：

高通量测序数据库程序读出的数据及对应的质量分值以文件格式为的格式保存。

①测序的原始数据为荧光信号，首先将荧光信号转换为序列信息，即读段数据及对应的质量分值；

②为了方便测序数据的发布和共享，一般需要对数据进行格式化转换，最常用的数据格式为格式；

③对得到的原始数据必须对其质量进行评估，评估指标包括G、C含量，碱基质量，插入分布等。

方便过滤掉质量较差的读段；

④若数据质量评估过关，接着将原始读长通过序列映射定位到基因组上；

若无参考基因组，则必须使用的组装方法；

⑤得到测序数据的组装图后，便可根据实验目的对组装好的数据进行相关分析，如分析基因的剪接位点，位点，变异位点还可以分析基因的差异化表达（），转录因子结合位点（），甲基化模式（），同时还可利用此数据发现新的编码基因和非编码基因；

⑥使用可视化组件对分析结果进行可视化处理。

2.表达谱数据分析流程

→→→→

①基因芯片在一个颜色通道扫描后得到的原式图是色调单一，强度不同的亮点陈列图；

②将原始的图像数据转换为基因表达矩阵；

③对得到的基因表达矩阵的数据质量进行检测，对得到的数据进行统计学分析，从而估计和校正试验误差，筛选出有效数据。

④标准化就是消除基因芯片实验过程中系统变异对基因表达水平所带来的影响。

标准化包括芯片内的标准化和芯片之间的数据标准化。

芯片内的标准化方法，如局部加权线性回归标准化，参照点标准化，芯片之间的标准化方法如；

⑤前几部都是对表达谱数据的预处理，后期的数据分析包括差异基因表达分析、聚类分析、判别分析等；

a）差别基因表达分析可分析不同样本中起关键作用的基因，为后续研究提供方向；

b）聚类分析是基因表达谱最广泛使用的统计技术，聚类分析的目的再与寻找可能标准化或关联的基因，从而预测位置基因的功能信息或已知基因的未知功能；

c）判别分析能够依据样本的某些特性，判别样本的所属类型，利用已有数据建立分类器，然后利用建立的分类器对未知样本的功能或状态进行预测。

方法主要有，贝叶斯分类和神经网络法等。

3.无生物学重复和有生物学重复时如何进行差异表达分析？

（1）无生物学重复：

方法：

（倍数变化）

①描述数据初值与终值之间的差异（一般是两个差别表达基因间或处理与对照之间），用标准化后的两组数据相除得到的比例，一般2表明两组数据是有显著差异的；

②这种计算方法可以得到一组相对值，而不是绝对值变化，消除了系统误差以便于统计学分析；

③一般得到的值与设定的阈值进行比较即可得到表达有差异的基因；

（2）有生物学重复：

假设检验

a）具体步骤：

①提出实际问题；

②提出无效假设（H0）与备择假设（H1）；

③选择显著性水平（一般α=0.05）；

④选择统计模型与相应的统计量；

⑤根据实验结果计算实验统计量；

⑥判断检验统计量的值（表示事件发生的概率具有偶然性）；

⑦将p值同选定的显著性水平比较；

⑧拒绝或不拒绝H0；

⑨回答①所提出的实际问题。

b）假设检验根据数据类型（是否符合正态性）分为参数检验与非参数检验：

①参数检验：

符合正态分布可使用，常用的方法主要有t检验法，配对t检验法、最小二乘法

②非参数检验：

不符合正态分布可使用，常用的方法有秩和检验法，其基本方法是根据表达量排序并按照排列顺序检验，检验结果较参数检验法更粗犷。

4.全基因组测序的步骤？

（1）第一期：

基因组调研图

整体测序深度不低于20倍覆盖度。

进行初步的数据分析，对基因组大小，含量等做出初步评估，确定框架图梯度文库构建具体策略；

（2）第二期：

基因组框架图

基因组覆盖度达到90%以上，基因区覆盖度达到95%以上，单碱基的错误率达到1万分之一以内，整体测序覆盖深度不低于60倍覆盖度。

同时对框架图进行基本基因注释和功能注释，和简单的比较基因组学分析。

（3）第三期：

基因组精细图

基因组覆盖度达到95%以上，基因区覆盖度达到98%以上，单碱基的错误率达到10万分之一以内，整体基因组覆盖度不低于100倍，N50大小不低于300，对基因组精细图进行详细基因注释，基因功能注释，基因代谢途径注释和比较基因组学分析。

5.转录本测序，各数据分析工具的特点？

转录本测序可分为和：

①主要用于检测（主要是）的表达水平，发现新的

②：

（A）用以检测蛋白质编码基因的可变剪切体及表达水平；

（除）用于检测及的表达水平并发现新的；

数据分析工具主要有：

，，，具体作用如下：

a）是一个超级快速的，较为节省内存的短序列拼接至模板基因组的工具。

它在拼接35碱基长度的序列时，可以达到每小时2.5亿次的拼接速度。

并不是一个简单的拼接工具，它不同于等。

它适合的工作是将小序列比对至大基因组上去。

它最长能读取1024个碱基的片段。

b）是一个快速的将数据进行快速剪接映射的程序。

它使用超快的高通量短读比对程序，将的信息比对到哺乳动物大小基因组上，然后分析映射结果来鉴别外显子之间的剪接点。

c）利用比对的结果（）来组装转录本，估计这些转录本的丰度，并且检测样本间的差异表达及可变剪接调控。

它通过接受线性的并将线性片段组装为一套最大简约的（）转录本。

然后根据数估计估计相关转录本的丰度并将实验室预设的偏差考虑在内。

6.转录本拼接

最大简约转录本的组装方法：

组装一套转录本←→在链中找到最小的分割单元P←→找到最大的反义链←→在二分图中找到最大匹配数←→找到最小点覆盖

二分图：

指顶点可以分成两个不相交的集使得在同一个集内的顶点不相邻（没有共同边）的图。

设（）是一个无向图，如果顶点V可分割为两个互不相交的子集（），并且图中的每条边（i，j）所关联的两个顶点i和j分别属于这两个不同的顶点集（iV），则称图G为一个二分图。

最大匹配：

给定一个二分图G，在G的一个子图M中，M的边集中的任意两条边都不依附于同一个顶点，则称M是一个匹配，选择这样的边数最大的子集称为图的最大匹配。

最小点覆盖：

给定一个二分图G，在G的一个子图N中，N的点集中的点与所有的边都有关联（把所有的边都覆盖），则称N是一个点覆盖，选择这样的点数最小的子集称为图的最小点覆盖。

7.测序原理

①在聚合反应体系中加入修饰过的四种核苷酸，它们分别被标记上终止基团和荧光基团：

3’羟基上标记上叠氮基——在延伸时起阻止聚合的作用，胞嘧啶上标记上荧光基团。

每一种核苷酸标记的荧光分子是不一样的。

②聚合终止，每次加入一个修饰核苷酸，链聚合就被终止了，如下图

③用激发光照射，被修饰的碱基发出荧光，记录荧光信号，则知这一步加入的是什么核苷酸。

④延伸回复：

加入二巯基丙醇去掉叠氮基；

用（

（2）,三（2-羧乙基）膦）处理，去掉荧光基团。

⑤进入下一轮延伸，加入一个新的碱基。

原理的关键之处在于如何形成足够强的荧光信号。

无疑这需要大量的模板。

怎样来获得大量模板呢？

同时二代测序技术还要实现高通量测序，即同时对大量序列测序。

如何将混合样品中序列彼此分开呢？

桥式技术可解决以上两个问题

（1）样品准备

1序列片段化：

将混合样品中的核酸序列打断至400左右

2短序列收集，并将末端补平。

在5’端加一个基团；

3’端加一个“A”

3在两端分别加上不同的接头序列

（2）桥式

①将样品平铺到预制的含与接头序列互补的平板上（），平板结构如下：

表面是寡聚引物加上接头的序列与平板上寡聚引物互补配对

②加上接头的序列与平板上寡聚引物互补配对，然后进行酶聚合反应

4变性使原始模板链分离并洗净

模板链脱离单链弯曲杂交在相邻的引物上

5单链弯曲杂交在相邻的引物（与另一端结合的引物）上。

6酶聚合形成双链桥式结构；

之后桥式结构打开形成的两个又在其各自周围形成新的。

酶聚合形成双链桥式结构每个簇都有约10000个拷贝，且每个簇都代表一个独特序列

7桥式双链分开，反向链（底3’-5’上）被切掉后洗脱（通过切反向链引物）；

正向链3’端被封闭，防止不必要的延伸。

8加入测序引物测序，如图右。

1.高通量测序数据的分析流程

高通量测序数据以程序读出的数据及对应的质量分值的格式保存，其文件格式为格式

①高通量测序最原始的数据为荧光信号，首先将荧光信号转化为序列信息，即数据及对应的质量分值。

②为了便于测序数据的发布以及共享，一般需要对数据进行格式转换，最常用的数据格式是。

③对于得到的数据必须对其质量进行评估，评估指标包括含量，碱基质量，插入缺失错误，以便过滤掉质量差的。

④若数据质量评估过关，接着将原始到基因组上。

若无参考基因组，则需用组装方法。

⑤得到测序数据的组装图后，便可以根据实验目的，对组装好的数据进行相关的分析。

如分析基因的剪接位点，位点，变异位点，还可以分析基因的差异化表达（），转录因子结合位点（），甲基化模式（），同时还可利用此数据发现新的编码基因和非编码基因。

⑥使用可视化软件对分析结果进行可视化处理。

展开阅读全文