生物信息学课程作业.docx
《生物信息学课程作业.docx》由会员分享,可在线阅读,更多相关《生物信息学课程作业.docx(18页珍藏版)》请在冰豆网上搜索。
生物信息学课程作业
2011年生物信息学作业
姓名:
***
班级:
08级生物科学1班
学号:
************
任课教师:
***
1、记录相关网站及论坛网址(如何查询到该网址的方法)。
(1)NCBI:
http:
//www.ncbi.nih.gov/
(2)DDBJ :
http:
//www.ddbj.nig.ac.jp/
(3)EMBL:
http:
//www.embl.org/
(4)北大生物信息学中心
(5)中科院计算所智能信息处理重点实验室生物信息学:
(6)北大生物信息中心:
(7)生物谷生物信息学:
(8)中国生物论坛:
(9)中国生物谷论坛:
(10)生物谷:
2、利用你所学的数据库检索方法获得一段DNA序列(基因或mRNA),写出序列名称、登录号(accession#)、序列特点(CDS,外显子等)。
ORIGIN
1actggggtcttctccatgcggctcgggctatgacagcctccgtgctcctccacccccgct
61ggatcgagcccaccgtcatgtttctctacgacaacggcggcggcctggtggccgacgagc
121tcaacaagaacatggaaggggcggcggcggctgcagcagcggctgcagcggcggcggctg
181ccggggccgggggcgggggcttcccccacccggcggctgcggcggcagggggcaacttct
241cggtggcggcggcggccgcggctgcggcggcggccgcggccaaccagtgccgcaacctga
301tggcgcacccggcgcccttggcgccaggagccgcgtccgcctacagcagcgcccccgggg
361aggcgcccccgtcggctgccgccgctgctgccgcggctgccgctgcagccgccgccgccg
421ccgccgcgtcgtcctcgggaggtcccggcccggcgggcccggcgggcgcagaggccgcca
481agcaatgcagcccctgctcggcagcggcgcagagctcgtcggggcccgcggcgctgccct
541atggctacttcggcagcggctactacccgtgcgcccgcatgggcccgcaccccaacgcca
601tcaagtcgtgcgcgcagcccgcctcggccgccgccgccgccgccttcgcggacaagtaca
661tggataccgccggcccagctgccgaggagttcagctcccgcgctaaggagttcgccttct
721accaccagggctacgcagccgggccttaccaccaccatcagcccatgcctggctacctgg
781atatgccagtggtgccgggcctcgggggccccggcgagtcgcgccacgaacccttgggtc
841ttcccatggaaagctaccagccctgggcgctgcccaacggctggaacggccaaatgtact
901gccccaaagagcaggcgcagcctccccacctctggaagtccactctgcccggtaaatgac
961gacctattcccagccctggtcttccggctctgctccagcttcttctccgctcgcacccgg
1021gcgatcccgggtgcgtttctgttctcttcctggtctgccctagcggctctgcacccctgg
1081gagcccgagcatggctggctgggtctgcctgcactgcctcgagttgagctggtccctggc
1141tctccctgggtgaggggtggcttgtggagacctcggctagcttccctctccctctgcgcc
1201ccgccctccccagcccctgacaccaatttaaggatgagaaattgaccagaaaacagctcc
1261ccaaattgcccctccctattcattctctcaaaaatggcttcagtgtagaagcttcgagta
1321ttgggacgggcacccagaaaggaggcaggcacagaagtgttgtaccttgagcctggcgct
1381aaggtgtgggccgttggaccaggctatcactcgaggctgcctacgcgctgctcctgcagg
1441atggccgggttggggaagtcactggagccctgggtgatttcatttcagttcagaactaac
1501taccttccccactgaccctctaggctttagcagaagacaggattgtacagcgggtggcaa
1561agagcagccgggcgctgcaaggcgggtggctcagatcgagctgtcgcctatgccctggct
1621ggggtccgatccctgtgtaacttgccttctcccttgtcttctagacgtggtctcccatcc
1681ctcggatgccagctcctataggagggggagaaagaagcgcgtgccttataccaaggtgca
1741attaaaagaacttgaacgggaatacgccacgaataaattcattactaaggacaaacggag
1801gcggatatcagccacgacgaatctctctgagcggcaggtcacaatctggttccagaacag
1861gagggttaaagagaaaaaagtcatcaacaaactgaaaaccactagttaatggattaaaaa
1921tagagcaagaaggcaacttgaagaaacgcttcagaactcgttgctttgcccagataatga
1981taataatgcttaataataattgaagaatgggaaagagaaagagacagagactggcatttt
2041cctctcccgaaggagatctctttctctttaatggaatctacaactgttttaaaactttaa
2101gaaaggtaaagactgccagttcttccgccaaccccatcagcccagcccgttaaatgtcaa
2161acgtcaacccccaaaatacgcaatttcagataagttacgcagttactgaaatcttgtaag
2221tatttaagtgatcgttacattttaggacactgcgttagatggtaataatctggaagttgg
2281ttacaaacgcaagaggccattgtaaacatctgcttgtccttcttaggtcgccattccctt
2341tgcatgttaagcgtctgctcaggtaaatcttagtgaaattcctaccgttgttgtacgttc
2401tgcaaaacattttatgtatagatttagaggggaaacgagaaggtactgaaataatgatct
2461tggaatatttgctgtgaagggagaaagggagagaaaactcttctgaggatcatttgtctt
2521ggtagtatagtaaaaccaaccagctgaacctttcaggctacaagagaacccgggtcggta
2581atgtctttttaagaataatttttaattgcttataacaagcatattttgtggcatttgaac
2641tatatttactgctccaatatccgttattttccaaaggattttgtatctttttgaaaatgt
2701ttacatcatcagatgatccacagaattcactttatgtgagatctcccgagagtttccatc
2761ccaacatgatggactttggtttgaacacaattcgttttttcatttgaattggcatttccc
2821aatatttgctaaacatttgctggagaaatcatttttcttttttcttttttagaaaactca
2881gaatgaaaattcattcccctgaaatatttaggtgtctatattctatattttgatctatta
2941agggattagtatttttccatgtttattgtgttatcagagtgcattagaaagattagtgat
3001tcatcttcacagcacatttttaatcaagcagttatttcaaccagcacattcgttttgttc
3061atattcactatagaatgatatcttgtaaataaagacattcagcacactgtgaaaatgtat
3121ttgtgcacctgctttttaaatatttctactaaaaatgaaaaaaaaaaacccttagacctg
3181tagatagtgatatcgtaatattaattgttaataaaatagtcactgcc
CDSjoin(30..951,1665..1909)
/gene="HOXA13"
/note="Derivedbyautomatedcomputationalanalysisusing
genepredictionmethod:
BestRefseq."
/codon_start=1
/product="homeoboxproteinHox-A13"
/protein_id="NP_000513.2"
/db_xref="GI:
24497554"
/db_xref="CCDS:
CCDS5412.1"
/db_xref="GeneID:
3209"
/db_xref="HGNC:
5102"
/db_xref="HPRD:
00847"
/db_xref="MIM:
142959"
LOCUSNC_000007
OfficialFullNamehomeoboxA13providedbyHGNC
3、利用internet资源查找一个生物信息学有关的免费软件,并介绍其使用方法。
RASMOL:
观看生物分子3D微观立体结构
rasmol使用方法
(1)
作者:
swallowx整理时间:
2005-08-31
目前在结构生物学领域有许多图形显示的程序,每个都有自己不同的特点。
可能很多人知道rasmol,除了图形界面中的一些功能外,该程序的命令行方式有着很强大的功能。
下面将介绍一些常用的使用方法。
Rasmol(http:
//www.openrasmol.org/)程序有多种版本,有unix,windows,Mac等。
另外还有一个windows和linux版本http:
//www.geneinfinity.org/rastop/,该版本将一些原来rasmol菜单下没有的命令加入菜单,比原来的版本方便。
在unix系统下,读入结构文件可以直接用命令的方式,如rasmol1crn.pdb.在windows下,可以先打开raswin,然后在File的菜单下读入结构文件。
Rasmol所识别的文件有下面几种:
pdb:
BrookhavenProteinDatabank,来源于www.rcsb.org
nmrpdbNMRmulti-pdbfileformat
mopacmopacfileformat;eithercartesianorz-matrixformat。
mdlMolecularDesignLimited'sMOLfileformat
mol2Tripos'SybylMol2fileformat。
xyzMSC'sXMolXYZfileformat。
alchemyTripos'Alchemyfileformat。
charmmCHARMmfileformat。
如果想读入Charmm软件包的结构文件,用命令行的方式是:
rasmol–charmm1crn.crd.
在打开rasmol后,会出现两个窗口,一个是图形窗口,另外一个是命令行窗口。
可以在图形窗口中进行一系列的结构操作,但是有些的操作还需要命令行来补充。
下面就将常用的命令进行一下总结。
restrictprotein:
在图形窗口中去除所有的非蛋白质原子。
restrictlys:
在图形窗口中去除所有的非lys残基。
selectall:
选择所有的原子。
selectprotein:
选择蛋白质原子。
selecthetero:
选择非蛋白质,非DNA原子。
一、常用的选择命令:
1.结构文件中链的选择:
每条链都有一个字母或数字表示。
选择一条链时,必须用:
或*说明字母代表链。
比如:
select:
d选择d链的所有原子
select*d选择d链的所有原子
select:
d,:
e选择d或e链的所有原子
selectglu:
2选择2号链的所有glu。
2.通过残基名称选择
PDB文件中每个残基都有1-3个字符串的名称。
所有的氨基酸用3字符表示,DNA,RNA用单字符表示。
水分子用HOH表示。
其他的配体的名称可以用文本编辑器打开PDB文件搜索,配体原子对应的坐标在文本中由HETATM开头,而蛋白质或DNA的原子是以ATOM开头,见下面的例子:
ATOM1902OGLYR62-32.180-32.76546.9071.0038.84
HETATM1955OHOH1-26.069-22.42917.0591.0053.88
有些基团的名称含有数字,如SO3,PO4。
在选择这些残基时,残基需要加上方括号,如select[SO3].钙原子或其他金属原子一般用2字符表示,如CA,MN,MG,ZN.如果需要选择钙原子,可以用”selectca”.钙原子ca的表示与蛋白质的a碳原子表示冲突,因此如果PDB结构中有钙原子,只想选择蛋白质的a碳原子,可以用selectproteinand*.ca.另外一些例子有:
selectlys:
a选择A链的所有lys.
Select(lys,arg)and:
b选择B链的lys或arg。
3.通过残基的数字选择
每个残基都有一个数字相对应,下面是一些选择的例子:
Select32选择每条链的32号残基以及32号杂原子
Select19-32选择每条链的19-32号残基以及19-32号杂原子
select19-32andnothetero选择每条链的19-32号残基
select19-32andhetero选择19-32号杂原子
select19-32:
y选择Y链的19-32号残基
selectasp47选择所有链的47号位置的asp
4.原子的选择
PDB文件中每个原子都有一个序列号对应,可以在图形界面上点击,查看序列号。
如果想选择原子可以用:
Selectatomno=131选择第131个原子
Selectatomno=217,atomno=1426选择第217和1426号原子
selectatomno>=195andatomno<=277选择195-277号原子
PDB原子名称,PDB文件中所有的原子的命名采用标准命名,CA表示a-碳原子CB表示b-碳原子,以此类推。
CG,CD,CE,CZ,CH(gamma,delta,epsilon,zeta,eta)。
N7(7thnitrogeninaresidue),O2P(secondoxygenonaphosphorus),OE2(secondoxygenonanepsiloncarbon),HD1(1sthydrogenonadeltacarbon).可以在图形界面中点击原子,然后在命令行窗口上读取原子信息。
其他实例:
select*.cg选择所有g位的碳原子。
selectlys.cg选择所有赖氨酸的g位的碳原子
select:
a.cg选择A链所有g位的碳原子
selectlys:
a.cg选择A链所有赖氨酸的g位的碳原子
select27-42:
a.cg选择A链从27到42位氨基酸的g位的碳原子
select*.h?
选择所有2字符的氢原子
select*.h选择所有的氢原子。
元素名称,键入全名,如magnesium,iron,sulfur等。
另外一些选择实例:
用户可以自定义一些区域进行操作,比如:
defineactivesite(15,67,109)
selectactivesite
colorgreen
另外可以通过下面的命令选择某个残基周围的其他原子:
selectwithin(4.5,ser72)选择ser72周围4.5Å内的原子。
如果不想选择该范围内的某个残基,可以用:
selectwithin(4.5,ser72)andnotlys80
二、进一步的操作:
在选择了一些基团后,就可以对它们进行进一步的操作,比如修改残基的表示方法,可以变成球棍模型,空间堆积模型等等。
也可以对它们进行不同的着色。
rasmol提供了多种图形显示方法,对原子的显示有wireframe,spacefill,sticks,ballandstick,对于二级结构的显示有ribbons,strands和cartoons。
另外还有backbone的显示方法。
在选择了一个残基后,可以有下列操作:
select172:
A
colorgreen将该残基着绿色
wireframe0.5数字表示一个相对值,此时可以看见该残基变粗了。
此时可以在图形界面中的display菜单中选择sticks,spacefill或ballandstick的方式。
然后在命令行窗口可以进行参数设定,比如,在将残基变成ballandstick方式后,在键入spacefill0.3,可以发现原子的表示比原来要小,如果在键入wireframe0.1,可以发现,化学键的表示变细了。
通过这种方法,可以很容易区分所感兴趣的残基。
rasmol使用方法
(2)
作者:
swallowx整理时间:
2005-08-31
1.Backbone,ribbons,strands,trace
backbone可以将多肽链表示为通过C-碳原子相互连接的方式。
Backbone加上数字可以控制化学键的粗细。
如果想将化学键表示为虚线,可以用backbonedash的命令。
可以用colorbackboneyellow将其着黄色。
与backbone类似的命令是trace,该命令将backbone表示进行了圆滑处理。
Tracetemperature的命令,可以用不同粗细来标示结构中温度因子的大小,温度因子越大,标示越粗。
Ribbons,和strands是二级结构的不同表示方法。
Ribbons,strands后跟参数可以控制其宽度。
2.Background
可以用backgroundyellow将图形界面的背景着黄色。
3.Hbonds和Ssbonds
用该命令要求rasmol搜索氢键,rasmol可以报告氢键的数目。
可以用hbondson或hbondsoff控制氢键在图形界面中的显示。
也可以将氢键表示换成不同的颜色,用colorhbondsyellow可以将默认的红色该为黄色。
Ssbonds用于表示二硫键,用法与hbonds类似。
另外用colorhbondstype,可以用不同的颜色表示不同距离范围内的氢键,比如用红色表示螺旋中的氢键,而黄色表示折叠间的氢键,而转角的氢键用洋红色表示。
4.Label
在选择某个残基后,要向对其进行标记,可以用label,同时通过Setfontsize来控制字体大小,用Setfontstroke控制比划宽度。
比如选择R链40位的lys的NZ原子可以用:
selectlys40:
R.NZ
labellys40
colorlabelyellow
就可以在NZ原子的位置表上lys40。
另外label后面跟不同的参数可以控制label的内容,比如:
%a原子名称,如上例,将只显示NZ
%b%t晶体学中的B-值或温度因子
%c%s多肽链名
%e显示元素名,上例就是N原子。
%i结构文件中对应的原子号。
%n结构文件中对应的残基名
%r结构文件中对应的残基号
%MNMRModelNumber(withleading"/")
%AAlternateConformationIdentifier(withleading";")
用colorlabelyellow将用黄色标记。
5.Renumber
有时PDB文件中N-末端的第一个残基的位置不是从1开始,而是从其他数字开始,为了处理方便,可以用renumber将其该为1号开始。
也可以在renumber后加数字来选择不同的起始。
6.Save
在选择了一些感兴趣的基团后,可以用save命令来保存所选择的基团的坐标。
操作是savemyfile.pdb。
还可以跟不同的文件格式将它们保存为不同的结构文件,可以用savemdl(alchemy或xyz)myfile。
7.Script
如果进行了很多操作,最后想保留这些历史,可以用writescript或writerasmol来保存,下次只要调用角本文件即可,操作是writescriptmyfile。
调用时可以用sourcemyfile或scriptmyfile。