ILKAP基因及蛋白质的生物信息学分析.docx

资源描述

ILKAP基因及蛋白质的生物信息学分析.docx

《ILKAP基因及蛋白质的生物信息学分析.docx》由会员分享，可在线阅读，更多相关《ILKAP基因及蛋白质的生物信息学分析.docx（19页珍藏版）》请在冰豆网上搜索。

ILKAP基因及蛋白质的生物信息学分析.docx

ILKAP基因及蛋白质的生物信息学分析

摘要-1-

Abstract-2-

1前言-3-

2相关知识的简介-5-

2.1生物信息学简介-5-

2.2数据库简介-5-

2.3相关分析软件及网站-6-

2.4本研究的目的与意义-6-

3方法与分析-7-

3.1ILKAP基因及蛋白质一级结构分析-7-

3.1.1ILKAP基因cDNA的成分分析-7-

3.1.2开放阅读框查找分析-8-

3.1.3ILKAP蛋白质一级结构分析-10-

3.2ILKAP蛋白质二级结构分析-10-

3.2.1ILKAP蛋白质二级结构-10-

3.2.2跨膜结构域分析-12-

3.2.3蛋白的卷曲螺旋结构预测-12-

3.2.4信号肽预测-13-

3.2.5蛋白质的疏水性预测分析-14-

3.2.6蛋白质结构域预测分析-15-

3.3ILKAP蛋白质三级结构预测分析-16-

3.4序列相似性分析-17-

4结论与讨论-20-

4.1结论-20-

4.2讨论-20-

ILKAP基因及蛋白质的生物信息学分析

摘要

整合素连接激酶相关丝氨酸/苏氨酸磷酸酶（integrin-linkedkinase-associatedserine/threoninephosphatase，ILKAP）是近年来发现的一种重要的蛋白磷酸酶。

本论文利用NCBI数据库，DNAman，DNASTAR-Lasergene等相关的生物信息学软件及相应的生物信息学分析网站，对大鼠进行基因和蛋白质结构的预测和分析，结果表明：

ILKAP基因序列全长1318bp，包含一个46~1224bp的开放阅读框，编码一个由392个氨基酸残基组成的蛋白质，主要由α螺旋（146个）、无规则卷曲（149个）和少量的折叠（69个）构成。

ILKAP在哺乳动物中高度保守，人与大鼠、小鼠以及大鼠与小鼠之间的同源性分别高达95%、95%、97%。

ILKAP蛋白具有PP2C结构域，结合结构域的功能和其他物种中的ILKAP的功能，综合分析ILKAP可能与细胞凋亡的密切联系，而凋亡信号的阻断，导致了肿瘤的发生与发展。

关键词:

ILKAP，生物信息学，核酸和蛋白质分析，同源性

Abstract

Integrin-linkedkinase-associatedserine／threoninephosphatase（ILKAP）isfoundinrecentyearsofakindofimportantproteinphosphatase.ThispaperusetheNCBIdatabase,DNAman,DNASTAR-Lasergeneandrelatedbioinformaticssoftwareandcorrespondingbioinformaticsanalysiswebsite,onRattusnorvegicusgeneandproteinstructurepredictionandanalysis,theresultsshowthat:

TheILKAPgenesequenceofthefull-length1318bp,containsa46~1224bpopenreadingframe,encodingaconsistsof392aminoacidresiduesofproteins,mainlycomposedofanalphahelix（146）,withouttherulesofcurling（149）andasmallamountoffolding（69）.ILKAPinmammalsishighlyconserved,thehomologybetweenthemanandRattusnorvegicus,MusmusculusandRattusnorvegicusandMusmusculuswereashighas95%,95%,97%.ILKAPproteinhasaPP2Cdomain,bindingdomainofthefunctionandotherspeciesintheILKAPfunction,comprehensiveanalysisofILKAPmaybeassociatedwithapoptosisinclosecontact,andapoptoticsignalblocking,resultedintumorgenesisanddevelopment.

Keywords：

ILKAP，Bioinformatics，Nucleicacidandproteinanalysis，homology

1前言

整合素连接激酶相关丝氨酸/苏氨酸磷酸酶integrin-linkedkinase-associatedserine/threonine（ILKAP）是近年来发现的一种重要的蛋白磷酸酶。

从它被发现开始就显示出其与细胞凋亡的密切联系，而凋亡信号的阻断，导致了肿瘤的发生与发展。

ILKAP主要通过抑制整合素连接激1（integrin-linkedkinase-1,ILK-1）的活性负调控整合素激酶信号通路，以及通过去磷酸化凋亡信号调节激酶1（apoptosissignal-regulatingkinase1,ASK1）的Thr845正调控JNK/SAPK信号通路而发挥作用。

而这两条信号通路与肿瘤的发生、发展都有非常密切的关系。

ILKAP最初是在大鼠中发现的一种蛋白质，这种蛋白质与大鼠PP2Cα或PP2Cβ有30%左右的序列同源性，并且它的C端片段具有蛋白磷酸酶2C结构域，但是其N端的76个氨基酸残基是其特有的，与目前所发现的任何一种蛋白质都没有同源性。

后来将其列入PP2C蛋白家族，ILKAP由392个氨基酸残基组成，相对分子量约为43kDa，包含N端特异的76个氨基酸残基以及C端的PP2C类催化结构域。

ILKAP在各种组织中均有广泛的表达，尤其是在骨骼肌，肝脏，肾脏中都有高水平的表达。

ILKAP在哺乳动物中高度保守，ILKAP所包含的PP2C结构域，与PP2Cα，Cβ，PP2Cγ所包含PP2C结构域的同源性分别为31%、29%、38%，而大鼠、小鼠以及大鼠与小鼠之间的同源性分别高达95%、95%、97%。

ILKAP的C端大部分片段要是PP2C结构域，并包含了PP2C结构域共有的全部11个保守的活性位点，使ILKAP具备了丝氨酸/苏氨酸蛋白磷酸酶的催化活性。

研究发现，东方田鼠抗日本血吸虫抗性相关基因E77．43ORF编码的产物为整合素连接激酶相关丝氨酸/苏氨酸磷酸酶，与之相互作用的蛋白为整合素连接蛋白激酶（integrin-linkedproteinkinase，ILK）。

而现有研究表明，ILKAP在细胞生长与凋亡的调控过程中起重要作用。

E77．43编码的产物可能为ILKAP基因在东方田鼠中的同源基因。

PP2C的生理功能主要是通过去磷酸化作用负调控蛋白激酶级联信号系统，从而参与细胞周期调控、信号转导、基因转录、蛋白质翻译及翻译后修饰等细胞过程。

ILKAP是PP2C的成员之一，作为一种抑癌基因，在肿瘤的发生发展中有其重要作用。

它的主要生理功能是介导细胞凋亡，与肿瘤的发生、发展密切相关。

了解ILKAP的基因各种信息，掌握其一级结构和高级结构对研究肿瘤发生及细胞凋亡有重要作用，研究其各种生物信息进行分析,并与其他物种的ILKAP进行对比，这将为各种抗癌的生物制药提供重要线索。

本研究主要通过所学的生物学知识，在导师的带领和指导下，运用现代计算机技术，网络资源，相关的在线分析软件和图书馆等平台，完成ILKAP的生物学信息分析，掌握现代生物信息学分析技能。

2相关知识的简介

2.1生物信息学简介

生物信息学是一门交叉学科。

它包含了生物信息的获取、管理、分析、解释和应用在内的所有方面。

它综合运用生物学、计算机科学和数学等多方面知识与方法，来阐明和理解大量生物数据所包含的生物学意义，并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学主要有三个组成部分：

建立可以存放和管理生物信息数据的数据库；研究开发科利用有效分析与挖掘生物学数据的方法、算法和软件工具；使用这些工具去分析和解释不同类型的生物学数据，包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达及生化途径等。

生物信息学这个术语从20世纪90年代开始使用，最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。

自从20世纪60年代就有了序列分析的计算机工具，但是那时并未引起人们很大的关注，直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。

现在该术语已扩展到几乎覆盖各种类型的生物学数据，如蛋白质结构、基因表达和蛋白质互作等。

2.2数据库简介

据保守估计，目前世界上平均每一分钟就有一个序列增加到核酸序列数据库中，能够从飞速增长的序列数据更高效的提取信息，建立生物信息中心，通过互联网实现全球范围内的信息共享成为必然。

欧美各国及日本等西方国家相继成立了生物信息资源和研究中心，如美国国家生物技术信息中心（NationalCenterforBiotechnologyInformation，NCBI）、位于英国的欧洲生物信息研究所（EuropeanBioinformaticsInstitute，EBI）、位于瑞士日内瓦的蛋白质专家分析系统（TheExpertProteinAnalysisSystem，ExPaSy）、日本国立遗传学研究院（NationalInstituteGenetics，简称NIG）等。

以西欧各国为主的欧洲分子生物学网络组织（EuropeanMolecularBiologynetwork,EMBnet），成立于1988年，是目前国际上最大的分子生物信息研究、开发和服务机构。

它把欧洲乃至世界各国的生物信息中心联系在一起，实现信息共享，并合作进行开发、研究、培训。

2.3相关分析软件及网站

序列分离软件：

GeneStudio

序列翻译软件：

Editseq

序列拼接软件：

DNASTAR-Lasergenev6

开发阅读框：

http:

//www.ncbi.nlm.nih.gov/gorf/gorf.html

美国国立生物技术信息中心（NCBI）：

http:

//www.ncb.inlm.nih.gov

卷曲螺旋结构预测软件：

http:

//www.ch.embne.torg

信号肽预测软件：

http:

//www.cbs.dtu.dk/services/SignalP

跨膜结构预测软件：

http:

//www.ch.embne.torg/software/TMPRED_form.html

一级结构：

http:

//wolfpsor.tseq.cbrc.jp

二级结构：

http:

//abs.cit.nih.gov/gor/

三级结构：

www.expasy.org/swissmod/swiss-model.htm

蛋白质数据库或DNA数据库中进行相似性比较的分析（BLAST）:

http:

//blast.ncbi.nlm.nih.gov/Blast.cgi

2.4本研究的目的与意义

一、课题目的

（1）对ILKAP的基因及蛋白质氨基酸序列组成进行生物信息学分析。

（2）通过本论文的实施，熟悉NCBI进行生物信息学检索。

掌握重要生物信息学分析软件，进行生物信息学分析。

二、课题意义

ILKAP作为一种抑癌基因，在肿瘤的发生发展中有其重要作用，了解ILKAP的基因各种信息，掌握其一级结构和高级结构对研究肿瘤发生及细胞凋亡有重要作用。

通过所学的生物学知识，在导师的带领和指导下，运用现代计算机技术，网络资源，相关的在线分析软件和图书馆等平台，掌握现代生物信息学分析技能。

ILKAP是一种蛋白磷酸酶，与细胞调亡密切相关，研究其各种生物信息进行分析,并与其他物种的ILKAP进行对比，这将为各种抗癌的生物制药提供重要线索。

3方法与分析

3.1ILKAP基因及蛋白质一级结构分析

3.1.1ILKAP基因cDNA的成分分析

先在NCBI中检索出ILKAP的核酸序列，然后采用DNASTAR软件中的Editseq程序，分析cDNA的碱基组成。

结果如下：

（1）碱基序列

>lcl|NM_022606.1_gene_1[gene=Ilkap][location=1..1318]

CGCCGCCCAGGCTAGCGCGAGCCTCCGCTCCATCGCCCCGCCGCCATGGACCTATTCGGGGACTTGCCGG

AGCCCGAGCGCCCGCCGCGGCCGTCTGCCGGGAAAGAAGCACAGGAAGGACCCGTGCTCTTCGAGGACCT

GCCCCCGACCAGCAGTACTGACTCAGGATCTGGGGGACCTTTACTCTTTGATGGTCTTCCACCTGCTGGC

AGCGGCAATTCAGGTTCTCTTGCCACATCAGGCTCCCAGGTGGTGAAGAACGAAGGAAAAGGAGCAAAGA

GGAAAGCCCCTGAGGAAGAGAAGAATGGCGGTGAAGAGCTTGTGGAAAAGAAAGTTTGTAAAGCCTCTTC

GGTGATCTTTGGTTTGAAAGGCTACGTGGCAGAGCGGAAGGGTGAGAGGGAGGAGATGCAGGACGCCCAT

GTCATCCTGAATGATATCACTCAGGAGTGTAATCCTCCATCATCTCTCATTACTCGGGTTTCATACTTTG

CTGTTTTTGATGGACATGGAGGAATTCGAGCCTCGAAATTTGCTGCACAGAATTTGCACCAGAACTTAAT

CAGGAAATTTCCTAAAGGAGATGTAATCAGTGTGGAGAAGACTGTGAAGAGGTGCCTGCTAGATACTTTT

AAGCACACCGATGAAGAGTTCCTGAAACAGGCTTCAAGCCAGAAGCCTGCCTGGAAAGACGGGTCCACTG

CCACGTGTGTCCTGGCTGTGGACAACATCCTGTATATCGCCAACCTTGGAGATAGTCGGGCAATCCTGTG

（2）碱基成分

Totalnumberofbasesis1318%A=24.51[323]%G=29.36[387]%T=22.23[293]%C=23.90[315]%A+T=46.74[616]%C+G=53.26[702]BASECOUNT323a315c387g293t

3.1.2开放阅读框查找分析

对ILKAP拼接全长cDNA序列用NCBIORFfinder（http:

//www.ncbi.nlm.nih.gov/gorf/gorf.html）进行开放阅读框分析，输入检索号即可。

见图1，大鼠ILKAP基因的开放阅读框为46~1224bp。

46atggacctattcggggacttgccggagcccgagcgcccgccgcgg

MDLFGDLPEPERPPR

91ccgtctgccgggaaagaagcacaggaaggacccgtgctcttcgag

PSAGKEAQEGPVLFE

136gacctgcccccgaccagcagtactgactcaggatctgggggacct

DLPPTSSTDSGSGGP

181ttactctttgatggtcttccacctgctggcagcggcaattcaggt

LLFDGLPPAGSGNSG

226tctcttgccacatcaggctcccaggtggtgaagaacgaaggaaaa

SLATSGSQVVKNEGK

271ggagcaaagaggaaagcccctgaggaagagaagaatggcggtgaa

GAKRKAPEEEKNGGE

316gagcttgtggaaaagaaagtttgtaaagcctcttcggtgatcttt

ELVEKKVCKASSVIF

361ggtttgaaaggctacgtggcagagcggaagggtgagagggaggag

GLKGYVAERKGEREE

406atgcaggacgcccatgtcatcctgaatgatatcactcaggagtgt

MQDAHVILNDITQEC

451aatcctccatcatctctcattactcgggtttcatactttgctgtt

NPPSSLITRVSYFAV

496tttgatggacatggaggaattcgagcctcgaaatttgctgcacag

FDGHGGIRASKFAAQ

541aatttgcaccagaacttaatcaggaaatttcctaaaggagatgta

NLHQNLIRKFPKGDV

586atcagtgtggagaagactgtgaagaggtgcctgctagatactttt

ISVEKTVKRCLLDTF

631aagcacaccgatgaagagttcctgaaacaggcttcaagccagaag

KHTDEEFLKQASSQK

676cctgcctggaaagacgggtccactgccacgtgtgtcctggctgtg

PAWKDGSTATCVLAV

721gacaacatcctgtatatcgccaaccttggagatagtcgggcaatc

DNILYIANLGDSRAI

766ctgtgtcgatataacgaggaaagtcaaaagcatgcagccttaagc

LCRYNEESQKHAALS

811ctcagcaaagagcacaatccaactcagtatgaagagcgcatgagg

LSKEHNPTQYEERMR

856atacagaaggctggaggcaatgtcagagatggccgtgtcttgggt

IQKAGGNVRDGRVLG

901gtgctggaggtatcccgctccattggagatgggcagtacaagcgt

VLEVSRSIGDGQYKR

946tgcggggtcacatccgtgcctgatatcagacgctgccagttgacc

CGVTSVPDIRRCQLT

991cccaatgacaggttcattttgctggcttgtgatgggctcttcaag

PNDRFILLACDGLFK

1036gtctttaccccagaagaagctgtgaacttcatcttgtcctgcctt

VFTPEEAVNFILSCL

1081gaggatgagaagatccagacccgagaagggaagcctgctgttgat

EDEKIQTREGKPAVD

1126gcccgctatgaagctgcatgcaacaggctggctaacaaggcagtg

ARYEAACNRLANKAV

1171cagcggggctcggcagataacgtgacggtgatggtggtgaggata

QRGSADNVTVMVVRI

1216ggacactga1224

GH*

图1ILKAPORF预测图

3.1.3ILKAP蛋白质一级结构分析

（1）氨基酸序列

利用DNASTAR软件中的Editseq程序，放入基因序列，选中开放阅读框检索出氨基酸序列，结果如下：

MDLFGDLPEPERPPRPSAGKEAQEGPVLFEDLPPTSSTDSGSGGPLLFDGLPPAGSGNSGSLATSGSQVVKNEGKGAKRK

APEEEKNGGEELVEKKVCKASSVIFGLKGYVAERKGEREEMQDAHVILNDITQECNPPSSLITRVSYFAVFDGHGGIRAS

KFAAQNLHQNLIRKFPKGDVISVEKTVKRCLLDTFKHTDEEFLKQASSQKPAWKDGSTATCVLAVDNILYIANLGDSRAI

LCRYNEESQKHAALSLSKEHNPTQYEERMRIQKAGGNVRDGRVLGVLEVSRSIGDGQYKRCGVTSVPDIRRCQLTPNDRF

ILLACDGLFKVFTPEEAVNFILSCLEDEKIQTREGKPAVDARYEAACNRLANKAVQRGSADNVTVMVVRIGH

（2）基因所编码蛋白质的特征分析

利用http:

//wolfpsor.tseq.cbrc.Jp将所得的氨基酸进行分析，发现氨基酸数：

392；理论PI6.68；负电荷数：

54；正电荷数：

53；分子式：

C1859H2992N542O585S14总原子数：

5992；估计半衰期：

30h；不稳定指数：

42.19；脂肪指数：

78.11；总平均亲水性：

-0.484。

（3）氨基酸组成见表1

表1氨基酸组成成分

氨基酸

Ala

（A）

Arg（R）

Asn（N）

Asp（D）

Cys（C）

Gln（Q）

Glu（E）

Gly（G）

His（H）

Ile（I）

数量

百分率

7.9%

6.4%

4.3%

5.6%

2.6%

3.8%

8.2%

8.9%

1.8%

4.3%

氨基酸

Leu

（L）

Lys（K）

Met（M）

Phe（F）

Pro（P）

Ser

（S）

Thr（T）

Trp（W）

Tyr（Y）

Val（V）

数量

百分率

8.2%

7.1%

1.0%

3.6%

5.4%

7.4%

4.1%

0.3%

1.8%

7.4%

3.2

展开阅读全文