数据库行业深度报告Word文档格式.docx
《数据库行业深度报告Word文档格式.docx》由会员分享,可在线阅读,更多相关《数据库行业深度报告Word文档格式.docx(37页珍藏版)》请在冰豆网上搜索。
非关系数据库一般采用分布式架构,数据之间保持独立不存在关系,使得数据库具有易拓展性和高速读写能力。
非关系数据库可以通过增加节点解决关系型数据库扩展不宜、迁移难的问题。
此外,由于分布式结构,允许系统在节点对数据处理,面对海量数据时依旧能保持高速的读写能力。
但是非关系数据库同样存在不足:
只适合存储一些较为简单的数据,对于需要进行较复杂查询的数据,关系型数据库更为合适。
非关系型数据库,是区别于关系数据库的其余数据库的统称,其中同样存在差别。
常见的非关系数据库有五种:
键值数据库、文件数据库、图形数据库、时间序列数据库、列式数据库。
不同的数据存储模式使得他们相比关系数据库在不同领域具有优势。
键值数据库运用于网络购物、网页访问等方面;
文档型数据库广泛用于移动端和网站内容管理系统;
图形数据库常用于反诈骗、实时分析、存取管理、网络与IT运营;
时间序列数据库多用于IOT设备和传感器;
列式数据库广泛存在于商业智能和数据仓库领域。
根据使用需求,数据库又可以分为事务型数据库和分析型数据库。
事务型数据库主要用于业务支撑,负责联机事务处理(OLTP),以日常事务以及查询(处理少量数据)为主,响应时间短。
分析型数据库主要用于历史数据分析,负责联机分析处理(OLAP),作为公司的单独数据存储,负责利用历史数据对公司各块业务进行统计分析、处理的数据量大、实时性要求不高。
数据物理存储方式的差异,又可以把数据库分为磁盘数据库和内存数据库。
磁盘数据库是指数据存储于磁盘中,是数据库常见的存储方式。
数据库需要频繁地访问磁盘来进行数据的操作,由于对磁盘读写数据的操作一方面要进行磁头的机械移动,另一方面受到系统调用的影响,当数据量很大,操作频繁且复杂时,读写速度无法满足实时性需求。
内存数据库数据处理速度比传统数据库的数据处理速度要快很多,一般都在10倍以上。
此外,内存数据库存取时间易于预测,可以定制数据存取方式,满足特殊情况下对数据的实时性需求。
3.数据库的用途:
为各行业的业务处理和商业分析提供支持
数据库在各行各业得到广泛运用。
数据库在信息系统中用于存储、管理数据,为业务处理、数据挖掘、商业分析、提供数据支持。
随着企业数字化与智能化转型需求的上升,越来越多的企业采集与经营、市场相关的数据以便做出精准有效的决策。
由此带来的数据爆发式增长让这些企业正视数据存储、管理与安全。
处于信息技术核心的数据库,在金融、政务、教育、电信、医疗健康、电力、公安、企业等一系列领域得到广泛运用,为各领域的运营和决策提供支持。
数据库为数据中台的数据管理和数据分析提供支持。
数据中台主要提供全量数据的实时在线服务,同时提供对海量数据进行采集、计算、存储、加工以及基于全量数据的数据发掘。
随着业务的复杂化以及互联网、移动业务带来的海量数据的增长,数据在治理、挖掘等方面的重要性凸显,因此数据中台就成为了现在金融等大型企业关注的业务重点。
数据库帮助用户在管理全量数据的同时对外提供在线查询与分析能力,构建完整的数据中台,实现数据的全生命周期管理。
比如在金融领域,数据库支持下的数据中台帮助银行客户在柜台、网银、手机银行上随时随地查询开户以来所有数据记录。
同时,多类型的全生命周期数据,帮助银行更好的针对数据进行价值挖掘和建模,为风控、营销和人工智能等业务提供了数据支持。
数据库在大数据中心同样发挥作用,涵盖数据采集、数据管理、数据服务、数据应用四个阶段。
数据采集是指实现基础数据、行业数据、产业数据等相关基础数据和业务数据的采集,主要通过数据采集工具按照标准进行转换、抽取;
数据管理是指数据库实现数据整合、数据源管理、资源目录管理、数据质量管理、数据资源管理;
数据服务是数据库对清洗处理过的数据进行集中服务管理,对外提供报表服务等通用数据服务;
数据应用主要是数据库按照业务类别、业务单位的功能需求对数据进行组织、展现和利用,为主要业务应用提供数据支撑。
将使用需求和数据结构结合,可以组成四种数据库类型,满足不同使用场景。
四种数据库拥有各自的优缺点,并根据使用场景和用户需求在不同领域服务。
关系型+事务型数据库在传统业务如CRM系统、ERP系统和信用卡交易等仍占据主流;
关系型+分析型数据库则多用于商业智能、数据分析;
非关系型+事务型数据库在网页和移动端有很大市场份额;
非关系型+分析型数据库在海量数据索引与预测分析有优势。
4.数据库的性能:
六个方面,一套标准
数据库的性能指标聚焦于6个方面:
吞吐量、负载均衡、读写速度、分区分片、并发性和可用性。
不同类型的数据库由于使用场景的差异,在性能和功能上有不同的偏重,在这六个指标方面同样会有所差异。
常见的具体指标有平均每秒响应速度、查询速度、平均每秒吞吐量等。
TPC是国际上最流行和广泛接受的数据库性能标准测试。
TPC(事务处理性能委员会)是由十几家会员公司创建的非盈利组织,总部设在美国。
TPC的成员主要是计算机软硬件厂家,主要功能是制定商务应用基准程序的标准规范、性能和价格度量,并管理测试结果的发布。
针对不同类型数据库之间的区别,TPC颁布了对于数据库在线事务处理(OLTP)能力测试的基准程序TPC-C和在线分析处理(OLAP)能力测试的基准程序TPC-DS。
TPC-C测试中的tpmC值(TPC-C测试过程的吞吐量,按有效TPC-C配置期间每分钟处理的平均交易次数测量),在国内外被广泛用于衡量数据库系统的事务处理能力。
根据TPC-C最新排名,蚂蚁金服自研的OceanBase数据库tpmC值达到707,351,007,成功超越之前的记录,击败Oracle和IBM的数据库,登顶榜首。
5.国内数据库市场现状:
国产化持续推进,关系型数据库为主导
当前我国数据软件市场具有百亿以上市场规模,持续受益大数据产业发展。
根据智研咨询数据显示,2017年我国的数据库软件整体市场规模为120.22亿元,12-17年的行业复合增速超17%,处于稳健发展期。
根据2019大数据白皮书,2019年大数据研发人员超过8万人,研发投入超过550亿人民币,同时预计我国2020年大数据产业市场达6600亿元以上,行业复合增速超20%,数据软件细分市场作为产业重要构成持续受益产业发展红利。
传统关系型数据库仍为主流,市占率超85%。
当前数据产业发展下的海量数据导致大量非关联数据分析需求的产生,导致关系型数据库占比的下降。
但参考国外数据库的发展和国内数据库市场当前情况,传统关系型数据库仍占主导,国内市场规模从2012年的46.51亿元增长到2017年的102.8亿元,复合增速为17%,略高于行业增速,市占率超85%。
国产化替代持续推进,关系型市场中国产数据库市占率从2009年的4.2%提升至2019年的18.9%以上,海外四巨头仍占据65%以上份额,海外厂商整体增长乏力。
自10年前后提出“去IOE”和13年棱镜门事件影响后,我国一直在推动国产数据库持续扩张,国产市占率从2009年的4.2%提升至2019年的18.9%以上,但近3年海外四巨头在国内市占率仍维持在65%以上份额,因而当前海外巨头的影响力仍在,国产化仍有较大提升空间。
国内数据库市场面临新入跨界巨头的竞争,南大通用、人大金仓和武汉达梦等传统数据库公司份额有所下降。
华为、阿里2019年起将自研数据库推入市场并进行大力的商业推广,加剧国内数据库市场竞争。
根据IDC的数据,2019年国内传统部署的关系型数据库市场中,华为数据库以6.2%的市场份额位列第五,排在Oracle、Microsoft、IBM、SAP之后;
阿里巴巴以5.8%的市场份额位列第六;
而传统数据库厂商南大通用和人大金仓分别以4.2%和2.7%的市场份额排在第七、八位。
当前云部署已成为国内关系型数据库新方式,国内数据库云化率持续上升。
根据IDC数据,2019年中国关系型数据库传统部署模式的市场规模为7.9亿美元,公有云模式市场规模为5.5亿美元,同比增速30%。
其中,2019年阿里巴巴在公有云关系型数据库市场中以48.1%的市场份额排名第一;
腾讯以20.4%的市场份额排名第二,AWS以10.4%的市场份额排名第三;
随着企业数智化转型和数据上云的持续,未来3年国内数据库采用云部署的市场增速将超过关系型整体市场23.2%的行业增速。
二、以史为鉴:
行业与巨头发展史
1.数据库行业发展史:
穿孔卡片、关系数据库、非关系数据库到云数据库
数据库行业的发展史可以跟据数据库技术运用分为四个阶段:
穿孔卡片、关系数据库、非关系数据库和云数据库。
当前行业整体趋势表明数据库已进入云的时代,数据的存储和管理搬到云平台,用户通过终端和云平台连接,在平台上开展便捷的数据存储、查询和管理。
云数据库和云计算、人工智能等新兴技术结合在一起,为数据库行业带来新的发展机遇。
阶段一:
穿孔卡片数据管理(1960及以前)数据库的雏形最早可以追溯到20世纪50年代的数据管理。
那时的数据管理非常简单。
通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理其运行结果在纸上打印出来或者制成新的穿孔卡片。
而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。
1951年雷明顿兰德公司推出了一种一秒钟可以输入数百条记录的磁带驱动器从而引发了数据管理的革命。
1956年IBM生产出第一个磁盘驱动器,使得机器可以随机地存取数据,而穿孔卡片和磁带只能顺序存取数据,极大的提升数据管理能力、效率。
阶段二:
从网状数据库、层次数据库到关系数据库(1960-2000)数据库系统的萌芽出现于20世纪60年代。
当时计算机开始广泛地应用于数据管理,对数据的共享提出了越来越高的要求。
能够统一管理和共享数据的数据库管理系统(DBMS)应运而生。
最早的数据库系统采用网状数据库和层次数据库,虽然解决了数据集中与共享问题,但是在数据独立性和抽象级别上仍有很大欠缺。
1970年IBM研究员埃德加·
弗兰克·
科德博士发表题为“大型共享数据库的关系模型”并提出12条标准,补足之前数据库在独立性和抽象性上的缺陷。
许多科技公司跟据他的论文开始推出采用关系数据库模式的产品,包括IBM、Oracle、AshtonTole、微软、Sybase等。
自此关系数据库兴起并快速发展,到90年代成为规模最大、使用最广泛的数据库类型。
到了2000年,全球数据库产业经过竞争、并购、退出过程,最终形成Oracle、Microsoft和IBM三巨头的竞争格局。
阶段三:
非关系数据库的兴起(2000-2010)进入新世纪以后,随着互联网的兴起,传统的关系数据库在应付对海量数据和处理非结构化数据的问题上显得力不从心,暴露了很多难以克服的问题,而非关系型数据库则由于其本身的特点得到了非常迅速的发展。
非关系数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,包括超大规模数据的存储和快速处理海量的不同结构的数据。
阶段四:
云数据库出现(2010-至今)云数据库是高可靠、高可用、可弹性伸缩的云数据库服务。
通过云数据库能够快速实现数据库部署,同时云端完全托管,避免数据库运维烦恼。
云数据库结合云计算、大数据一起,顺着互联网的浪潮共同发展。
Amazon率先推出云服务AWS,成为全球第一个云数据库供应商。
随后谷歌、微软、阿里、腾讯等一系列企业各自推出自己的云数据库,推动数据库的云化发展。
Gartner研究报告称,到2023年,全球75%的数据都会出现在云平台上。
2.Oracle发展历程:
市场领导者是怎样诞生的?
如果回顾上个世纪70年代以来全球数据库市场的发展,Oracle一定是绕不过去的名字。
作为最早的数据库企业之一,Oracle自第一代产品之初就成为整个数据库市场的领导者。
哪怕是在多次技术革新和理念进步之后,Oracle依旧保持领先地位,从1987年开始长期占据最大市场份额。
通过研究Oracle的发展历程,了解世界数据库行业的变革过程,为接下来中国数据库行业发展趋势提供参考。
1977-1994年把握良机,初获成功1977年,32岁的拉里·
埃里森和同事爱德华·
欧特斯和鲍勃·
迈纳尔一起创办“软件开发室”公司(SDL)。
在看到《大型共享数据库的关系模型》一文后,三个人决定基于论文的理论开发一款通用关系型数据库。
艾里森把这个关系型数据库命名为Oracle(“神谕”),来自之前艾里森所在的公司为联邦情报局(FBI)所开发的数据库项目代号。
1979年,公司发布第一款产品OracleV2。
同一时期,美国空军希望采购一款关系型数据库以满足业务需求。
IBM的关系型数据库还在开发中,无法提供令人满意的成品,于是美国空军转而联系RSI,并成为Oracle数据库的第一位用户。
当时计算机硬件和软件深度绑定,导致同一款软件需要跟据不同的平台进行开发,增添许多麻烦。
为了满足用户对不同平台上数据库兼容性的需求,创始人之一的迈纳尔负责用当时新兴的C语言编写Oracle的核心代码,并于1983年发布OracleV3。
OracleV3实现多平台的兼容性和可移植性,成功获得市场的注意,Oracle初步获得成功。
不久后公司改名为“Oracle”。
1985年,Oracle发布V5版本。
该版本是Oracle数据库第一款实现的稳定版本,支持C/S架构,使得用户可以直接通过PC访问服务器内的数据,实现用户端和服务器端的分离。
1987年,Oracle成为世界上最大的数据库公司,年销售额超过1亿美元,为全球55个国家和地区的4500多位用户提供服务。
1992年,Oracle7发布,通过优秀的产品力和完整性击败对手Sybase,再次占据数据库市场最大份额。
1995年-2010年拓展上下游产业链,大规模收购完善产品最初,公司的主要营收来自于数据库软件的收入。
90年代开始,ERP系统备受市场追捧,Oracle的数据库系统因市场对ERP的巨量需求获得快速增长。
市场需求使得Oracle拓展产业链,开始涉足位于数据库产业下游的应用软件业务。
2000年,Oracle发布E-BusinessSuite11i模块,正式进入应用软件领域。
一开始市场主流产品仍是SAP的E/R3,EBS11i推出后只是得到一部分美国企业客户都使用。
为了快速提升市场份额与SAP对抗,2004年Oracle斥资105亿美元收购ERP领域厂商仁科公司(PeopleSoft),接着又在2006年58.5亿美元收购CRM软件公司Sieble,2007收购PLM软件公司Agile。
据Oracle官网显示,在2005-2010年之间,一共有66家企业被Oracle收购。
大量收购极大地丰富了公司的产品模块,到2009年E-BusinessSuite12推出时,Oracle在应用软件领域形成包含订单管理、客户关系管理(CRM)、企业资源管理(ERP)、人力资源管理(HRM)、产品周期管理(PLM)等高度集成的300多个模块,几乎覆盖制造业、商业、金融、政府等各个行业的全部应用场景。
2010年,Oracle在CRM和ERP市场份额分别达到16.9%和11.0%,仅次于SAP18.9%和18.8%,成为市场第二名。
在发展下游的应用软件领域以外,公司同样把目光放在数据库行业上游的硬件设备行业。
2008年Oracle收购中间件厂商BEA和当时硬件设备巨头太阳(Sun)公司,成功打造包含从服务器、数据存储器、网络设备到数据库管理系统再到应用软件的全产业链,成为数据库行业内实现全方位覆盖的公司。
2011年-至今云时代,传统巨头投入云怀抱云服务时代,Oracle的竞争对手逐渐从SAP、IBM、EMC转变为亚马逊、微软、Salesforce、WorkDay等云服务商。
面对新的竞争,Oracle改变策略,开始发展自己的云数据库。
2013年,公司发布新一代产品Oralce12C,产品名中的“C”是云的意思。
整款产品采取云计算设计,考虑到云场景的运用,允许数据库容器存储来自不同数据库系统的数据。
此外,12C加入内存数据库的概念,允许用户跟据情况设置内存容量,提供分析和混合负载OLTP,不仅提供出色的事务处理性能,还支持实时分析、商务智能和报告。
2018年,Oracle发布18C,相比12C,添加了更多功能,如多租户架构节省成本;
使用内存列存储提升实时分析能力;
数据库分片实现大规模Web应用程序的高可用性和增强数据库性能。
18C最大的提升在于自治数据库,利用现有设备优化+数据库自动处理+机器学习提升数据库的性能和可靠性,降低人为失误带来的负面影响。
自治数据库的自动化体现在三个方面:
1)自我运行:
用户完成工作负载设置后,数据库自动实现;
2)自我保护:
同时防止外部攻击和内部攻击。
3)自我修复:
自动修正错误节点并更改数据。
结合Oracle云平台,自治数据库可以完成以往需要专业操作人员才能完成的事务型工作,降低数据库的运行成本,提升数据库的整体性能。
Oracle对国内数据库厂商的启示复盘Oracle的崛起历程,可以发现技术驱动和行业垂直整合是Oracle发展历程最重要的两个因素。
每次行业变革发生时,Oracle始终走在最前面,成为市场的领导者,凭借自身的技术优势和优秀的产品击败对手。
如今,云数据库概念的兴起,行业再次进入到技术变革期。
在这次技术浪潮中,中国厂商与国外厂商一起走在前面,抓住云数据库的发展趋势,有机会实现弯道超车,扩大、巩固行业地位。
此外,行业通过收购方式打造垂直生态链,提供完整解决方案,更有希望获取优势,击败竞争对手。
三、数据库行业的未来
1.数据库行业的发展方向:
云数据库、非关系型数据库、内存数据库与流数据库
云数据库、非关系型数据库、内存数据库、流数据库是当前数据库行业发展方向。
云数据库降低企业成本的同时为企业提供更加方便的云服务;
非关系型数据库在互联网背景下比关系型数据库有更好的表现;
内存数据库更能满足当今企业和用户对快速读取的需求,流数据库在内存数据库的基础上加强数据库的实时分析和流量监控能力。
这四种数据库成为数据库行业的新方向、新动力。
云市场快速增长,数据上云成为趋势。
云数据库并非是一种全新的数据库模型,而是选择以服务的形式向用户提供数据库功能。
不同规模企业对云数据库的需求不同:
对于大型企业,云数据库可以满足海量数据存储需求;
对于中型企业,云数据库可以满足数据存储动态变化的需求;
对于小型企业,云数据库可以满足低成本数据存储的需求。
Gartner认为,数据库的未来必须云化,目前云数据库已为数据库市场的增收贡献一半以上份额。
与传统数据库不断下降的营收相比,云数据库正在积极地快速增长。
到2022年,预计有3/4的数据库天然部署或迁移到云上。
Gartner表示,企业正将新应用向云转移,对数据存储和计算分析的能力要求不断加强。
相比传统数据库,云数据库天然具备灵活性,能够提供强大的创新能力、丰富多样的产品体系、经济高效的部署方式和按需付费的支付模式。
非关系数据库比重提升,关系数据库保持市场主体地位。
近年来,数据增速集中于物联网设备、影音文件、网站日志、社交信息等,这些数据具有海量、低信息密度的特点。
非关系数据库易于扩展、无序存储、分布式架构的特性,相比传统的关系型数据库,更能满足对这些数据的储存需求。
虽然关系数据库的市场份额和增速受到非关系数据库崛起的影响,但关系数据库成熟的体系和完整的生态将持续为CRM、REP和信用卡交易等以结构化数据为主并注重数据安全和一致性的场景提供服务。
数据库行业发展的最新趋势表明,关系数据库和非关系数据库的边界逐渐变得模糊。
NewSQL数据库开始兴起,这类数据库不仅具有非关系数据库对海量数据的存储管理能力、高性能数据处理和易于扩展的特性,还保持了传统关系数据库支持ACID和SQL查询等特性,支持关系数据模型。
一些非关系数据库也发生转变,调整数据结构以支持使用SQL语言查询。
WilliamBlair认为,数据库未来将是把关系数据库和非关系数据库结合,跟据数据结构、使用场景灵活调节,共同为用户服务。
内存数据库得到广泛运用。
随着移动互联网发展,信息系统的互动性日益增强、用户规模不断攀升,催生出一大批高并发、低时延的新兴应用。
基于磁盘存储的数据库受限于磁盘的读写速度,很难满足低时延与高并发的需求。
将数据存储在内存里的内存数据库成为解决传统磁盘数据库问题的主流技术路线。
在电子商务、视频直播、电信计费等对响应速度要求极高的场景下,内存数据库大展身手,进入成熟的商用模式。
根据ResearchandMarket的报告显示,2019年全球内存数据库市场达到41.6亿美元,预计到2025年将增长至118.2亿美元,复合增长率达到19%,远超整体市场每年8%的增长率,市场前景广阔。
流数据库成为新潮流。
在内存数据库中,主打事务处理和实时分析结合的流数据库成为新潮流。
流数据库是指能实时收集、处理、存储流数据(一组顺序、大量、快速、连续到达的数据序列)的数据库。
相比传统数据库分批处理数据,流数据库在对数据完成实时分类、分析、存储等环节,应对海量数据涌入时,仍能保持实时响应和低延迟。
流数据库通常采用内存作为数据存储方式,并采用分布式架构,需要高速处理的数据可异步快速加载到处理集群内存中;
处理集群可轻易地扩展到数百个物理节点,提升处理速度。
流数据库适用于快速响应、实时分析、实时监控等场景。
对于企业,依靠流数据库强大的实时数据反馈与商业智能结合,对终端用户数据监控并迅速做出决策,有效提升运营效率并减少决策时间,更好地在商业竞争中取得优势。
开源数据库成为更多企业的选择。
开源数据库是指源码完全开放,可供大众下载和修改的数据库。
常见的开源数据库有MySQL、PostgreSQL、MongoDB等。
面对价格低廉、性能相等、生态不断完善的开源数据库,昂