大数据技术与应用专业.docx

上传人:b****5 文档编号:3173343 上传时间:2022-11-18 格式:DOCX 页数:12 大小:381.52KB
下载 相关 举报
大数据技术与应用专业.docx_第1页
第1页 / 共12页
大数据技术与应用专业.docx_第2页
第2页 / 共12页
大数据技术与应用专业.docx_第3页
第3页 / 共12页
大数据技术与应用专业.docx_第4页
第4页 / 共12页
大数据技术与应用专业.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

大数据技术与应用专业.docx

《大数据技术与应用专业.docx》由会员分享,可在线阅读,更多相关《大数据技术与应用专业.docx(12页珍藏版)》请在冰豆网上搜索。

大数据技术与应用专业.docx

大数据技术与应用专业

 

大数据技术与应用专业

建设方案

 

北京四合天地科技有限公司

2018年6月

 

1项目背景

行业背景

大数据(bigdata)是指无法在可承受的实践范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托.迈尔.舍恩伯格及肯尼斯.库克编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

麦肯锡提出的大数据4V特点包括:

Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。

由IDC和EMC联合发布的《TheDigitalUniverseofOpportunities:

RichDataandtheIncreasingValueofInternetofThings》研究报告中指出,2011年全球数据总量已达到1.8ZB,并将以每两年翻一番的速度增长,到2020年,全球数据量将达到40ZB,均摊到每个人身上达到5200GB以上。

在“2017年世界电信和信息化社会日大会”上,工信部总工程师张峰指出,我国的数据总量正在以年均50%的速度持续增长,预计到2020年,我国数据总量在全球占比将达到21%。

美国市场研究公司IDC发布的报告称,全球大数据技术和服务市场将在未来几年保持31.7%的年复合增长率,2016年总规模达到238亿美元。

根据中国信息通信院(原工信部电信研究院)发布的《中国大数据发展调查报告(2017)》指出,2016年中国大数据市场规模为168亿元,增速达45%,预计2017~2020年增速保持在30%以上,预计到2020年中国大数据市场规模将达到578亿元。

图1-2:

中国大数据市场对于规模及增速

自2008年以来,我国出台多项规定,促进数据开放共享,引领大数据产业的健康发展。

从行业来看,互联网行业是大数据应用的领跑者,其次,大数据应用水平较高的主要是电信、金融等行业,而医疗、零售、交通、物流等传统行业也逐渐开始进行大数据方面的探索,并且已出现了部分相对成熟的应用类型。

虽然各行业的数字化进程并不均衡,部分传统行业的大数据技术与应用渗透率还较低,但增长空间巨大。

政策导向

自党的十八大以来,我国提出了实施国家大数据战略的重大决策。

国务院和相关部门先后印发了《促进大数据发展行动纲要》、《大数据产业发展规划(2016~2020年)》等指导性文件。

据不完全统计,我国已有20多个省级地方和10余个部委出台了本地区、本行业大数据发展规划,我国大数据发展已经正式驶入快车道。

2015年9月5日经李克强总理签批,国务院日前印发《促进大数据发展行动纲要》(以下简称《纲要》),系统指导我国大数据发展的国家。

顶层设计和总体部署大数据发展工作。

《纲要》提出从政府大数据、新兴产业大数据、安全保障体系三个方面着手推进大数据领域十大工程建设,将我国大数据发展推向了另一个制高点。

同时,《纲要》中明确指出,要加强专业人才培养,创新人才培养模式,建立健全多层次、多类型的大数据人才培养体系。

鼓励采取跨校联合培养等方式开展跨学科大数据综合型人才培养,鼓励高等院校、职业院校和企业合作,加强职业技能人才实践培养,积极培育大数据技术和应用创新型人才。

依托社会化教育资源,开展大数据知识普及和教育培训,提高社会整体认知和应用水平。

2015年10月,国务院中华人民共和国国民经济和社会发展第十三个五年规划纲要(简称“十三五”规划(2016~2020))中提出:

“实施国家大数据战略,推进数据资源开放共享。

”、“未来五年信息化建设将重点实施网络强国战略,实施国家大数据战略。

”将我国大数据上升到国家战略层面。

2015年是大数据政策顶层设计年,2016年是大数据政策细化落地年。

国家发改委、环保部、工信部、国家林业局、农业部等均推出大数据发展意见和方案。

大数据政策从全面、总体规划逐渐向各大行业、各细分领域延伸,大数据发展也逐步从理论研究步入实际应用之路。

文件名称

发文单位

发文日期

《大数据产业发展规划(2016~2020)》

工信部

2016.12.30

《农业农村大数据试点方案》

农业部

2016.10.14

《关于推进全国发展改革系统大数据工作的指导意见》

国家发改委

2016.09.09

《关于推进交通运输行业数据资源开发共享的实施意见》

交通部

2016.09.02

《关于加快中国林业大数据发展的指导意见》

林业局

2016.07.13

《促进国土资源大数据应用发展实施意见》

国土资源部

2016.07.04

《关于促进和规范健康医疗大数据应用发展的指导意见》

国务院办公厅

2016.06.24

《促进大数据发展三年工作方案(2016~2018)》

国家发改委等部委

2016.04.13

《生态环境大数据建设总体方案》

环保部

2016.03.08

国家林业局落实《促进大数据发展行动纲要》的三年工作方案

林业局

2016.02.24

表1-12016年中央及部委大数据领域最受关注的十大政策

2016年,各省市相继出台相关政策举措,强调研发及公共领域的大数据应用,促进相关政策法规的完善;重视通过大数据引领产业转型升级,与企业合作共建地区大数据生态;建立大数据基地,吸纳优秀企业、人才落户扎根。

伴随着宏观政策环境的逐步完善,我国大数据产业正在茁壮发展。

2人才培养方案

行业人才需求

美国人才招聘市场的数据分析领先者WANTEDAnalytics和Forbes对来自150个国家的10亿个岗位信息进行了统计,基于“数据分析”、“数据采集”、“数据挖掘”和“数据结构”四项技能的大数据专业人才市场需求分析,在对过去12个月美国就业市场“大数据”相关岗位的分析中发现:

需要“大数据”技能的岗位空缺呈现高速增长,其中“大数据”解决方案的销售人员、计算机系统分析师、管理分析师、IT项目经理和信息安全分析师岗位的增幅都在100%以上,这一增长趋势也将延续到2016年。

麦肯锡全球研究所(MGI)和麦肯锡商业技术办公室在对医疗、公共、零售、制造业和个人定位等五个领域内详细研究了大数据发展趋势后发布的研究报告预测:

由于大数据的引入,会造成信息分析人才的缺乏,预计到2018年,仅美国就需要14~19万信息分析专业人才以及150万懂得大数据的管理人员和分析师。

大数据不仅提高了产业价值,还能够大幅度的拉动就业。

国外著名职业人士社交网站LinkIn对全球超过3.3亿用户的工作经历和技能进行分析并公布了最炙手可热的25项技能中,统计分析和数据挖掘技能位列榜首。

根据中国信息通信院(原工信部电信研究院)发布的《中国大数据发展调查报告(2017)》中指出,超过三分之一的受访企业认为数据人才短缺是企业发展大数据所面临的主要问题之一。

图2-1制约企业大数据发展的主要因素

国家信息中心和南海大数据应用研究院联合发布的《2017中国大数据发展报告》显示,数据分析、系统研发等技术类岗位大多供不应求,数据分析类岗位工作机会最丰富,虽然求职人数占比第一,但人才供给仍然相对不足。

图1-4大数据岗位招聘、求职人数统计图

我国大数据产品正处于起步阶段,市场对技能型、操作性的人才需求相对较高,从统计数据上看,大数据行业求职者学历与招聘需求出现错位,主要表现为大专的招聘需求高于求职者占比,而硕士以上的需求则正好相反。

图1-4大数据岗位招聘、求职学历要求统计图

为了适应大数据产业的快速发展,2016年9月,教育部向普通高等学校、高等职业教育(专科)专业目录增补13个专业,其中就包括大数据技术与应用专业(专业代码610215)。

大数据技术与应用是一门多学科融合的交叉学科,高职院校应从应用型、技能型角度建设大数据学科方向的课程体系与学生培养方案。

提高学生的学科交叉能力、实践能力和创新创业能力。

适应我国经济体制转轨、产业结构调整和高新技术发展的需要,培养出企业和社会急需的创新型、实用型、复合型人才。

从教学体系建设上,应体现“应用”二字,其核心是实践教学,重点引导学生将科学知识应用于实践工作中,对已有科学知识与技术进行创新并直接应用于社会生产活动,提高自身的创新创业能力。

大数据岗位设置

根据对大数据行业市场需求的深度调研,结合国内外大数据行业人才需求的实际情况分析,依据学生对于大数据相关软件工具以及数据分析及建模方法的掌握情况,主要以下几个类型的岗位:

Hadoop运维工程师

作为大数据产业下的一个新型职位,Hadoop运维工程师是大数据系统稳定运行最重要的保障,其主要职责是维护高性能的Hadoop分布式数据存储系统,并为业务系统提供稳定的数据访问服务,开发新接口和维护原有系统。

由于Hadoop技术生态组件绝大部分是由Java语言实现并且基于Linux操作系统运行的,对于该职位来说,首要要精通Java编程和Linux操作系统;其次要精通Map/Reduce运行机制、Hadoop集群的硬件资源(CPU、内存、存储)配置与管理、Hadoop各组件(如HDFS、Hive、HBase、Impala等)的运行原理、集群组件监控、集群节点故障解决方案等;另外还需要懂得如何保证数据安全、数据存储效率、计算效率、运维效率的优化与提高等。

如果觉得Hadoop集群的性能差时,绝大部分责任是运维工程师对Hadoop的了解太少,Hadoop的效率没有被发挥出来。

大数据开发工程师

大数据相关的技术组件包括分布式存储(结构化与非结构化)、缓存、查询、计算(实时与离线)、监控与管理、资源调度等,为了保障各技术开发的专业性,一般以开发工作的内容进行划分:

Hadoop开发工程师(离线计算)、实时计算工程师、数据处理工程师、文本挖掘工程师(非结构化数据处理)等。

Hadoop开发工程师需要精通包括:

HDFS、HBase、Hive、Impala、Zookeeper、YARN、Map/Reduce等在内的所有组件部署、调优与开发。

Hadoop技术应用广泛,开发过程中还会涉及Hadoop版本的快速迭代升级,需要和Hadoop运维工程师协同开展工作。

实时计算所涉及的技术包括Spark、Storm两大核心组件,而Spark与Storm组件的开发语言都各自不尽相同,这无疑大大增加了实时计算工程师的开发难度,除了精通Java之外,还必须精通Scala(Spark是由Scala写成)、SparkSQL和SparkStreaming。

以上技术都是针对结构化和半结构化数据的开发处理,非结构化数据的开发处理一直都是相对更繁琐的工作。

比如,文本挖掘工程师的工作是对非结构化数据进行抽取、解析、建立全文索引等,使非结构化数据转化为有价值的结构化或半结构化数据。

数据处理工程师主要负责分布式存储与计算平台中的数据处理与传输,承担着“数据搬运工”的角色,不管是结构化或半结构化数据还是非结构化数据,一般都会使用到Kafka或MQ等组件进行数据的解析与传输。

数据采集工程师

数据采集工程师的主要职责是收集和处理海量原始数据,工作内容包括:

脚本编写、网页获取、调用APIs、编写SQL查询等。

由于数据源的存储及展现方式不同,数据采集分为外部数据采集和内部数据采集,外部数据采集通常指的是互联网网页采集(也称网络爬虫),工作任务是通过搜索引擎网络爬虫相关技术和正则表达式,从抓取下来的HTML页面数据中提取网页数据信息,这要求工程师必须精通互联网内容搜索产品(例如XX、谷歌)的设计和架构,熟悉搜索引擎、互联网网页及反爬虫技术的工作原理,熟悉Linux操作系统,具备搜索引擎开发的研究能力,使用到的开源技术工具有:

Nutch、Heritrix、larbin、HtmlParse、Scrapy、Lucene等。

内部数据采集是指存储在

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1