大数据及其在税务中和应用V(Pages).ppt
《大数据及其在税务中和应用V(Pages).ppt》由会员分享,可在线阅读,更多相关《大数据及其在税务中和应用V(Pages).ppt(99页珍藏版)》请在冰豆网上搜索。
大数据及其在税务中的应用,2016.10,安徽工程大学计算机与信息学院,主要内容,大数据的概念与技术,第一章,3,让我们先看看“大数据时代”,一段小视频,4,大数据的概念与技术,第一章,5,数据爆炸式增长(每分钟),6,数据的爆炸式增长,想驾驭这庞大的数据,我们必须了解”大数据”,地球上至今总共的数据量:
在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。
而有市场研究机构预测:
到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!
1PB(拍字节)=250字节1EB(艾字节)=260字节1ZB(泽字节)=270字节,7,让我们来认识什么是“大数据”,一段小视频,8,20世纪90年代,数据仓库之父的BillInmon就经常提及BigData,2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念,BigData名词由来,2011年6月,美国咨询界的翘楚麦肯锡咨询公司发布了大数据:
下一个竞争、创新和生产力的前沿领域的研究报告,首次向学界以外的领域推出大数据的概念。
9,可采集可衡量,价值,人的行为活动,生理行为,自然属性,社会属性,交易行为,文化行为,信仰行为,个体行为,家庭行为,群体行为,企业经营活动,研发,服务,营销推广,物流,采购,生产,销售,交易活动,交互活动,多样性相关性,PC互联网,移动互联网,物联网,数据获取通道,大数据的来源,“看”数据的不同方式,可视:
结构化资料15%,未视:
半/非结构化数据85%,DB/DW,主管们看的战情数位仪表板,其实是残缺的,11,大数据=海量数据+复杂类型的数据,海量交易数据:
企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。
通过这些数据,我们能了解过去发生了什么。
大数据包括:
交易数据和交互数据集在内的所有数据集,海量交互数据:
源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。
它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。
可以告诉我们未来会发生什么。
海量数据处理:
大数据的涌现已经催生出了设计用于数据密集型处理的架构。
例如具有开放源码、在商品硬件群中运行的ApacheHadoop。
大数据的构成,10万GB,10万TB,需要更高性价比的数据计算与储存方式,数据库,数据仓库,计算更快存储更省,14,大数据=海量数据+复杂类型数据,增长如此之块,以至于难以使用现有的数据库管理工具来驾驭,困难在于数据的获取、存贮、搜索、共享、分析和可视化等方面,大数据的定义,数据量,复杂性:
种类和速度,销量,库存,薪酬表,客户信息,合约,ERP/CRM,WEB2.0,广告,博客,搜索营销,文本/图像,网络日志,大数据,社会情绪,音频/视频,传感器,RFID,维基/博客,微博,金融信息,个人数据,位置信息,政府信息,气象数据,保险信息,EBPBTBGB,维基的大数据定义,任何超过一台计算机处理能力的庞大数据量,亚马逊的大数据定义,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产,Informatica的大数据定义,大数据=交易数据+互动数据+观测数据,中国电信的大数据定义,百度的大数据定义,如果自然界中的事件完全不可预测地随机发生,人们的生活将无法忍受;与此相反,如果每一件事情都是确定的、完全可以预测的,则生活将是无趣的。
利用因果关系解释观测的现象或预测未来存在逻辑和实际上的困难。
对大数据的理性认知,美C.R劳,与传统比较,大数据的分析处理的核心是预测和推断,根本的变革在于不刻意追求因果关系,而更多关注相关关系。
也就是说,只要知道和什么有关,而不必强求为什么有关。
英舍恩伯格,大数据时代来临,使人类第一次有机会和条件在非常多和非常深入的层次获得和使用全面数据、完整数据和系统数据,简而言之就是样本=总体。
英舍恩伯格,大数据为政府统计提供了总体性、非结构化、丰富真实的原始资料,可以极大地缩短数据采集时间,减少报表填报任务,减轻调查对象负担,提高统计数据质量。
国家统计局马建堂,大数据,也叫全局数据、总体数据,数据量越大其预测和推断的准确性越高,大数据市场分析,中央政府对大数据的重视程度,18,大数据上升为国家战略,大数据的概念与技术,第一章,20,大数据的4V特征,BigData大数据,21,大数据的4V特征(Volume),1Byte,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,22,SocialMedia,Machine/Sensor,DOC/Media,WebClickstream,Apps,CallLog,Log,半结构化/非结构化数据,大数据的4V特征(Variety),23,大数据的4V特征(Variety),24,大数据的4V特征(Velocity),25,大数据的4V特征(Value),挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息价值密度低,是大数据的一个典型特征,大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体,26,大数据带来的思维变革(更多),27,大数据带来的思维变革(更杂),从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性。
大数据的简单算法比小数据的复杂算法更有效IBM的机器翻译VSGoogle的机器翻译纷繁的数据越多越好大数据时代要求我们重新审视数据精确性的优略大数据不仅让我们不再期待精确性,也让我们无法实现精确性错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在混杂性,不是竭力避免,而是标准途径,28,大数据带来的思维变革(更好),Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。
为什么?
探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?
”,29,更好不是因果关系而是相关关系,更多不是随机样本而是全部数据,更杂不是精确性而是混杂性,大数据带来的思维变革,30,大数据的概念与技术,第一章,31,先让我们看看大数据处理应用过程,一段小视频,32,待处理的数据,数据规模,大(以GB、TB、PB为处理单位),小(以MB为处理单位),数据类型,繁多(结构化、半结构化、非结构化),单一(结构化为主),模式和数据的关系,先有数据后有模式,模式随数据增多演变,先有模式后有数据(先有池塘后有鱼),处理对象,“鱼”通过某些鱼判断其他鱼是否存在,数据(池塘中的鱼),数据库(池塘捕鱼),大数据(大海捕鱼),大数据涉及的关键技术,34,基于SQL语言:
面对OLAP的传统行和列,不基于SQL或map-reduce的:
由谷歌率先发起,数据流:
基于运行商数据直接生成任意图形,数据入口/汇聚,数据平台,分析,传统交付模式-单片或基于设备的解决方案,云:
能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。
”-ForresteranalystJimKobielus,大数据涉及的关键技术,35,大数据处理技术特征,数据无限分而治之,功能有限复制分发,大数据的分析模型,研究对象由组织、用户、大数据和工具构成的运行系统研究内容大数据的构成大数据的行为大数据的行为和数据的组织研究方法知识工程解构大数据系统研发工程支撑大数据系统价值工程牵引大数据系统研究目标大数据生产平台大数据开发平台大数据采集平台大数据应用平台研究重点数据分而治之资源组织调度逻辑复制迁移,为什么,是什么,怎么做,云计算与大数据,大数据应用运行在云平台之上,如果数据是财富,那么大数据就是宝藏;云计算就是挖掘和利用宝藏的利器!
没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的存储和积淀,云计算也只能是杀鸡用的宰牛刀!
38,什么是云计算(一段小视频),Hadoop平台,Hadoop是基于Google有关大数据的论文的开源项目,最初的框架由DougCutting在2005年提出,目前是由Apache维护的开源项目。
从初创到现在,Hadoop体系在10多年中开发完成了一系列重要的子项目,已经形成一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。
一段视频介绍Hadoop的诞生与发展,39,Hadoop平台,HDFS分布式文件系统,存储大数据,如同大坝前用于蓄水的水库(大坝发电前先要蓄水),40,Hadoop平台,HBase,实时、分布式、高纬数据库,对数据快速读取。
(弱水三千、只取一瓢),41,Hadoop平台,MapReduce,分布式计算框架,实现数据并行处理(一头牛拖不动,多头牛一起拖),42,Hadoop平台,Hive,数据仓库,支持提取、查询、分析(英文意为:
蜂房,如同在大数据花园中采集花粉酿制蜂蜜),43,Hadoop平台,Pig,数据流处理语言,提供编程接口(猪,懒惰而又浑身是宝,伸伸懒腰,不用费九牛二虎之力就能完成所需的数据操作),44,Hadoop平台,Mahout,数据挖掘(英文原意:
骑象人,驯象人。
分布式机器学习算法的集合),45,Hadoop平台,Flume,日志收集工具(英文原意:
水管,日志数据如同水管中的涓涓细流汇集到大数据平台),46,Hadoop平台,Sqoop,关系数据ETL工具(数据搬运工,完成外部数据和大数据平台中的数据的“搬运”),Hadoop平台,ZooKeeper,分布式协作服务(英文原意:
动物园管理员),48,大数据带来的机遇与挑战,第二章,49,大数据改变生活,50,。
大数据对政府、金融机构、企业来说,象空气一样不可或缺!
让我们先看看一些生活中的例子,一段小视频,51,消费大数据,52,亚马逊“预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。
这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。
从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。
所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。
根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。
亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。
大数据+政治,53,奥巴马大选中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。
在大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。
利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。
比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。
“Twitter的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。
奥巴马积极的情绪指数是59,而罗姆尼的只有53,证监会大数据,54,回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。
深交所此前通过“大数据”查出的可疑账户高达300个。
实际上,早在2009年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。
通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。
而此次在马乐案中亮相的深交所的“大数据”监测系统,更是引起了