ImageVerifierCode 换一换
格式:PPTX , 页数:99 ,大小:17.98MB ,
资源ID:1017882      下载积分:2 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/1017882.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据及其在税务中的应用.pptx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据及其在税务中的应用.pptx

1、大数据及其在税务中的应用,2016.10,安徽工程大学计算机与信息学院,主要内容,大数据的概念与技术,第一章,3,让我们先看看“大数据时代”,一段小视频,4,大数据的概念与技术,第一章,5,数据爆炸式增长(每分钟),6,数据的爆炸式增长,想驾驭这庞大的数据,我们必须了解”大数据”,地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)!,1PB(拍字节)=250字节1EB(艾字节)=260字

2、节1ZB(泽字节)=270字节,7,让我们来认识什么是“大数据”,一段小视频,8,20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data,2011年5 月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念,Big Data名词由来,2011年6月,美国咨询界的翘楚麦肯锡咨询公司发布了大数据:下一个竞争、创新和生产力的前沿领域的研究报告,首次向学界以外的领域推出大数据的概念。,9,可采集可衡量,价值,人的行为活动,生理行为,自然属性,社会属性,交易行为,文化行为,信仰行为,个体行为,家庭行为,群体行为,企业经营活动,研

3、发,服务,营销推广,物流,采购,生产,销售,交易活动,交互活动,多样性 相关性,PC互联网,移动互联网,物联网,数据获取通道,大数据的来源,“看”数据的不同方式,可视:结构化资料 15%,未视:半/非结构化数据 85%,DB/DW,主管们看的战情数位仪表板,其实是残缺的,11,大数据=海量数据+复杂类型的数据,海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括:交易数据和交互数据集在内的所有数据集,海量交互数据:源于Facebook、Twitter、LinkedI

4、n及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。,海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,大数据的构成,10万 GB,10万 TB,需要更高性价比的数据计算与储存方式,数据库,数据仓库,计算更快 存储更省,14,大数据=海量数据+复杂类型数据,增长如此之块,以至于难以使用现有的数据库管理工具

5、来驾驭,困难在于数据的获取、存贮、搜索、共享、分析和可视化等方面,大数据的定义,数据量,复杂性:种类和速度,销量,库存,薪酬表,客户信息,合约,ERP/CRM,WEB2.0,广告,博客,搜索营销,文本/图像,网络日志,大数据,社会情绪,音频/视频,传感器,RFID,维基/博客,微博,金融信息,个人数据,位置信息,政府信息,气象数据,保险信息,EBPBTBGB,维基的大数据定义,任何超过一台计算机处理能力的庞大数据量,亚马逊的大数据定义,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产,Informatica的大数据定义,大数据=交易数据+互动数

6、据+观测数据,中国电信的大数据定义,百度的大数据定义,如果自然界中的事件完全不可预测地随机发生,人们的生活将无法忍受;与此相反,如果每一件事情都是确定的、完全可以预测的,则生活将是无趣的。利用因果关系解释观测的现象或预测未来存在逻辑和实际上的困难。,对大数据的理性认知,美C.R 劳,与传统比较,大数据的分析处理的核心是预测和推断,根本的变革在于不刻意追求因果关系,而更多关注相关关系。也就是说,只要知道和什么有关,而不必强求为什么有关。,英舍恩伯格,大数据时代来临,使人类第一次有机会和条件在非常多和非常深入的层次获得和使用全面数据、完整数据和系统数据,简而言之就是样本=总体。,英舍恩伯格,大数据

7、为政府统计提供了总体性、非结构化、丰富真实的原始资料,可以极大地缩短数据采集时间,减少报表填报任务,减轻调查对象负担,提高统计数据质量。,国家统计局 马建堂,大数据,也叫全局数据、总体数据,数据量越大其预测和推断的准确性越高,大数据市场分析,中央政府对大数据的重视程度,18,大数据上升为国家战略,大数据的概念与技术,第一章,20,大数据的4V特征,Big Data大数据,21,大数据的4V特征(Volume),1Byte,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,22,Social Media,Machine/Sensor,DOC/Media,Web Clickstrea

8、m,Apps,Call Log,Log,半结构化/非结构化数据,大数据的4V特征(Variety),23,大数据的4V特征(Variety),24,大数据的4V特征(Velocity),25,大数据的4V特征(Value),挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息价值密度低,是大数据的一个典型特征,大数据不仅仅是技术,关键是产生价值可以从各个层面进行优化,更要考虑整体,26,大数据带来的思维变革(更多),27,大数据带来的思维变革(更杂),从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性。,大数据的简单算法比小数据的

9、复杂算法更有效IBM的机器翻译 VS Google的机器翻译纷繁的数据越多越好大数据时代要求我们重新审视数据精确性的优略大数据不仅让我们不再期待精确性,也让我们无法实现精确性错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在混杂性,不是竭力避免,而是标准途径,28,大数据带来的思维变革(更好),Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”,29,更好不是因果关系而

10、是相关关系,更多不是随机样本而是全部数据,更杂不是精确性而是混杂性,大数据带来的思维变革,30,大数据的概念与技术,第一章,31,先让我们看看大数据处理应用过程,一段小视频,32,待处理的数据,数据规模,大(以GB、TB、PB为处理单位),小(以MB为处理单位),数据类型,繁多(结构化、半结构化、非结构化),单一(结构化为主),模式和数据的关系,先有数据后有模式,模式随数据增多演变,先有模式后有数据(先有池塘后有鱼),处理对象,“鱼”通过某些鱼判断其他鱼是否存在,数据(池塘中的鱼),数据库(池塘捕鱼),大数据(大海捕鱼),大数据涉及的关键技术,34,基于SQL语言:面对OLAP的传统行和列,不

11、基于SQL或map-reduce的:由谷歌率先发起,数据流:基于运行商数据直接生成任意图形,数据入口/汇聚,数据平台,分析,传统交付模式-单片或基于设备的解决方案,云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-Forrester analyst Jim Kobielus,大数据涉及的关键技术,35,大数据处理技术特征,数据无限分而治之,功能有限复制分发,大数据的分析模型,研究对象由组织、用户、大数据和工具构成的运行系统研究内容大数据的构成 大数据的行为 大数据的行为和数据的组织研究方法知识工程解构大数据系统研发

12、工程支撑大数据系统价值工程牵引大数据系统研究目标大数据生产平台大数据开发平台大数据采集平台大数据应用平台研究重点数据分而治之资源组织调度逻辑复制迁移,为什么,是什么,怎么做,云计算与大数据,大数据应用运行在云平台之上,如果数据是财富,那么大数据就是宝藏;云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的存储和积淀,云计算也只能是杀鸡用的宰牛刀!,38,什么是云计算(一段小视频),Hadoop平台,Hadoop是基于Google有关大数据的论文的开源项目,最初的框架由Doug Cutting在2005年提出,目前是由Apache维护的开源项目。从初创到现在,H

13、adoop体系在10多年中开发完成了一系列重要的子项目,已经形成一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。,一段视频介绍Hadoop的诞生与发展,39,Hadoop平台,HDFS分布式文件系统,存储大数据,如同大坝前用于蓄水的水库(大坝发电前先要蓄水),40,Hadoop平台,HBase,实时、分布式、高纬数据库,对数据快速读取。(弱水三千、只取一瓢),41,Hadoop平台,MapReduce,分布式计算框架,实现数据并行处理(一头牛拖不动,多头牛一起拖),42,Hadoop平台,Hive,数据仓库,支持提取、查询、

14、分析(英文意为:蜂房,如同在大数据花园中采集花粉酿制蜂蜜),43,Hadoop平台,Pig,数据流处理语言,提供编程接口(猪,懒惰而又浑身是宝,伸伸懒腰,不用费九牛二虎之力就能完成所需的数据操作),44,Hadoop平台,Mahout,数据挖掘(英文原意:骑象人,驯象人。分布式机器学习算法的集合),45,Hadoop平台,Flume,日志收集工具(英文原意:水管,日志数据如同水管中的涓涓细流汇集到大数据平台),46,Hadoop平台,Sqoop,关系数据ETL工具(数据搬运工,完成外部数据和大数据平台中的数据的“搬运”),Hadoop平台,ZooKeeper,分布式协作服务(英文原意:动物园管

15、理员),48,大数据带来的机遇与挑战,第二章,49,大数据改变生活,50,。,大数据对政府、金融机构、企业来说,象空气一样不可或缺!,让我们先看看一些生活中的例子,一段小视频,51,消费大数据,52,亚马逊“预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会

16、暂存在快递公司的转运中心或卡车里。亚马逊为了决定要运送哪些货物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。,大数据+政治,53,奥巴马大选中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。在大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。“Twitter的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是59,而罗姆尼的只有53,证监会大数据,54,回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达300个。实际上,早在2009年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。而此次在马乐案中亮相的深交所的“大数据”监测系统,更是引起了

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1