大数据分析课件.pptx
《大数据分析课件.pptx》由会员分享,可在线阅读,更多相关《大数据分析课件.pptx(211页珍藏版)》请在冰豆网上搜索。
第一章第一章大数据与大数据与可可视视化背景介化背景介绍绍BigData&DataVisualization大数据的定义与本质0102大数据的分析方法可视化是什么03目录可视化发展历史04“大数据是以容量大、容量大、类类型多、型多、存存取速度快、取速度快、应应用价用价值值高高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。
”第一章-基础知识大数据定义2018年中国大数据产业发展水平评估报告的定义是:
第一章-基础知识大数据的体量很大大数据的体量很大主要特征单单位位含含义义Byte字节,计算机存储信息的基本单位.一个汉字或字母根据不同的编码方式,可能会占1到4个字节。
KB一篇作文约3KB。
MB一首歌约4MB。
GB一部电影约2GB。
TB一台家用电脑的硬盘约1TB。
中国国家图书馆的印刷版图书馆藏约10TB。
PB谷歌一小时数据处理量约1PB。
EB美国2021年即将建成的Frontierexascale超级计算机的存储能力约1EB。
ZB英特尔预测,2020年中国数据总量将达到8ZB,约占全球五分之一。
大数据的大数据的类型多型多样主要特征文本、网页、图像、音视频等非结构化数据占数据增长的绝大多数第一章-基础知识大数据的大数据的处处理速度要求高理速度要求高主要特征数亿级的广告服务都要在0.5s内完成依赖Hadoop、Spark等大数据技术框架第一章-基础知识大数据的本大数据的本质质大数据的本质是利用全部原始数据解决问题的思维方式取取样统计样统计学有缺陷学有缺陷:
样本选取带来信息损失数据获取带有认知偏见第一章-基础知识古代也有大数据的思想古代也有大数据的思想盛宣怀依靠对电电报报、文文稿稿、信信札札、账账册册甚至是菜单等各类文档的存档,分析情报了解对手,从而完成了对政敌胡雪岩的精准商业狙击。
至其死后,盛氏图书馆保存了大量的珍贵资料,被称作“盛档”。
其中一大部分如今存于上海图书馆,统计17万余件,1亿多字。
第一章-基础知识大数据的分析方法大数据的分析方法统计统计:
统计学是研究不确定现象规律性的学科。
统计学的基本研究过程可以分为抽取样本、描述统计和统计推断三部分。
数数据据挖挖掘掘:
数据挖掘是通过探测大型数据库来发现先前未知,或者对未来进行预测的。
数据挖掘的常见任务有以下几种:
预测建模、聚类分析、关联分析、异常检测。
人人工工智智能能:
人工智能是关于智能主体的研究与设计的学问,其中“智能主体”是指一个可以观察周遭环境并做出行动以实现某个目标的系统。
通俗而言,我们可以简单认为人工智能就是机器学习,即让机器学习数据,并利用所习得知识解决某个具体问题。
经第一章-基础知识我我们现们现在在拥拥有利用大数据的成熟能力有利用大数据的成熟能力谷歌文件系统GFS01MapReduceb编程模型02BigTable非关系数据库03基础电子产业发展带来的计算机算力提升,网络通讯技术飞跃引发的信息爆炸,分布式计算提供的优秀解决方案:
通过连接很多性能一般的机器来构建整体性能强大的系统00大数据不是大数据不是风风口,是生口,是生产产材料材料大数据不仅可以用在电商、广告、政务、金融这些成熟而易于取得成就的地方,大数据也完全适用于种植、养殖、制造、餐饮等传统行业。
大数据是一种思维变革,就像我们一定会使用电子设备来取代纸质材料记录生产、销售进购、人力等信息,这些记录下来的信息也一定会发挥其更深层次的价值。
大数据不是大数据不是风风口,是生口,是生产产材料材料只是需要有更多大数据行业的人才,真正专注的进入一些传统的领域中,去理解那个领域的问题,找出解决方案来。
这个过程就如同计算机一开始带来的信息化一样,是一个缓慢渗透的过程。
这些过程需要时间,热钱在这里会碰壁,但有耐心挖掘的人可以找到真正有价值的,能推动生产力发展的东西可可视视化概述化概述-视觉视觉是人是人类类最最发发达的感达的感觉觉系系统统视觉是人类获取信息最重要的通道,超过50%的人脑功能用于视觉的感知。
数数据据可可视视化化技技术术,就是利用人眼的感知能力,对数据进行交互的可视表达,以增强认知的技术。
人的视觉系统可以接收视觉信息,并完成将画面认知为物体、发现颜色不同或正在运动的物体、联想到物体背后的象征意义甚至是文字理解等抽象思考我们可以把没有形体的数据、文字和概念变成图像来帮助我们理解。
可可视视化化观观察察四个二维数据点集四个点集的均值、方差、线性回归方程等统计特征均一致,但画出散点图,差别一目了然可可视视化理解化理解勾股定理可可视视化分析化分析“鬼图”画病例位置图找出传染源:
病例最集中区域的一口水井第一章-基础知识可可视视化化应应用用如今可视化最主流、最成熟的应用方向莫过于商业智能(BusinessIntelligence,BI),即利用数据仓库、数据挖掘和数据展示,辅助进行商业决策,以最大化预期的商业价值。
另一个常见的应用领域是新闻行业。
当下,新闻从业者需要使用直观而又精致的图表,将重要的信息迅速地传递给读者。
大屏展示也是可视化一个重要的应用。
可可视视化表达化表达“南丁格尔玫瑰图”利用优美而放大差异的图表打动政客统计图统计图表的萌芽表的萌芽七个天体的运行轨迹托莱多到罗马之间的12个经度差异利用等磁线可视化地球磁场地地图绘图绘制的突破制的突破EdmondHalley(1656-1742),著名天文学家,哈雷彗星轨道计算者。
他第一个将具有三维空间属性的物理量表现在了地图上,开创了新的可视化表达。
地球主流风场分布苏格兰一年间的进出口贸易情况统计统计制制图图的正式出的正式出现现WilliamPlayfair(1759-1823),统计图形学奠基人,坚信图表比数据更有说服力,发明了折线图、柱状图、饼状图等最常用的基本统计图形,找到了具象表现数据结构的方式。
英格兰同丹麦和挪威进出口的贸易规模在地在地图图上表示社会学信息上表示社会学信息个人作品,1826年法国男爵CharlesDupin发明了在地图上使用连续的黑白底纹来显示法国识字程度分布情况的方法。
国家出版的地图集”AlbumsdeStatistiqueGraphique”中包含了大量国家发展规划相关数据图,这里是法国各省1801-1881年每五年的人口变化。
优优秀的可秀的可视视化化设计设计优秀的可视化作品是信息表达和艺术的完美结合,将长久的影响人们使用图像表达想法的思维方式。
CharlesJosephMinard是一位一生都在不断努力将可视化应用于工程和统计的法国工程师。
他于1869年初版了下面这幅流地图作品拿破仑1812远征图。
在二维图上表现了法军部队规模、地理坐标、前进撤退方向、抵达某处的时间、撤退路上的温度。
丰富的信息被巧妙的安排在同一张图上,呈现出极强的表现力。
拿破仑1812远征图优优秀的可秀的可视视化化设计设计伦伦敦地敦地铁铁图图在以前,地铁图一直是直接画在真实地图上的。
1933年HenryBeck设计了一副新的伦敦地铁图,立足于一个站在地铁站内的乘客的视角,关注最重要的问题,摒弃了包含无用地理信息的真实路线,用平直的线段和等距的节点使得地铁信息变得简明易用,扁平化的视觉效果跨越了时代,可谓是可视化的一次典范设计。
可可视视化分析作用愈化分析作用愈显显Hertzsprung-Russell图图Hertzsprung-Russell图(Hertzsprung,1911),作为温度函数的恒星亮度的对数图,解释了恒星的演化,成为现代天体物理的奠基之一。
JacquesBertin(19182010),法国制图师和图形理论家。
1967年,他出版了一部里程碑式的著作,SemiologieGraphique。
这部书根据数据的联系和特征,来组织图形的视觉元素,为信息的可视化提供了一个坚实的理论基础。
可可视视化成化成为为独立学科独立学科可可视视化和大数据有天生的契合化和大数据有天生的契合大数据就是大量的、各种类型的原始数据,对这些数据进行详细的分析是一件困难而昂贵的事情,但是如果我们对其进行可视化处理,利用人脑对图像的天然敏感性来辅助分析,再去验证,无疑提高了处理的效率,降低了成本。
随着技术的发展,人人都可以利用大数据来发现洞见,辅助自己的决策。
第二章第二章数据数据预处预处理理DataPreparation数据获取的方式0102网络爬虫数据处理的类型03目录数据清洗04数据数据获获取的几种方式取的几种方式传感器感受被测量的信息,并将之按一定规律变换成为电信号或其他所需形式的信息日志文件在软件系统的运行过程中,记录用户操作和系统运行状态的文件。
网络爬虫按照一定规则,自动地抓取万维网信息的程序或者脚本。
爬虫爬虫类类型型定定义义特特定定通用爬虫不加区分的下载目标网页及其链接的所有网页到本地,形成一个互联网内容的镜像备份关键字搜索,高覆盖率,简单信息冗余,效率低下,只能下载网页聚焦爬虫通过定义网网页重要性使爬虫有目的的下载网页节省硬件和网络资源,易于满足特定需求增量式爬虫对已下载的网页进行增量式更新,并只爬取新产生或者有变化的网站减少下载量并及时更新,提高了空间和时间效率增加了算法复杂度和实现难度深层页面爬虫爬取那些无法用静态链接获取的、需要完成特定用户操作才能触达的深层页面(如注册可见的内容)深层页面包含远比表层页面更多更有价值的数据常常见见的网的网络络爬虫爬虫类类型型爬虫的工作流程爬虫的工作流程一.输输入要爬取入要爬取的的URL(统一资源定位符,UniformResourceLocator),如:
爬取豆瓣电影排行TOP250(URL:
http:
/localhost/cache/8130101044005030/png/top250)读读取取URL,解析DNS,并且得到主机IP,并将URL对应的网页下载下来。
解析网解析网页页,从已经下载的网页数据中分离出所需要的、有价值的信息、以及新的待爬的URL。
对于新的URL,有些爬虫会使用,进而获取更多的数据,而有些爬虫会忽略新的URL只抓取目标URL。
抓取目抓取目标标数据数据。
二.三.四.已下载的网页内容网页数据URL、Herf、String等目标数据URLURL输入读取URL网页下载解析网页请求响应客户端服务器一段简单的Python语言urllib模块代码参数GETPOST包含在URL中通过requestbody传递参数缓存能被缓存不能缓存对数据长度的限制发送数据时GET请求向URL添加数据,URL最大长度2048个字符无限制对数据类型的限制ASCII字符无限制安全性较差,因为发送数据在URL中体现比GET安全,请求数据不会被保存在浏览器历史和web日志中TCP一个TCP数据包把http,header和data一并发送两个TCP数据包,先发送header服务器响应后,再发送data。
Python是一门高级编程语言,其代码具有简洁的语法和优秀的可读性。
这使得初学者只要可以读懂英文,基本就可以读懂代码的含义,也使得Python在完成相同任务时往往只需要更少的代码行数。
Python有氛围良好的线上社区,并且在Web应用、游戏、数据分析、可视化等诸多领域已经建立了丰富的开源库。
各式的开源库能够大大简化编程的工作量,把更多的精力留给独创性工作。
网网络络爬虫爬虫实现实现Python语语言言BeautifulSoup是一个可以支持使用HTML解析器和一些第三方解析器从HTML或XML文件中提取数据的Python库。
将负责的HTML文档转换成一个树形结构每个节点都是一个Python对象,一共可以分为四种:
Tag与HTML原生文档中的Tag保持一致,其最重要的属性是name和attributes。
每个tag都有自己的名字,通过.name来获取,如果改变了tag的name,那将影响所有通过当前BeautifulSoup对象生成的HTML文档。
一个tag可能有很多个属性.tag有一个“class”的属性,值为“boldest”.tag的属性的操作方法与字典相同,可以被添加、删除或修改。
Tag中包含的字符串不能编辑,但是可以用replace_with()方法替换成其它的字符串BeautifulSoupBeautifulSoup对象表示的是一个文档的全部内容,大部分时候可以把它当作Tag对象,因为BeautifulSoup对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的.name属性是很方便的,所以BeautifulSoup对象包含了一个值为“document”的特殊属性.nameComment您的内容打在这里,或者通过复制您的文本后,在此框中选择粘贴,并选择只保留文字VStag的.contents属性可以将tag的子节点以列表的方式输出通过tag的.children生成器,可以对tag的子节点进行循环父节点、兄节点的操作方式大同小异。
将遍历后的数据保存在文件中,就完成了简单的爬虫工作豆瓣电影TOP250排名数据一致一致性性一致性,即在不同地方出现的同一数据不一样。
比如一个用户不可以成功下单并拿到自己购买的商品,却并没有扣除货款。
主要由程序BUG和网络丢包、延迟等导致。
还有及时性、信任度以及可解释性等准确准确率率一致一致性性完整完整性性完整完整性性完整性,即缺失属性值、特征值等。
导致数据不完整的原因可能有不当的删除操作、数据采集标准更改等准确准确率率准确率,即与实际值之间存在偏差的错误值。
影响准确率的原因有很多,比如数据录入操作不当,数据传输发生计算机错误,用户刻意提交了错误值,输入字段并没有遵守格式要求,数据重复等。
数据清数据清理理提高数据准确率和完整性的核心过程,包括处理缺失值、异常值和噪声等。
01数据集数据集成成将不同来源的数据整合在一起并去除其中的重复和矛盾。
0203数据数据缩缩减减以精简的方式表示数据集,既降低数据量又保证完整性,以提高计算效率,比如降维。
04数据数据转转换换把数据转换为合适建模的格式,比如规范化和离散化等。
脏脏数数据据数据清数据清理理规则规则、策、策略略满满足数足数据据质质量要求的数量要求的数据据空值不合法值拼写错误等数据统计数据挖掘异常检测重复处理不同数据源获取的数据概概览览数据数据方方法法函数功函数功能能所属所属库库mean()数据样本的算数平均数Pandasvar()数据样本的方差Pandasstd()数据样本的标准差Pandascov()数据样本的协方差矩阵Pandasdescribe()数据样本基本描述(如均值、标准差等)Pandas使用Python第三方库Pandas对数据建立初步的认知http:
/localhost/cache/8130101044005030/png/缺失缺失值处值处理理-删删除除整例整例删删除除,即删除行,把含有缺失值的样本整个删除,这可能导致有效样本数量减少,所以只适合关键变量缺失的情况。
变变量量删删除除,即删除列,如果某一变量的无效值和缺失值很多,而且这一变量对于所研究的问题不是特别重要,就可以考虑将该变量删除。
成成对对删删除除,使用特殊码来代替无效值和缺失值,同时保留数据集中的全部变量和样本,当进行具体计算时,只采用该计算中涉及变量有正常值的样本,这样不同的分析便具有不同的样本量。
成对删除是一种保守的处理方法,最大限度的保留了数据集中的可用信息。
估估算算操操作作是从本数据源或者其他数据源推导出来值来填入缺失处,最简单的方法就是使用该变量的平均值(分布均匀时)、中位数(分布倾斜)或者众数,但这种办法没有考虑样本的其他特征信息,误差较大。
另一种方法是利用变量之间的相关分析进行建模,比如家庭消费统计中饮食支出与家庭总收入存在较大的相关性,就可以构造一个家庭总收入与饮食支出的决策树,然后通过样本的总收入值来预测缺失的饮食支出值。
不过建模法会导致属性之间的相关性变大,从而影响模型训练。
缺失缺失值处值处理理-估算估算随机插随机插补补是从总体中随机选取一个样本来代替缺失样本的值,但是这种方式不太稳定。
多多重重插插补补是利用蒙特卡洛方法,进行多次全部数据集的随机插补,得到多个完整数据集,然后对每个数据集应用统计模型,再把它们整合为一组结果,最后得到的模型便可以拥有正确的P值和标准差。
缺失缺失值处值处理理-插插补补异常异常值处值处理理简单的统计分析,利用箱线图和分位点来判断,例如直接使用Pandas的describe函数。
3原则,若数据呈现正态分布,异常值为数据集中与平均值的偏差超过3倍标准差的值,因为这种值出现的概率小于0.003。
基于模型,对数据集建立一个数学模型,不能较好拟合的值是异常值为样本定义距离,异常值是远离其他样本的点,这个方法简单易操作,但是时间复杂度高,不适用于较大的数据集。
对数据集进行聚类,如果一个小簇远离其他簇,或者一个样本不属于任何簇,那么这是离群点。
利用聚类可以同时发现簇和离群点,但是离群点本身可能影响到聚类算法的效果,可以删除离群点再次聚类观察结果。
噪声噪声值处值处理理分分箱箱法法,按照一定的宽度把数据装到一个个箱子里,由于局部的点被放在一起考虑,噪声的影响就被中和掉了。
可以利用箱子里数据的均值、中位数或者是最值来替换箱子里每个数据的值。
分箱既是好的降噪方法,也是一种离散化技术。
回回归归法法,建立数据集的数学模型,然后把数据落到回归曲线上去。
Dagoo数据清洗案例数据清洗案例Dagoo数据清洗第三章第三章基基础统计础统计分析分析BasicStatisticsandDataAnalysis目目录录基本概念3统计描述7统计图表17PART1PART2PART3统计统计学学就是研就是研究究随机随机现现象象扔骰子扔骰子时时向上的点向上的点数数便利店每天便利店每天卖卖出的薯片数出的薯片数量量一个班的学生每人身一个班的学生每人身高高罹患肝癌后是否可以治罹患肝癌后是否可以治愈愈随机背后存在随机背后存在规规律律基本概念基本概念个体个体:
所研究问题的一个最小对象总总体体:
全部个体的集合样样本本:
一次研究中从总体中选出的可测量的个体集变变量量:
研究对象的某个研究指标变变量量a变变量量b变变量量c个体1个体2个体3注:
有些变量由于实际原因并不连续,比如分数可能只能取0到100的整数,但对其进行计算得到的均值等连,续且有意义,也算连续变量。
连续变连续变量量在一个数值区间内任意取值的变量,一般有度量单位。
例:
身高、体重、金额有序分有序分类变类变量量在一个有序集合中取值,值有高低差异,但没有具体度量。
例:
优良中差无序分无序分类变类变量量在一个集合中取值,值没有高低差异,没有具体度量。
例:
性别、国籍信息量信息量递递减,可以从上到下减,可以从上到下转转化化变变量量类类型型设计选题,明确研究目的,提出假设,明确总体范围,确立观察指标,控制研究偏差,给出具体方案。
整理耗时最久的步骤,需要妥善利用工具分析统计描述(呈现样本数据)与统计推断(从样本推及总体,得到解答)收集直接决定研究质量,垃圾数据垃圾结果统计统计研究步研究步骤骤设计收集整理分析通通过过抽抽样调查样调查收集到数据之后,收集到数据之后,为为了便于理解,了便于理解,对对数据数据进进行行汇总汇总的的过过程叫做程叫做统计统计描述描述。
统计统计描述描述各省GDP直方图连续变连续变量量汽缸数参数饼图分分类变类变量量直方图频数观察连续变连续变量的量的统计统计描述描述直观而粗糙的观察方法组数和组距决定效果可以观察:
集中趋势、离散趋势、分布形态需要进一步使用描述指标直方图集中集中趋势趋势指指标标均值-算术平均数均值是统计技术应用最成熟的指标,必要时可以对数据进行变换以方便使用均值定义一组数据的和,除以数据的个数本质将全部个体的差异抽离出来相互抵消,得到一个所有数据集中的位置缺点掩盖内部差异,易受极端值影响优点对每一个个体的变化灵敏,信息量高,接受程度广,易用适用对称分布数据集中集中趋势趋势指指标标中位数-二分位数优先使用均值,有需要才用中位数定义一个满足如下条件的数据它所在的一组数据中有一半比它大,一半比它小本质位置平均数,完全忽视数据的内部差异缺点只保留数据的大小关系而损失了数值变化信息,样本数量一旦小就很不稳定优点不受极端值影响集中集中趋势趋势指指标标几何平均数定义n个变量的乘积的n次方根本质变换后的算术平均数。
一些正偏态分布的数据,其实既具有指数增长的特点,又服从正态分布,对数据求对数后求算术平均数,就比较合理,之后再求指数变换回来,即几何平均数。
容易发现这种计算和上述定义计算是等价的适用等比关系数据,如平均速度、平均利率等优缺点优点:
受极端值影响比较小缺点:
数据必须为正数集中集中趋势趋势指指标标众数定义一组数据中出现次数最多的数据本质少数服从多数特点极大损失信息量,更适用于分类变量,连续变量有可能不存在众数截尾均值定义去掉最小和最大5%的数据,只用中间90%数据算出的均值本质排除头尾极端值干扰离散离散趋势趋势指指标标全距极差定义一组数据最大值最小值之差本质数据的最大分布范围缺点不稳定,信息量低优点接受程度广,易用离散离散趋势趋势指指标标在均值适用的正太分布中适用均均值值-集中趋势的最佳指标离均差离均差-个体与集中趋势的差异指标离均差之和离均差之和-由均值定义,显然为0离均差离均差绝对值绝对值之和之和-可以表示总体与集中趋势的差异,但是不易计算离均差平方和离均差平方和-易于计算,但与数据个数有关方差方差-离均差平方的均值,但是单位不对标标准差准差-离散趋势的最佳指标变变异系数异系数-跨量纲比较离散趋势x-(x-)|x-|(x-)22=(x-)2/nCV=/离散离散趋势趋势指指标标百分位数定定义义位置指标,用Px表示。
一个百分位数Px将数据分为两部分,使得x%的数据比它小,(100-x)%的数据比它大。
优优点点适用于各种分布缺缺点点需要大样本量,P95等两端数值才有价值百分位数需要多个百分位数需要多个组组合使用,最常用的合使用,最常用的组组合是四分位数,即合是四分位数,即P25(下四分位数(下四分位数),),P50(中位数)和(中位数)和P75(上四分位数)(上四分位数)。
P0即最小即最小值值,P50即中位数,即中位数,P100即最大即最大值值离散离散趋势趋势指指标标四分位数定定义义P25(下四分位数),P50(中位数),P75(上四分位数)的总称将将样样本本值值四等分,四分位四等分,四分位间间距距为为P25-P75,排除了极端,排除了极端值值影响,反映了居于中影响,反映了居于中间间的半数数据的离散程的半数数据的离散程度度分分类变类变量的量的统计统计描述描述频频数数观观察察集中集中趋趋势势频数表,条形图,百分占比,饼图众数比比任意描述指标通过比值定义出的新指标。
一个变量的两个分组或任意两个变量的比值,只要有实际指导意义即可,如性别比或货运的收益与耗时比。
率率某个时期内,事件发生的频率,类似速度概念,用以反映事物发展的进度。
比如研究离婚率,应该长期追踪观察某一年中结婚的一个样本,记录每一年中样本有多少发生了离婚,得到十年二十年的数据。
相比之下,记录每年离婚人数占总人口的比值就比较粗糙,而每年离婚人数与结婚人数的比值则根本错误。
条形条形图图定定义义使用矩形长条对比分类数据的统计图表,每个矩形各表示一个分类,矩形长度与分类数量成正比本本质质表现分类变量频数注注意意请勿修改条形图的纵轴起点来突出差异变变体体玉珏图(在极坐标上画条形图,改变视觉效果),旋风图(左右对称呈现两组分类相同的条形图以进行对比)其他条形其他条形图图衍生衍生图图堆叠柱状堆叠柱状图图误误差柱状差柱状图图区区间间柱状柱状图图显示较大类别如何划分为较小类别,如果是大类长度均一致的百分比堆叠柱状图,则其内涵与饼图其实更为接近矩形长度表现的并非是分类数量,而是均值,增加误差线以表示标准误差矩形长度表现分类最值堆叠柱状堆叠柱状图图误误差柱状差柱状图图区区间间柱状柱状图图饼图饼图定定义义划分为几个扇形的圆形图表,每个扇形各表示一个分类,扇形圆心角与分类数量成正比本本质质表现构成比(各部分占总体比例)优优点点直观、易用、接受度高缺缺点点表达效率低,无法与其他扇形比较(构成比的缺点)变变体体甜甜圈图(空出中心区域以填入其