大数据统计学实践报告Word文档下载推荐.docx
《大数据统计学实践报告Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《大数据统计学实践报告Word文档下载推荐.docx(27页珍藏版)》请在冰豆网上搜索。
报告字数:
完成日期:
统计学第次实践报告:
题目
题目内容简介
(可包括如下内容,也可自行添加其他内容)
1.概念、理论意义、实际意义
2.国内外相关研究综述
3.本报告主要研究内容及研究目标
4.创新点和不足之处
(一)大数据的概念
麦肯锡对大数据概念的解释是:
大数据是指大小超过传统数据库软件工具抓取、存储、管理和分析能力的数据群。
维基百科的表述是:
大数据是难以用现有数据库管理工具处理的兼具海量和复杂性特征的数据集成。
国内专家涂子沛将大数据定义为那些大小已经超出传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。
对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
(2)理论意义
管理统计学课程是近年来经济管理类专业新开的专业基础课程,目的是培养经管类学生能够把统计学知识运用到经济管理中来解决实际问题。
随着社会的发展,企业对经济管理类学生的数据处理能力有更高的需求,因此管理统计学的开设满足经管类学生及企业的需求。
随着云时代的到来和互联网技术的发展,大数据即大数据技术出现了。
1.数据收集方式和内容变化
以往的数据收集方法主要有统计调查和试验方法。
根据实际研究需要,收集社会经济现象的统计数据和自然科学领域的数据。
这些数据是数字、文字等结构化的数据。
大数据时代,统计数据的产生方式呈现多样化,如有网站浏览痕迹、监控视频、GPS系统等产生方式,产生的数据多为非结构化数据很难用二维表格表示,如所有格式的办公文档、文本、图片、HTML、各类图像和音频、视频信息等。
结构化数据出现,统计数据的收集方式和内容将会改变。
2.数据处理的对象和方法放发生变化
管理统计学中推断统计学的参数估计方法和假设检验方法,主要采用抽样调查法,利用样本数据的信息来估计或者计算总体参数情况。
大数据不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。
在大数据下,样本集总体,处理数据不再仅仅依赖样本进行数据的推断统计。
另外依靠小概率事件不可能发生的参数估计和假设检验方法就失去了处理大数据的意义。
但一些传统的数据分析方法,如聚类分析、相关分析、回归分析等方法,仍然是可以使用的。
虽然这些传统的分析方法已经被应用于大数据领域,但是他们在处理规模较大的数据集合时,效率无法达到用户预期,且难以处理复杂的数据。
3.大数据时代下传统统计学的变革
大数据时代的到来,给统计学的发展带来了前所未有的机遇,但同时,也对统计学提出了更多的挑战。
在此,本文将从以下7个方面阐述大数据时代下传统统计学的变革。
(1)样本概念的深化
除普查以外,传统统计学离不开样本,样本是研究中实际观测或调查的一部分个体,一个可用的样本必须能够正确地反映总体情况。
大数据时代,样本的概念不再这么简单,由于此时数据大部分为网络数据,因此可以将其分为两种类型:
一是静态数据,即当客户在查看数据时已经被生成好了,没有和服务器数据库进行交互的数据,直接在客户端创建完毕,对于这种数据,样本等同于总体,这样无需去提取样本并检测样本的可用性,减少了成本,并且总体本身对总体的反映更为准确,减少了误差;
二是动态数据,比如数据是随着时间的推移而变化的,此时,总体表现为历史长河中所有数据的总和,而我们分析的对象为“样本”,这里的“样本”与传统样本的概念不同,因其并非局限于随机抽取的数据,更可以是选定的与分析目的相关的数据。
(2).数据类型的扩大。
传统意义上的数据为结构化数据,即可以用常规统计指标或图表表现出来的定量数据或专门设计的定性数据,有固定的结构和标准。
大数据是指不仅包括结构化数据,还包含非结构化数据、半结构化数据或异构数据,即一切可以记录和存储的信号,具有多样化的特点,并且传统的统计指标等不一定可以将其完整地表述出来;
其次,大数据的存储不同于传统的数据存储方式,有固定的格式和结构,对于大数据的数据库来说,可以直接将所探测到的信号自动容纳到其中;
最后,由于大数据大部分是指非结构化以及半结构化数据,因此对数据的识别和分类也是多样的,通常用网络信息系统作为识别工具。
(3).收集概念的扩展。
传统统计中,数据的收集需要根据统计分析的目的进行,过程包括设计调查方案、严格控制调查流程,因此具有低效率、高成本的缺点。
在大数据时代,对数据的收集分为三步,首先是数据预处理,包括识别与整理;
其次是数据分析,目的为提炼有价值的信息;
最后为数据存储。
我们拥有超大量可选择的数据,同时,在存储能力、分析能力、甄别数据的真伪、选择关联物、提炼和利用数据、确定分析节点等方面,都需要斟酌。
然而,这并不代表大数据时代搜集的数据是万能的,我们仍然需要有针对性地搜集,不仅如此,还存在着安全性和成本的问题。
因此,我们应该将传统方法中有针对性的收集数据的优点和现代方法中利用高效率的技术和广泛数据源的优点结合起来,收集一切相关数据。
(4).数据来源的不同。
传统统计中是根据研究目的去收集数据,数据来源通常是已知的,很容易对数据提供者的身份进行识别或进行事后核对。
而大数据的来源则很难追溯,由于大数据的来源一般为信息网络系统,不具有很强的目的性,更是一切被人为记录的信号(尽管信号有其目的性,但多数为发散的),并且很难识别记录者的身份。
在大数据时代,努力打造统计数据来源第二轨,就显得尤为重要。
(5).量化方式的变化。
传统数据为结构化数据,对数据的量化方式已经相当成熟,并且比较容易得到可以直接进行分析的数据结果。
大数据时代主要面对的是非结构化数据,Franks说过:
“几乎没有哪种分析过程能够直接对非结构化数据进行分析,也无法直接从非结构化的数据中得出结论”。
目前,计算机学界已着手研发处理非结构化数据的技术,从统计角度直接处理非结构化数据,或将其量化成结构化数据,这是一个重要的研究领域。
(6).分析思维的改变。
我们从统计分析、实证分析、推断分析三个方面论述大数据时代传统统计学分析思维的改变。
第一,传统的统计分析过程分为三步,定性、定
量、再定性。
首先通过经验判断找到统计方向,即目的;
其次对数据进行量化、分
直接从各种“定量的回应”中找出有价值的、为我们所需要的数据,并通过分析找到数据的特征和数量关系,进而据此做出判断与决策。
第二,传统的统计实证分析,思路是“假设—验
析、处理等;
最后根据结果得出结论。
大数据时代,统计分析过程为“定
量—定性”,基础性的工作就是找到“定量的回应”,
第二,传统的统计实证分析,思路是“假设—验证”,即首先提出假设,接着按照统计方法进行数据
的收集、分析、展示,最后通过所得到的结论对假设进行验证。
事实证明,这种实证分析存在很大误差。
大数据时代,实证分析的思路是“发现—总结”,为
了更全面、深入地了解研究对象,需要对数据进行整合,从中去寻找关系、发现规律,然后再加以总结、形成结论,这将有助于发现更多意外的“发现”。
第三,传统的统计推断分析过程是以分布理论为基础,在概率保证的前提下,对总体进行推断,通常是根据样本特征去推断总体特征,推断是否正确取决于样本的好坏。
现在,其过程变成了以实际分布为基础,根据总体的特征进行概率的判断,在静态或者动态的某个时点,大数据所需处理的对象为总体数据,不需要根据分布理论推断总体特征,而要根据计算方法进行推断。
(7).统计软件的增多。
传统统计学以统计模型和软件为基础进行数据分析处理,统计模型的作用在于对数据间的数量关系进行构建,统计软件是分析和处理数据的工具,需要研究者自主输入经过处理的数据,以及统计模型的公式等。
常见的统计软件有SAS、R、STATA、SPSS、MATLAB等。
大数据所依赖的数据分析技术为非关系型的,以数据中心为基础。
若将统计软件与大数据结合起来,则统计分析的过程可以在很大
程度上简化。
综上所述,大数据时代的来临,对传统统计学的变革从样本的定义方法一直到数据分析的思维与技术均有所体现。
可以看出,大数据使我们对数据的利用取得了更大的主动权,将促使传统统计学的迅速发展。
2.实际意义:
大数据在征信系统中的应用
近期,美国互联网金融公司ZestFinance受到国内互联网金融专业人士的热捧,其基于大数据的信用评估模型也越来越受到关注和效仿。
本文结合美国的金
融环境,对ZestFinance进行简要介绍,分析大数据征信产生的背景,剖析大数据征信技术,并全面客观地阐述了大数据征信技术对于中国互联网金融和征信业未来发展的借鉴意义。
一、ZestFinance简介
ZestFinance,原名ZestCash,是美国一家新兴的互联网金融公司,2009年9月成立于洛杉矶,由互联网巨头谷歌(Google)的前信息总监道格拉斯·
梅瑞尔
(DouglasMerrill)和金融机构CapitalOne的信贷部高级主管肖恩·
卜德(Shawn
Budde)(曾管理过收益超过10亿美元的次级信贷业务)联合创办。
ZestFinance的研发团队主要由数学家和计算机科学家组成,前期的业务主要
通过ZestCash平台提供放贷服务,后来专注于提供信用评估服务,旨在利用大数据技术重塑审贷过程,为难以获得传统金融服务
(Underbanked)的个人创造可用的信用,降低他们的借贷成本。
ZestFinance起初是为传统的发薪日贷款(PaydayLoans)提供在线替代的产品。
发薪日贷款因借款人承诺在发薪日还款而得名。
由于美国传统的信用风险评估体系无法覆盖全部的人群,大约15%的人因没有信用评分而被银行排斥在外,无法获得基本的信贷需求。
ZestFinance引起国内的关注始于2013年7月,当时全球第三方支付平台PayPal联合创始人、美国知名投资人彼得·
泰尔(Peter
Thiel)领投了ZestFinance的2000万美元融资。
二、为什么要进行大数据评估传统的信用评估服务无法覆盖全体人群,特别是弱势群体?
大数据征信应用与启示<
wbr>
——以美国互联网金融公司<
ZestFinance为例
图
1展示了美国FICO评分与其对应的人口分布情况,初始每个人的分值基数为850分,信用评分模型利用征信数据从多个评分因素考察消费者的信用风险,从
850分中减分。
大致来看,美国个人消费者信用评分人群分布状况呈现两头小中间大的形态,信用分数处于750~850的人群有40%之多,其中信用分数在
800~850大约占总人数的13%,在750~799超过总人数的25%,这是整个信用社会的中间阶层,对应于美国的中产阶级。
其中,美国个人消费者的
平均FICO评分为678。
从图1可以看出,还有大量的人群远低于平均的678分,如FICO评分在550~549的占8%,在500~549的占5%,小于499分的占2%。
根据FICO的标准,如果人们未能如期还款,或者缺乏借贷经历,他们就会自动被视为风险人士,他们的贷款也就会被惩罚性地给以更高
的利率。
还有一种可能,那就是他们的贷款申请会被拒,无论是否事出有因。
比如,遇到了医疗紧急事故,或者最近刚刚移民美国。
表1根据FICO评分将服务人
群分为四个区间,并对应不同的金融服务机构。
信用记录不完整或者不够完善的个人消费者,依据传统信用评估体系(FICO评分),往往很