大数据给经济学和社会学研究带来了什么挑战Word下载.docx

资源描述

大数据给经济学和社会学研究带来了什么挑战Word下载.docx

《大数据给经济学和社会学研究带来了什么挑战Word下载.docx》由会员分享，可在线阅读，更多相关《大数据给经济学和社会学研究带来了什么挑战Word下载.docx（18页珍藏版）》请在冰豆网上搜索。

大数据给经济学和社会学研究带来了什么挑战Word下载.docx

在社会学研究中，过去，我们很熟悉“理论驱动”；

现在，数据驱动已经变成了非常重要的概念了。

麦肯锡定义的关键点叫消费者盈余浪潮。

过去，我们从石油里找财富，后来从机器里找财富，再后来从其它东西里找财富，现在可以从数据里来找财富了。

其实，业界流传的故事说，“大数据”概念是从IBM来的。

从学术研究的立场出发，可以对大数据概念的出处存疑。

不过，IBM的确用4个维度给大数据概念下了一个明确的定义：

数量（volume）、形态（variety）、价值（value）、速度（velocity）。

我认为，这是从数据出发的定义。

学术研究通常要按照学科规训理解，我也按自己的方式来理解，我给大数据概念一个定义：

痕迹数据汇集、存储和运用的并行化、在线化、生活化和社会化。

前面我之所以交代痕迹数据，希望说明的是，数据从来不缺。

大数据是把过去数据的汇集、保存、利用方式做了一个很大的改变。

不能说颠覆，现在颠覆为时太早，但它的改变确实非常重大。

汇集、存储和运用的并行化是一个计算机和网络科学的概念。

什么叫并行？

其实很简单，北京四环上的四条车道同时跑车就叫并行，如果只有一条车道跑，就不叫并行，叫串行。

并行，指同时运行2个或多个线程。

在计算机学科里叫线程，在交通学科里叫车道。

在线化也是一个计算机和网络科学的概念，指始终在网络上，数据的汇集、存储和运用都是在线状态。

社会学的人都知道组织结构的科层制特征。

可是网络里的组织结构则不同，总体上看起来是科层制的，实际运行却是网络状的，且不同的网络结构混杂在一起。

在线化意味着数据的汇集、存储和运用，都在混乱结构的网络上。

生活化则是一个社会学的科学概念，是说数据的汇集、存储和运用已经渗透到了社会生活的方方面面，无处不在、无时不在。

不仅生产活动在汇集、存储和运用数据，如企业产品生产、商店产品销售；

生活活动也在汇集、存储和运用数据，如大家日常生活对计算机、手机、网络、家用电器的使用等。

社会化也是一个社会学的科学概念，指社会的大多数成员都参与了数据的汇集、存储和运用。

系统和科学地搜集数据，是社会学的专长之一。

过去，都是由机构去搜集、科学家去搜集。

如今，每个人都是数据提供者、存储者，同时也是数据的运用者。

譬如导航，你在运用道路数据的同时，也在提供和存储道路数据。

不过，理解痕迹数据汇集、存储和运用并行化、在线化、生活化和社会化的前提是理解IBM概念的4V。

下面，我先沿着IBM的4V概念做一个简单的说明，让各位对大数据在外观上有一个感知。

首先是量。

大数据指其超出了任何个人在可接受的时间和范围内汇集、存储和运用数据的能力。

我给大家一个基本概念，2012年，单一数据集已经从兆级（MB），跃升到TB级，从MB到TB，中间还有GB。

如果谈大数据，至少是PB级数据。

任何个人计算机、小型服务器、大型服务器，没有单机可以处理PB级数据。

为汇集、存储和运用数据，并行化和在线化是其目前的解决方案。

在进一步讨论前，普及一下信息计量单位。

字节（bytes）是基本计量单位，相当于货币里的一分钱，每满1024个单位，向上提升一级，上一级为KB，之后有MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB等，简单地说，以2的10次方晋级。

从直立行走到2013年，整个人类积累的可利用数据量大约为5EB，可2013年生产的数据量却达到了800个EB。

据统计，全球90%的数据是在过去两年生产的，其中社交网络、传感器、科研、金融都在产生越来越多的数据，几乎是每两年数据量翻一番。

其次是形态。

传统的调查数据通常是结构化数据。

结构化数据也是一个计算科学的术语。

如果熟悉SPSS，就比较容易理解，通常可以形式化为一个二维表，第一行是变量（又叫字段），从第二行开始到结束，就是每一个变量的案例值，形成了一个规整的变量值矩阵。

熟悉调查数据的都知道，如果一个值没有对应的变量，就麻烦了，没办法处理了。

结构化的特点就是这样。

大数据不是结构化数据，是混合形态的数据。

什么叫做混合形态数据？

指既有结构化数据，也有其他形态的数据。

结构化的数据指各类结构化的数据库表，工业计算和科学计算常见的都是结构化数据，像甲骨文和ERP都有自己的结构库表，随时可以通过输入字段查询，比如说在北京大学要找人，找郭志刚，依据结构库表的约定，输入郭志刚三个字的首字母马上可以定位到郭志刚。

逻辑是，在姓名字段里给了两个值，一个值是郭志刚的汉字，一个值就是郭志刚的汉语拼音首字母缩写，也许GZG三个字母对应很多人名字，其中一定有郭志刚，这是结构化的。

大数据不完全是结构化的，有一部分是结构化的，如姓名、帐号、存款余额、消费记录等等，但大多数是非结构化的数据，比如说日志，查了几回，刷了几次卡，每次在哪里刷的，不是结构化的，刷了多少钱却是结构化的，刷了几次不是。

每一位用户都有使用日志，有的还有音频，比如说微信中的语音，音频数据不是结构化的，图片不是结构化的。

用户应用活动的很多数据都是非结构化，这就让数据变成了混合形态，这是不同于传统数据的非常重要的区别。

接下来，从商业视角来看数据的价值。

传统的数据通常是分析目标导向的数据，有非常明确的价值取向。

譬如我做中国家庭跟踪调查（CFPS），非常明确，搜集与人类社会生活、未来成就、幸福相关联的各种变量数据，有非常明确的价值指向。

大数据是记录导向的，是一个颠倒。

大数据是为了技术活动、获得人类社会活动的痕迹而记录数据，获得是造痕者留下的并行数据（paradata）；

不是为了解释某个现象、分析某个结果来记数据。

在数据获取上，这又一个非常重要的变化。

影响的这个变化的因素，第一是记录的便捷化，无需研究者花钱花资源去搜集数据，每一个用户自己就主动提供了数据。

第二是存储的便宜，存储的价格在过去的一段时间里呈指数曲线下降。

正因为大数据不是有目的的测量，而是造痕者留下的痕迹，因此，它的价值密度与社会学的调查数据比较便低得多。

如果希望用大数据来证明什么，就需要从数据中去挖、去发现，而不是用假设检验的方式来检验。

跟传统的调查数据比较，其基本的出发点是有区别的。

通常认为，大数据价值密度比较低，从商业角度来看，的确如此；

从学术角度，却不一定。

最后，非常重要的特征是速度。

传统的数据，从设计、调查、清理到可用需要相当长的时间。

举一个例子，1887-1890年，赫尔曼霍尔瑞斯为统计1890年人口普查的数据，发明了读卡机，把原本需要8年人口普查活动用一年的时间完成了。

再譬如CFPS，发动了几百位访员，用计算机采集数据，从调查结束到可用也用大概2年的时间，其中数据清理的时间非常长。

大数据，那么大的量，怎么处理？

这是非常大的挑战。

此外，大数据不同于传统数据的另一个特点是没有数据概念，只有“数据流”概念。

这是社会学研究需要换脑子的关键点。

什么意思呢？

数据每时每刻都在产生、记录，没有一个时间节点的数据是完整的数据，因为，它根本就不是以完整数据为目的的数据，每时每刻都有数据可用，也都有它的约束性。

其中的一个约束性是，它不是针对具体研究问题的可用数据。

如果要研究一个问题，可以截一段数据出来，却不是马上就可用的数据，而是可以挖掘的数据。

不管大数据有什么样的特征，本质上，它还是数据，是人类社会生活包括私秘生活留下痕迹的数据化。

痕迹数据变成大数据有一些条件。

第一个条件是行为的监测化，一旦造痕者的行为与数字化设备关联在一起，就具有了可检测性，比如说银行数据、社交数据、健康数据、家居数据等等。

很多人喜欢戴手环，手环就是一个监测设备。

如果你有什么自己不愿意让人知道的行为，建议你最好把手环摘掉。

手环，不仅可以监测你的身体参数，也可以记录你活动的地理位置参数。

第二个条件是监测和检测的网络化。

如果只是局部监测，问题不大，天知、地知、你知、我知而已。

一旦监测设备具有网络功能，监测活动便让任何造痕活动变成了网络活动，甚至是在你不知情的前提下。

比如说手机，现在每个人都在用智能手机，你们把设备上的位置选项打开看一看，默认状态是开启的。

你说不愿意让自己的活动便成网络活动，问题是设备的功能你不一定完全了解，它可能随时随地都在把你的活动便成网络活动，监测的网络化就是社会活动的网络化过程，也是这个世界的连通过程，一个典型的例子是微信的朋友圈。

第三个条件是网络的数据化。

如果仅仅是造痕活动的网络化倒也罢了，最多是知晓范围的扩大。

问题是，网络化的过程也是数据化的过程。

造痕活动的网络化首先是活动的数据化，其次是活动数据的网络化。

单个节点的数据，常常不具有社会意义，节点数据的汇流便让造痕活动具有了社会意义。

比如说，某个老师每周到办公室来两次，根据GPS信息，可以知道他什么时间到，什么时候离开，中间离开几次。

如果这个老师有一个特别去处，每周固定的时间都要去。

作为同事，我不知道，可手机运营商完全了解。

依据也是这个老师手机提供的位置数据。

当把所有人的位置数据汇集起来，可以知道的事情就多了。

不仅可以知道有多少人有特别的去处，也可以知道每个的生活习惯、工作习惯、身体状态等等。

大数据其实与人类的社会行为相伴随，与网络同在，与社会一体。

我想，从社会的视角来看，这就是大数据。

简单归纳一下，大数据，形态是数字化的、非结构化的、在线的、流动的数据；

容量都在PB级以上，是单个计算设备无法处理的数据；

来源，不是专门搜集的数据，而是与行为相伴生的、通过传感器、设备获取的数据、通过网络汇集的数据；

不过，并非系统、也非完整的数据。

对社会学而言，大数据是一种新的研究数据来源，一种永不停歇流动的数据，目前还不是对过去其他来源数据的全面替代。

我给大家几个例子，大家了解、体验一下什么是大数据。

2014年双十一。

阿里自己造了一个云，叫ODPS云，这个云和世界上其他云不一样，用几十万台个人电脑阵列，运行着自己的系统，在6个小时内处理100PB数据，相当于处理一亿部高清电影。

在零点以后，支撑了每一秒有7万瞬时订单，让5万个人同时抢1千件商品不超卖；

3分钟成交额10亿人民币，不出任何差错；

在570多亿交易中，支持了243亿的交易额在手机上完成，产生了2.78亿个物流订单；

全球有217个国家和地区加入交易。

这些事情如果不了解的，甚至都不敢想象，而且都是智能化的。

阿里还造了一个数据系统，叫聚石塔。

这个聚石塔干什么呢？

直接管订单，2013年的双十一只有75%的订单聚石塔上处理，没有丢单；

2014年处理的比例上升到95%；

2015年的双十一，估计全部都在这上面。

所有这些活动，都在实时发生，也在实时处理。

发生的便成了数据，处理的也是数据。

流动着的数据量，是传统社会学想象不到的量级。

能够完成这些功过的就是计算能力，这个能力是人类在两年前都无法想象的。

二、大数据和社会学研究有关系么？

接下来讨论大数据和社会学研究有没有关系？

我的观点是：

有关系，目前还没那么紧迫。

咱们都是社会学的老师和学生，却常常“只缘身在此山中”，忘记了社会学基本范式的差别。

为理解大数据与社会学研究的关系，需要简要回顾社会学的基本范式，然后再说明，如果大数据与社会学研究有关系，那么，与什么范式、有怎样的关系。

在社会学的想象力下，我把社会学的基本范式分成三大类，与传统区分的实证、诠释、批判，不大相同，纯粹是为了叙述的方便。

第一类，我叫做思辨的社会学，比如说帕森斯（T.Parsons）的宏大社会系统，甚至福柯（M.Foucault）的多种理论，甚至吉登斯（A.Giddens）的社会结构理论等。

这部分社会学大家，都是从概念到概念的思辨，基本上可以完全隔绝数据。

再譬如布迪厄（P.Bourdieu），早年做教育社会学研究时用数据，后来也不怎么用数据了，抽象了，思辨了。

第二类，我称之为诠释的社会学，从胡塞尔（E.G.A.Husserl）以降，舒茨（A.Schutz），甚至到格拉霍夫（R.Grathoff），这些人都围绕意义在做研究。

对他们来讲，一个现象本身的代表性是没有意义的，他们观察的是一个现象本身，要阐释这个现象的意义，他们认为的意义。

他们也可以不用数据。

不过，我认为对意义的挖掘也会面对意义社会性的挑战。

第三类，我叫做实证的社会学，源于法国年鉴学派和美国社会学对帕森斯的反动。

在第二次世界大战以后，获得了空前的发展。

如果要在实证社会学与前两类之间进行区分，很简单，有没有假设检验是一个关键特征。

实证社会学强调假设检验，强调用经验事实检验理论假设。

由于在检验中要使用数据和统计方法，也因此被贴上了“定性”或“定量”的标签。

大数据与社会学关系最密切的是最后一类。

实证社会学离不开数据，不管是什么类型的数据，什么形态的数据。

刚才说，实证社会学在二战以后有一个大发展，大家可以看一个趋势。

我用了两份文献，一份是普莱特的一部著作1，她对美国社会学三份主流期刊（ASR,AJS,SocialForce）的研究显示，1915-1924年期间，35%的研究用个案，53%的用统计；

1955-1964年期间，用个案的下降至18%，用统计的上升到76%，其中ASR和AJS基本上排除了纯粹的社会理论文章，只要涉及社会事实的，都要有数据，不管是什么形态的数据。

一份是中国的文献，北大社会学系的林彬教授和他硕士研究生王文韬的研究显示，2000年，实证化的趋势在迅速加强2。

现在的社会学研究没有证据的文章基本上发不出来。

对经验事实的刻画需要测量，对理论假设的检验需要测量数据，实证和数据密切地关联在一起，实证研究需要数据。

可是，当我们对数据本身进行系统考察时却发现，数据并非因研究需要而产生。

我的观察和探讨显示，数据最早源于管理活动的需要，后来慢慢地渗透到了社会科学的研究，直接影响了实证社会学的研究。

实证社会学过去的研究数据主要来自于调查活动。

二战以后，密西根大学建立了社会研究院（ISR），调查数据开始逐步成为社会学研究的基础设施。

在运用调查数据进行社会学研究的发展中，还有过一场辩论。

基什（L.Kish）认为，与其花很多的钱进行人口普查，不如花少量的经费进行抽样调查。

基什把自己对抽样调查的思考和想象，在世界各地传播，他也到过北京大学，我记得是1990年代中期，专门在北京大学讲了一周的抽样调查，我学了整整一周。

调查数据还是社会学家手里的一类资源、一种权力。

在大数据之前的数据，主要有三个来源，分别代表了三种资源和三个群体中手中的权力。

第一是行政数据，各个政府掌握了身份数据，流动数据，登记数据、家庭数据等等。

第二是商业数据，譬如过去几百年的金融数据，都在商业公司手里。

社会科学家到20世纪30年代才认识到数据的重要性，开始找数据、调查数据、运用数据，在搜集和运用数据的经历中，也认识到数据是研究者手中的资源，是让社会学声音具有独立性的支持力量。

进而，与行政数据和商业数据一起，形成了三角鼎立之势。

大数据是痕迹数据一种，与实证社会学研究有非常密切的关系。

哥德尔和梅西2014年的文章认为，数据脚印是社会学研究的挑战，同时也是机会3。

有兴趣的可以找来读一读。

我则认为，总体来讲，大数据的确给社会学研究带来了挑战，不过，现在还没有直接构成威胁。

到底带来了什么样的挑战呢？

接下来，我们做一些讨论。

三、大数据给社会学研究带来了什么挑战？

（一）还需要做调查么？

我想，人们有兴趣的第一个问题是，还需要做调查吗？

数据来源于问题。

的确，大数据无需调查，只需选择。

数据调查是有目的、有研究假设的数据搜集和研究活动。

对于大数据而言，没有任何人做研究假设，也没有任何人有能力做大数据的研究假设。

在这个意义上，与调查数据关注如何搜集数据不同；

对大数据，对研究而言，关注的是如何应用数据。

前面讨论过大数据的特征，使得个体研究者不具备接触大数据的机会。

对大数据的应用，现在主要是机构性的应用，尤其是商业机构，商业结构站到了第一线，阿里巴巴的大数据应用在世界范围内也是一流的。

阿里有人曾经在一个内部会议上说，如果不顾及中国，不呆在中国这块土地上，完全可以把中国的银行淹死掉。

为什么呢？

阿里手里有超过四亿消费者的金融信息，他知道谁要买什么，怎么买，花多少钱，大概什么时间段买。

与商业应用不同，学术研究还没有走到PB级数据的台阶。

如果有谁告诉你说他在用大数据做研究，你先问问多大的数据量。

一个问题，你就知道他是不是用大数据在做研究。

对大数据，社会学家们既然没有可及性，或许也没有相应的技能，还能干什么呢？

就我所知，自称在用大数据的，通常是大数据中的数据。

社会学家不是像网络科学家和计算科学家那样，把建好的模型直接放到网络上运行，譬如XX导航的交通状况；

而是从大数据中截取了一段数据在做研究，是大数据的一个小样本。

即使如此，也与传统的调查有了很大的区别。

我们依然可以把这样的数据看作是调查数据，不过，有诸多的不一样。

“访员”，传统的调查数据是访员询问受访对象，搜集数据；

现在没有访员了，而是让机器自己汇集数据，研究者直接挑数据。

我给几个例子。

第一个是哈佛大学金教授（GaryKing）及其同事做的一项研究。

他们用社交媒体的数据来观察中国的沉默表达。

数据从哪儿来呢？

用网络爬虫直接从不同网站爬数据，获得了1382个社交媒体网的数据。

这项研究的影响还是很大的。

接下来，是我做得一项研究。

2012-2013年，我跟淘宝做了一个好玩的研究，没有写文章，有一份很有趣的报告。

淘宝希望了解店家的成长可能性，譬如年销售额10元的是不是可能做到100万，我希望了解谁在开网店。

我们从600万个淘宝店家数据中抽取6万个店家。

从大数据中提取了6万个店家的交易数据，还对6万个店家进行了网络问卷调查。

我得到的结论是：

居住在沿海、城镇、年轻、中高学历、家境殷实、价值观居中的人在开网店。

一年换三分之一的店家，能够坚持干的人，是用淘宝来谋生的人。

在所有店家中，三分之一玩票，三分之一投机，三分之一谋生。

第三个例子，是我指导并参与的一项研究，通过分析并行数据，我们发现一个调查行为：

臆答。

什么叫臆答？

臆答指，调查员找到了受访对象，并且跟受访对象聊了半天，不过，不是按照访问规程询问和填答，而是根据闲聊获得的信息，凭借自己的猜想代替受访者填问卷。

这种填答作弊的方式，在传统的调查质量控制中是发现不了的。

并行数据对访问行为的记录，让研究者有机会在访问行为数据挖掘中获得一种快答模式，通过对访员的询问，才获取了臆答作弊模式。

这三个例子都说明，即便是大数据中的数据，对社会学研究而言也是重要的。

（二）大数据来自哪里？

如果想做研究，从哪里可以获得大数据的数据呢？

要回答这个问题，我们首先需要知道大数据到底来自于哪里？

第一个是传感器（RadioFrequencyIdentification,RTID）。

2005年大约是1.31亿个，2010年增加到了30亿个。

总数是多少，不知道？

因为，传感器的用途越来越广泛。

什么叫传感器呢？

马路边上的各类探头，刚才讲到的手环、手表、手机、电脑、汽车、空调、电饭煲、插座、灯等，只要是器具，都可以变成传感器，任何可以做数据监测、整合、传输的工具都是传感器。

不过，它的基本原理来自于射频原理，所以叫射频传感器。

第二个是互联网。

根据不同来源的数据，我们了解到谷歌每天要处理大概24PB的数据，XX每天新增10TB数据，处理100PB。

第三个是社交网络，像Facebook每天要23TB，推特每天7TB，腾讯每天大概增加200-300TB，数据总量大概100PB。

第四个是电信。

中国移动产生10TB以上的话单数据、30TB以上的日志和100TB以上的信令数据。

其中，话单是结构化数据，有姓名、接入基站、通话时间、计费等，是结构化的数据。

但日志不是，日志是非结构化数据。

信令也是非结构化数据。

第五个是金融。

每一个交易周期，纽交所捕获的数据量只有1TB，没有很大的数据量。

第六个是网络销售。

淘宝每日订单量大概1000万，阿里巴巴已经积累的数据超过100PB。

第七个是科研。

比如说，欧洲核子研究中心强子对撞机每秒产生大约40TB数据。

第八个是政府。

美国政府大概拥有800PB以上数据。

在美国，除了商业公司，美国政府大概是第二位拥有海量数据的数据源。

分行业的列举，只是希望给各位一个印象，从比较中认识到，与传统的三角鼎立之势比较，在大数据时代，科学研究，尤其是社会科学的数据量是非常可怜的，你想找一个PB级数据的机构都找不到，几乎没有。

要找一个PB级的社会学研究数据，我估计你在全世界都找不着。

为进一步让各位了解数据的来源，给大家两个图示。

第一幅是一分钟在因特网上有多少事（whathappensinaninternetminute），第二幅是一天的每一分钟互联网上人们做什么（everyminuteoftheday）。

两幅图，大家在网上都可以找到。

给大家举一个例子，比如说苹果，一分钟会有4.8万个APP被下载，你就知道数据量有多大了。

图1“whathappensinaninternetminute”图2“everyminuteoftheday”（三）大数据的挑战到底在哪里？

我的观点是，大数据对于调查数据的挑战取决于它对调查数据的替代程度和扩展程度。

常用的调查数据，是小数据。

大数据跟它有交集，现在问题在哪里呢？

这两个数据都是可用的研究数据。

对于社会学研究而言，至少是现在，我们用大数据的机会非常小，我们没有大数据。

好在，我们还有小数据。

接下来的问题是，两个数据的交集重叠的部分会怎样发展变化（参见图3）。

如果调查数据完全被取代，则社会学研究的技能包括思想便需要重来，这将是最大的挑战。

否则，社会学研究还可以依据小数据继续发展。

图3大数据、小数据与研究数据的关系大数据对小数据的替代取决于两个因素，一个是传感器的应用，一个是算法技术的发展，两者的发展都会直接影响社会学未来的发展走向。

对于调查数据而言，譬如人口普查、民意调查、社会调查、健康调查等等。

这些调查通常用于什么呢？

对个体，用于研究人的行为、健康、教育、成就、幸福，大概就是这些事；

对群体，用于研究群体的行为、结构和动态；

对社会，研究社会的状态、结构和动态。

大数据对社会学研究的影响在于，大数据有没有可能替代调查数据用于我们要研究的内容。

那么，大数据可以用于什么研究呢？

譬如社交网是人的基本人情网络或人际网络；

然后生活网，买东西，卖东西，刷卡；

工作网络，每天上地铁，上班，在办公室

展开阅读全文