身边的大数据.docx
《身边的大数据.docx》由会员分享,可在线阅读,更多相关《身边的大数据.docx(4页珍藏版)》请在冰豆网上搜索。
身边的大数据
躲不开的大数据
提起大数据,很多人都有一个误解,过去我们认为,随着人类信息记录技术和传输技术的发达,以及成本越来越低,我们的数据记录就从一些小数据慢慢变成一个巨大的数据包,大数据是这样吗?
错!
大数据的本质不在于它的大,而在于它的全!
我们是通过多维的、多角度的记录一个世界,或者一个人的真相和行为轨迹,我们来判断它原本的本来面目。
很多人一提大数据,就把它当做一个高大上的事物来对待,其实所谓的大数据,更多的是一种理念,今天,我就将我对大数据的理解和大家做一个分享。
(1’02”)
【Part 1】
大数据有一个关键词,叫做“交叉复现”,或者叫做“交叉复用”。
什么意思呢?
我举一个例子。
在时装界有个大品牌叫Prada,它在纽约的旗舰店最近几年就搞了一个小改革,每一件衣服上都有一个芯片,当这件衣服被拿到试衣室的时候,试衣室有一个记录仪,就记录一次,说明这件衣服进过试衣室,但这件衣服是不是被买了,这个探测器不管。
过去的所谓的商业数据就是进、销、存,我进货多少、销出去多少、库存有多少,它只记录这些信息,这叫大数据吗?
这不叫大数据,因为它虽然数据量非常大,但是它记录的是一个单维信息,可是当Prada做了这个小实验,虽然只记录一个并不太大的一个数据规模,但是由于它角度变了,于是大数据的规模就突然一下出来了,大家想啊,原来Prada只能知道我哪件衣服好销,但是有一类衣服是这样的,大家一看很喜欢,摘下来到试衣间试,试完了之后,因为某种缺陷,大家把它撂下了,没买,所以当这两个数据,就是柜台边的销售数据和试衣间里面的试衣数据,两个一碰,Prada就能找出一些衣服的地款型,它们很好看,第一感觉很好,但是卖不掉,一定是因为有什么缺陷,把这个缺陷改进完了,等于Prada就马上多了几款热销的品种,所以在商业上,这样多维的交叉复现就这样用起来了。
(2‘07”)
再比如说,互联网金融,虽然现在学术界对其争论非常多,但它一定是一种先进的方式,因为它正在用大数据的方法,一点一点地去逼近在传统社会中要用极高的成本去解决的一个问题,就是信用差别。
传统的银行要决定给一个贷款客户办理贷款业务,这得下多少功夫啊!
这得老师傅带一个团队,做各种各样的调查,最后发现信用不错,我们放心把钱借给你。
可是在互联网时代,所有的信用判别,要用大数据的方法,它的成本会低到不像话,比如一家互联网金融公司,他做P2P的贷款,你要找这家公司贷款,它只要你填一个简单的表格就行了:
姓名、住址、电话号码、你的单位、你的工资卡的卡号,就是证明有人正常给你发工资,你有基本的信用记录,就行了!
你申请贷款几万、几十万,就这么给你了!
那你说这不是不负责任嘛?
对,在传统社会看来,这就叫不负责任,但在大数据时代来看,未必如此。
他可以通过多个信息、通过交叉复现得知你很多东西,比如说你的住址,这是不是一个好的小区,你住不住得起好房子?
那你说我填一个假地址行不行?
不行的!
大数据交叉验证,它可以到你微博上看呀,看你微博在哪儿发,因为发微博,最多的可能性一个是家、一个是单位,你如果有单位,因为你有工资卡,对不对?
那另外一个点,发微博最多应该就是你家,那你常住的地址和你填的这个地址是不是吻合,这就是交叉去验证。
然后再比如说,它能够知道你每个月交的电费,它就知道你家里的电器的使用量,这基本上也可以衡量出一个人的生活水平和收入水平。
再比如说,它知道你的电话号码,那你电话费交的情况是怎么样呢?
你买这个电话是分期付款还是一把付掉的呢?
你用的电话是一种什么类型的电话呢?
等等。
所有这些信息通过交叉验证,就又能呈现出来。
甚至在洛杉矶,有一家专门就做给那种叫高风险贷款,就是你没啥信用记录,或者信用记录不好的人,我给你放贷款,这家公司就用了很多大数据的手段,它甚至细到什么程度,比如说你在银行,你总要填自己姓名吧,它就看你怎么填,它不会告诉你的。
你如果全是小写,这是一种很不规范的填法,说明你这个人有点粗枝大叶;如果你全是大写,说明你这个人有点狂妄自大。
那最标准的填法是什么?
首字母大写,后面小写。
就说明你这个人很精细,那很精细的人通常来说,你的信用度要好那么一点点,那它就把这一点点记入对你信用的判别的整体的数据库,人家监控的就这么细!
洛杉矶这家公司试验下来,它的坏账率比同样做这一行,但是没有用大数据的整个坏账率要低60%!
这是我用最简单的方法给大家讲大数据起作用的原理。
(4’21”)
【Part 2】
那有些人又说了,这和我有什么关系呢?
我不排斥别人用大数据,但我自己用不上大数据,碰到大数据我躲着行不行?
实话告诉你,还真不行,因为在座的每一个人,都是大数据的提供者。
比如说你用的是智能手机,你新装软件的时候,它会有一条提示的:
这个软件会调用你的通话记录、短信、WIFI、LBS、你的地址……所有这些东西要调用,可不可以?
可以你就装,不可以你别装!
人家软件公司做的有问题吗?
人家没有问题,全告诉你了!
时间长了之后,你根本看都不看,大家扪心自问,有几个人安装软件的时候,会把这些提示条款全部看清楚的?
几乎没有吧!
所以大数据时代原来保护隐私的那一整套方法全部失效!
原来你愿意告诉别人你就告诉,不愿意告诉你留着。
现在,你把愿意告诉的告诉出去,不愿意告诉的自然也就泄露了。
(1’20”)
大家说那为什么商业社会这么大劲头呢?
打一个比方,比如说保险公司,我们就说汽车保险吧,保险公司就特别有积极性,去搜集你驾车的一系列的记录,我们假设,大家用的都是全自动的,大数据的那种汽车,所有的数据都被记录。
保险公司当然要知道啊,你每天要开多少公里,你是从哪儿到哪儿,是风险路段还是低风险路段,然后就通过你踩油门、踩刹车的行为习惯,来判断你有没有很好的驾驶习惯,你这个是白天出去还是晚上出去,是愿意开快车还是愿意开慢车等等,这些数据搜集来了之后,保险公司有大用场!
现在保险公司来判断你的驾车习惯,只能根据你一年事故量,然后确定你明年的保险额,但是未来保险公司可以制作非常精细的产品,对于那些上班族,开不了几分钟就到单位的,车一下就放到了停车场,开车习惯很好,他可以把保险费用降得非常之低。
而对那些开车习惯不好,经常在风险路段上的,他可以把保险费用提高。
如果一个保险公司有了大数据,以及相应的分析手段,那么,它跟它竞争的那些保险公司,不要玩了,其他公司怎么竞争得过它!
所以商业竞争有时候就靠这么一丝一毫的妙到毫巅的竞争差距,所以你想,这些保险公司还不疯了似的去搜集你的这些数据!
这样的事情离我们很远吗?
其实就在我们身边,头两天,ETC办理升级业务,我就去了,当我把身份证复印件、行车证复印件提交给办业务的小姑娘,办理完之后,小姑娘嫣然一笑,“大哥,来,和你的爱车合个影!
”当她按动快门的那一瞬间,我就知道,她用高速路通行费优惠5%这么廉价的成本,就把我的身份信息、家庭住址、联系方式、车辆型号、上下高速的时间、地点、距离等等一系列的数据,就这么拿走了!
(2’42”)
【Part 3】
大数据时代还有一个关键词,叫“全息可见”。
就像一个人看澡盆里的鱼那样,真相看得清清楚楚,很多科幻小说是用四维世界对三维世界的比方来说明这个道理,四维世界需要点想象力,我们降低一个标准,打另外一个比方,就是三维对二维。
我们假设二维世界,就是一个平面上有生物,这些生物是平面的,两个生物见面打招呼,这个生物看另外一个生物是什么?
它不是个图形,它就是一个线段,俩图片这么遇见了,这个图形长什么样?
隐私!
不告诉你!
但是对我们三维世界的人哪有什么隐私可言呢?
往下一放,站在高处一看,每一个图形是什么样清清楚楚!
对,四维世界的人看我们,也是这样,所以中国古代的诗人就说得好啊:
会当凌绝顶,一览众山小;欲穷千里目,更上一层楼。
只要站得高,只要你有足够的视野,你看到的真相不仅全,而且真。
所以这个大数据时代,每个人几乎都成了透明。
这才是残酷的真相。
(1’35”)
那这会引发什么样的动荡呢?
有些东西说来你可能不信,我们的理论体系可能会因此而崩塌。
比如说因果关系,这是人类认知世界的一个最重要的工具。
从小老师就告诉我们:
知其然,还要知其所以然!
但是大数据时代不这么看待问题,当我的数据足够多,维度足够丰富,我可以直接看到结果,我为什么要知道过程呢?
有一个非常经典的例子,很多人在很多场合都听过,就是沃尔玛发现,啤酒和尿布这两个东西的销售量严重相关,有的人买啤酒多了,他就会买尿布。
或者反过来说,买尿布多了就会买啤酒。
学者们就分析了,找理由,有的人这么解释,说你看,买尿布的一般是爸爸,因为孩子在家刚生出来,妈妈在家看着呢,所以爸爸出来买尿布,逛着逛着,一看正好有啤酒,好,犒劳一下自己,就随手拎上两瓶,所以这个就相关的。
你看,这还能回头倒出点联系,倒出点因果关系。
可是我要再告诉你沃尔玛的几个数据,你就傻眼了。
比如说刮飓风的时候,蛋挞卖得好,你说为啥吧?
雨天的时候,蛋糕卖得好;随着气温的升高,三明治卖得好。
对商家来说,他才不像我们的学者们还得研究为啥,他需要知道为什么干什么?
他只需要有这个结果就可以了!
啤酒和尿布相关,就把两样东西摆在了一起来卖。
下雨天的时候多备蛋糕,随着气温的升高多备三明治,他只需要做这个就可以了!
所以有一个材料就显示,在欧洲的超市里面,就因为利用了大数据这种分析,这欧洲的蛋糕店、面包店它的平均利润提高了20%,对于商家来说,这已经是他要的结果了,我不需要推导过程,我甚至不需要知道它为什么发生。
所以现在就有一个观点,让我们大惊失色:
“随着大数据的到来,理论终结了”!
因为人们只需要知道相关关系就可以了。
大数据时代的人们可以真扑真相,传统社会人们获得知识的很多方式,在大数据面不堪一击,大数据一来,告诉你,我有独特的方法,我可以直接获取世界的真相和知识!
(3’20”)
【Part 4】
那我说了这么多,就要回到我想要说的真正主题了,大数据时代的税收工作如何做?
省局领导给利用大数据思维开展税收管理工作起了一个非常好的名字:
风险管理。
对内,可以识别出我们税务干部的内控风险、执法风险;对外,可以识别出纳税人的遵从风险。
识别的方式就是利用刚才我们说的大数据思维模式下的“交叉复现和全息可见”。
举个例子,我在基层工作的时候,我们就设计了一个很好的关于契税的指标。
有这么四个数据:
土地出让金,在国土局存着;土地开垦费,在财政局存着;城市配套费,在规划局存着;契税征收数据,在我们的征收系统存着。
公式很简单(A+B+C)×4%=契税,小学生都会做。
可过去这四个数据之间相互之间见不着面,四个衙门的门槛都高嘛!
当数据没有发挥它的比较优势时,它不是数据,它仅仅是一堆无用的数字而以。
我们从其他三个部门拿到了数据,和我们的征收数一碰,交叉复现,就发现了问题。
这个数据规模并不大,每个单位只有几十个数据,但它却是多维的,发现的问题却不少,一下发现了十几个问题。
辖区内所有类似的问题全部曝露无疑,这就是全息可见!
有人就会问了,纳税人的遵从度怎么这么低?
你从来就没有监管过嘛!
你这次一“交叉复现,全息可见”,下次它就知道了,哦,人家信息共享了,那咱还是遵从吧,“始于纳税人需求、基于纳税人满意、终于纳税人遵从”不就实现了吗?
我这么一说,大家就明白了,原来风险管理是高科技啊!
哪有!
它的原理和买菜做饭是一样的。
比如说,税政部门为了加强税种管理,做出了一个风险指标,这就是列菜谱;数据管理部门一看指标,好,采集数据,这就是按照菜谱买菜;风险管理部门按照指标对数据进行加工,生成风险任务,这就是掂锅炒菜,我们现在正在上线的风险管理系统就是炒菜的锅,就是一个生成风险任务的工具。
所以说,风险管理部门其实在整个税收风险管理体系当中,是一个服务部门,是直接为税收管理服务的。
(3’27”)
【结束语】
大数据时代已经扑面而来,尤如惊涛拍岸一般,日夜不息、无休无止地拍打着我们传统社会下的传统思维模式,大数据就像空气一样紧紧包围着我们,让我们无处可躲。
这样的情形下,除了改变旧的思维习惯,适应新的发展形势,我们别无他法。
很荣幸,我能够在全国税务系统第一个成立的税收风险管理部门工作,能够在置身于税收管理改革的最前沿,能够以自己的努力去践行省局党组提出的“坚持以‘三个服务’为引领,奋力建设‘六个地税’,加快推进税收现代化”的宏伟目标,我为此而骄傲!
(53”)