互联网大数据调研报告.docx

上传人:b****9 文档编号:52629 上传时间:2022-10-01 格式:DOCX 页数:13 大小:22.04KB
下载 相关 举报
互联网大数据调研报告.docx_第1页
第1页 / 共13页
互联网大数据调研报告.docx_第2页
第2页 / 共13页
互联网大数据调研报告.docx_第3页
第3页 / 共13页
互联网大数据调研报告.docx_第4页
第4页 / 共13页
互联网大数据调研报告.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

互联网大数据调研报告.docx

《互联网大数据调研报告.docx》由会员分享,可在线阅读,更多相关《互联网大数据调研报告.docx(13页珍藏版)》请在冰豆网上搜索。

互联网大数据调研报告.docx

互联网大数据调研报告

0

目录

1互联网大数据应用现状 1

2大数据应用于互联网商务交易 2

3大数据应用于互联网信息获取 4

4大数据应用于互联网交流沟通 6

5大数据应用于移动互联网 8

6互联网大数据发展趋势 11

1

1互联网大数据应用现状

随着互联网普及率的不断提升以及移动互联网的快速发展,互联网应用的发展趋势也在不断发生转变,互联网发展重心从“广泛”转向“深入”,网络应用对大众生活的改变从点到面,互联网对网民生活全方位渗透程度进一步增加。

互联网应用的深入产生了海量的应用大数据,大数据是互联网的重要资源,也是互联网商业模式中核心价值点所在,因此,大数据理论和技术在互联网应用中起到至关重要的作用。

互联网应用的多样性导致其涉及的大数据内容呈现不同的特点,针对不同需求研究和采用适宜的大数据技术能够获得更好的互联网应用和服务,提升用户体验,从而带动互联网整体发展。

根据中国互联网络信息中心2014年7月发布的最新一期《中国互联网络发展状况统计报告》,互联网应用主要分为四类:

商务交易类应用;信息获取类应用;交流沟通类应用;网络娱乐类应用。

各应用领域分别包括不同的应用场景,其中绝大多数互联网应用涉及大数据相关技术。

特定互联网应用具有其固有特点,例如增长率较高的支付相关商务交易类应用,要求大数据技术在其中有针对性的发展。

又如,移动互联网的快速发展使数据本身发生了变化,也使大数据技术的应用面临新的机遇和挑战。

通过深入分析互联网应用的特点,不断改进和完善大数据技术,使其与互联网应用更加紧密的结合,能够让数据本身为互联网应用带来更高的附加价值。

以下就大数据技术与互联网应用相结合的典型场景进行深入介绍。

2大数据应用于互联网商务交易

截至2014年6月,我国网络购物用户规模达到3.32亿,网上支付是用户规模增长速度最快的商务类应用。

网络购物用户规模增长除了得益于商务部政策、新《消费者权益保护法》等对于电子商务市场的规范活动之外,很大程度上得益于电商平台服务提升,其中重点包括企业基于大数据应用推出C2B 定制化创新模式,更好的匹配了用户个性化需求,实现精准销售。

在互联网时代,由于用户群体庞大,当前电子商务平台必须面对海量的应用大数据。

与此同时,用户提出了越来越强的信息过滤和个性化的需求。

匹配用户个性化需求,实现精准销售,需要借助大数据技术在海量数据中抽取精准信息,其中首要的是充分分析数据特征。

大数据时代,随着人们的生活全面向互联网和移动互联网转移,随之而来的是信息过载(informationoverload)的问题,大量信息位于所谓的长尾区域。

从电子商务的角度来看,由于货架成本及其低廉,因而商品总数很大。

比如在淘宝网上,每天在线的货品超过了8亿件。

传统上的

2/8原则(即80%的销售来自于20%的热门商品)收到了挑战。

虽然绝大部分的商品不热门,甚至都得不到曝光的机会,但他们的数量极其庞大,因此这些长尾商品的总销售额将是一个不容忽视的数字。

从用户需求来说,这部分具有特异性的商品往往对应他们的个性化需求。

智能推荐系统是商务交易类互联网应用中典型的大数据应用实例,其目标是通过发掘用户行为,找到用户的个性化需求,帮助用户发现那些感兴趣但很难发现的信息。

它以大数据为基础,应用个性化技术,帮助用户从海量信息中晒取所需的信息。

对比搜索系统,当用户需求明确的时候,则进行搜索。

当用户需求不明确的时候,则需要推荐。

跟广告系统相比,计算广告目标是直接提高收益,而推荐系统在满足用户体验的基础上,间接创造价值。

推荐系统能够应用到的场景主要有三个:

第一个是根据物品推荐物品,典型的例子是在电商网站上推荐已购买过的商品;第二个场景是为用户推荐物品,最典型的是个性化邮件过滤和基于浏览历史的推荐;第三个场景是为用户推荐用户,像社交网站上的好友推荐和电

11

商网站上的跟您相似的顾客等都属于此类。

大数据技术在智能推荐系统等相关商务交易类互联网应用中以不同的形式发挥作用,按照其所基于的数据类型可以分为三大类,分别是基于内容的方法,基于协同过滤的方法,和组合方法。

一、基于内容的方法处理对象包括用户的内容和物品的内容,通过对于数据的特征化表述以及历史上用户是否选择了某个物品的数据收集,把推荐问题转化为分类问题。

基于内容的方法,实现简单直接,适合处理冷启动问题。

二、基于协同过滤的方法是基于用户行为分析的推荐算法,指用户可以协作,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。

协同过滤类推荐方法的适用性较广,更倾向于推荐比较流行的物品,较难实现推荐的多样性。

三、组合方法是指同时实现两个或者多个不同的方法并组合最终结果。

大数据技术在互联网商务交易领域应用十分广泛,在智能推荐系统等重要应用中起着至关重要的作用。

但是必须指出的是,互联网商务交易中大数据处理仍然存在一定的挑战,主要体现在以下几个方面:

(1)数据稀疏性问题:

由于互联网应用中有效数据所占比例较低,因此在极端不均衡数据上,会出现参数抖动严重等情况。

(2)数据规模问题:

在很多应用场景中,有千万级的用户和百万级别的物品,用户/物品关联矩阵达到百亿甚至十万亿的规模。

对于大数据存储、处理和计算是很大的挑战。

(3)冷启动问题:

这一类问题没有一个固定的解决方案,需要针对不同的应用场景提出不同思路。

(4)评估的多标准问题:

数据评估标准有很多,包括精准性、覆盖率等定量的指标和实效性、健壮性等只能定性衡量的指标。

需要根据应用场景制定大数据处理原则,通过合适地技术选型,构建系统并且完成评估。

3大数据应用于互联网信息获取

搜索引擎是最主要的互联网信息获取类应用,截至2014年6月,我国搜索引擎用户规模达5.07亿,使用率为80.3%。

2014年上半年,搜索引擎创新技术的实际应用取得了一定进展,企业基于“语义搜索”与“知识图谱”技术,整合社交、视频、旅游、软件应用下载等多类信息,开发上线新的搜索产品。

搜索引擎在PC端及移动端均形成了以搜索产品为核心,集地图、娱乐、购物、社交、本地生活服务等应用为一体的搜索服务,提升了用户体验和使用黏性。

搜索引擎天生就是一个大数据系统,互联网产生了海量数据,如何从中找到需要的信息就是一个大数据的命题。

同时,利用大数据理论和技术,通过对网民搜索内容、习惯、爱好、行为、关键词等的深入分析,可为网站的建设、搜索引擎技术的改进等提供依据。

搜索引擎的诞生,从一定程度上满足了用户在海量互联网数据中查找信息的需求,但还存在很大的可优化空间。

传统的搜索引擎根据查询词返回相关网页文档链接,还需要用户自己去阅读大量网页内容才可获得其所需信息,尤其对手机等移动终端,用户浏览大量的网页和摘要内容很不方便。

为了克服传统搜索引擎的弊端,人们正尝试探索更高效、更人性化的搜索引擎技术,如直接搜索或知识图谱搜索、直接提问或输入关键词,然后系统直接提供答案,而不是包含答案信息的链接或相关文档;系统自动完成答案抽取,帮助用户快速定位所需信息,直接给出答案,从而可节省用户阅读大量网页或文档的时间。

知识图谱则是展现搜索词相关知识,通过结构化的方式予以呈现,让用户可以快速、全面地了解相关信息,增强使用体验。

为了达到这一目的,首先需要理解这些查询问题,同时要了解问题所对应的答案,答案需要从海量垂直网站或者用户搜索词中挖掘。

包括基于半监督学习的新词及专名挖掘、面向垂直领域定向抽取的三元组挖掘、基于用户行为日志数据的实体关联挖掘、基于搜索引擎的实体语义标签挖掘等。

抓取并索引的网页数量就是衡量搜索引擎质量的重要因素之一。

如今,百度、

必应、谷歌等主流的搜索引擎都要抓取数以千亿计的网页,同时索引数百亿的网页,以提供良好的搜索服务。

为了处理如此巨量的数据,MapReduce、Hadoop等大规模数据处理系统应运而生,利用这些系统,搜索引擎公司就能高效地计算网页的各项特征,为索引数十亿计的网页打下基础。

此外,在线系统也已演化为高度并行的容错系统,以保证在有上百万用户同时使用的情况下,搜索引擎仍可在

1秒内为绝大多数查询返回结果。

为了进一步提高搜索效果,搜索引擎越来越多地引入自然语言处理和知识库技术。

和传统方法相比,这些技术更加复杂、计算量更高,因此要求大数据系统提供更高的计算能力。

改造大数据系统的途径有很多,例如,进一步增加系统中节点的数量、充分利用CPU的多核能力、利用显卡的运算能力,甚至直接使用

FPGA执行定制化的处理算法等。

另一方面,进一步理解查询和用户意图/兴趣对搜索技术也正变得越来越重要;与理解网页不同的是,利用查询历史理解查询和用户意图/兴趣常常需要用到基于图和矩阵的算法,这些算法和MapReduce式的计算框架并不完全契合,因此需要研究新的计算框架,以便提供支持。

4大数据应用于互联网交流沟通

随着国外社交网站Facebook,Twitter,LinkedIn等的发展以及国内的微博、微信等社交工具的不断壮大,基于社交网络的各种互联网交流沟通类应用不断演进和发展。

单就我国互联网应用现状来看,截至2014年6月,我国即时通信网

民规模达5.64亿,使用率仍高居互联网交流沟通类应用第一位。

与此同时,社交网站使用率则持续下滑,前景不容乐观。

以上两方面现象其根本原因都是由数据流向决定用户黏性。

社交网络之所以吸引人,是因为其用户产生了大量有价值的用户数据(UGC,UserGeneratedContent),而且这些数据能和一个个活生生的人对应起来。

因此,对社交网络上的产生的各种用户数据进行分析,是社交网络分析及其重要的一个方面。

无论是即时通信、社交网站、微博还是博客,都是网民交流的平台,每天产生大量的数据。

通过对社交网络中的大数据进行分析,可以了解用户的思维习惯及其对社会的认知。

对微博等社交网络信息空间大数据的挖掘能够及时反映经济社会动态与情绪,预警重大、突发和敏感事件(如流行疾病爆发、群体异常行为等),协助提高社会公共服务的应对能力,对维护国家安全和社会稳定具有重大意义。

社交网络中一个典型的大数据应用场景是舆情分析,是指对热点事件在网络上的传播过程加以监测,了解人们对此的态度,从而在必要的时候加以干预和引导。

在当前这个社交网络高度发达的时代,公众对于很多问题都有发言的欲望,加之社交网络传上信息传播的快速性和不可控性,舆情分析对于政府,商业实体和公众人物都有着重要的意义。

对于舆情分析的支持系统来说,处理逻辑往往相对简单,比如按照特定关键字对相应的内容进行过滤,这其中最关键的技术要求就是对海量数据的实时处理,这就需要高性能的大规模并行处理数据库或者流数据处理系统的支持。

另一方面,社交网络上的用户产生的大量内容往往隐含着大量隐含的信息,对这些信息进行综合处理以后往往会得到非常有价值的信息,比如对热点事件的预测/预警。

在社交网络时代,信息发布的门槛较低,信息传播

速度快,各种真实和不真实的信息在社交网络上随时都可以爆炸式的传播。

利用大数据技术收集和分析社交网络上传播数据内容,分析其背后隐含的意义,能够对特定的事件进行预测。

此外,影响力分析也是社交网络中需要运用大数据技术进行处理的关键问题,用户在社交网络中的行为(比如对相应微博的评论,转发等)也代表了影响力,例如新浪微博上的大V账号,其粉丝动辄上百万,其发布的任何一条微博,转发数评论数都极其巨大,换句话说他们有着巨大的影响力。

在进行大数据分析计算影响力的时候,需要将相应的数据考虑进来,对社交网络节点的影响力进行量化就是影响力分析要解决的问题。

影响力分析一个自然而言的扩展应用就是用户搜索。

社交网络将人们的互联网生活和虚拟生活融合在一起,人们在社交网络上形成了各种社区,产生了大量各种领域相关的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1