第14章大数据管理数据库系统概论第五版.docx

上传人:b****5 文档编号:5538309 上传时间:2022-12-19 格式:DOCX 页数:19 大小:953.84KB
下载 相关 举报
第14章大数据管理数据库系统概论第五版.docx_第1页
第1页 / 共19页
第14章大数据管理数据库系统概论第五版.docx_第2页
第2页 / 共19页
第14章大数据管理数据库系统概论第五版.docx_第3页
第3页 / 共19页
第14章大数据管理数据库系统概论第五版.docx_第4页
第4页 / 共19页
第14章大数据管理数据库系统概论第五版.docx_第5页
第5页 / 共19页
点击查看更多>>
下载资源
资源描述

第14章大数据管理数据库系统概论第五版.docx

《第14章大数据管理数据库系统概论第五版.docx》由会员分享,可在线阅读,更多相关《第14章大数据管理数据库系统概论第五版.docx(19页珍藏版)》请在冰豆网上搜索。

第14章大数据管理数据库系统概论第五版.docx

第14章大数据管理数据库系统概论第五版

第14章大数据管理

大数据是当今科技界和工业界甚至世界各国政府关注的热点。

国际著名的学术期刊《Nature》和《Science》等相继出版专刊来专门探讨大数据带来的挑战和机遇,著名管理咨询公司麦肯锡声称,数据已经渗透到每一个行业和业务职能领域,成为重要的生产因素。

人们对于大数据的挖掘和运用,预示着新一波生产力增长和科技发展浪潮的到来。

科技界和工业界正在研究大数据理论和技术、开发大数据系统,企业、政府、科研院所等各行各业都在努力应用大数据。

大数据正在孕育新的学科——数据科学。

大数据正在创造价值、正在形成新的产业,正在给我们展现无穷的、变化的、灿烂的前景。

本章介绍什么是大数据,大数据的特征,大数据的应用以及大数据管理系统,着重从数据管理和数据处理的角度来讨论这些问题和技术。

大数据热,说明大数据的理论、技术、系统和应用都远远没有成熟,介绍的内容必将随着时间的推移不断更新发展。

14.1大数据概述

14.1.1什么是大数据

什么是大数据?

大数据和数据库领域的超大规模数据(verylargedata)、海量数据(massivedata)有什么不同?

“超大规模数据库”(VeryLargeDatabase,VLDB)这个词是20世纪70年代中期出现的,在数据库领域一直享有盛誉的VLDB国际会议就是从1975年开始,到2014年已经40届了。

当年数据库中管理的数据集有数百万条记录就是超大规模了。

“海量数据”则是21世纪初出现的词,用来描述更大的数据集以及更加丰富的数据类型。

2008年9月,《Science》发表了一篇文章“BigData:

ScienceinthePetabyteEra”,“大数据”这个词开始被广泛传播。

这些词都表示需要管理的数据规模很大,相对于当时的计算机存储和处理技术水平而言,遇到了技术挑战,需要计算机界研究和发展更加先进的技术,才能有效地存储、管理和处理它们。

回顾一下面对“超大规模”数据,人们研究了数据库管理系统的高效实现技术。

包括系统的三级模式体系架构,数据与应用分离即数据独立性的思想(增加了数据库管理系统的适应性和应用系统的稳定性),关系数据库的描述性语言SQL,基于代价的优化技术,事务管理与故障恢复技术,等等。

创建了一套关系数据理论,奠定了关系数据库坚实的理论基础。

同时,数据库技术在商业上也取得了巨大成功,引领了数十亿美元的产业,有力地促进了以OLTP和OLAP为标志的商务管理与商务智能应用的发展。

这些技术精华和成功经验为今天大数据管理和分析奠定了基础。

为了应对“海量数据”的挑战,研究了半结构化数据和各种非结构化数据的数据模型及对它们的有效管理、多数据源的集成问题等。

因此,大数据并不是当前时代所独有的特征,而是伴随着人类社会的发展以及人类科技平的提高而不断发展演化的。

当前,人们从不同的角度在诠释大数据的内涵。

关于大数据的一个定义是,一般意义上,大数据是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。

还有专家给出的定义是,大数据通常被认为是PB(103TB)或EB(1EB=106TB)或更高数量级的数据,包括结构化的、半结构化的和非结构化的数据。

其规模或复杂程度超出了传统数据库和软件技术所能管理和处理的数据集范围[10]。

有专家按大数据的应用类型将大数据分为海量交易数据(企业OLTP应用)、海量交互数据(社交网、传感器、全球定位系统、Web信息)和海量处理数据(企业OLAP应用)[10]。

海量交易数据的应用特点是数据海量、读写操作比较简单、访问和更新频繁、一次交易的数据量不大,但要求支持事务ACID特性。

对数据的完整性及安全性要求高,必须保证强一致性。

海量交互数据的应用特点是实时交互性强,但不要求支持事务特性。

其数据的典型特点是类型多样异构、不完备、噪音大、数据增长快,不要求具有强一致性。

海量处理数据的应用特点是面向海量数据分析,计算复杂,往往涉及多次迭代完成,追求数据分析的高效率,但不要求支持事务特性。

典型的应用是采用并行与分布处理框架实现。

其数据的特点是同构性(如关系数据或文本数据或列模式数据)和较好的稳定性(不存在频繁的更新操作)。

当然,可以从不同的角度对大数据进行分类,目的是有针对性地进行研究与利用。

例如,有些专家将网络空间(cyberspace)中各类应用引发的大数据称为网络大数据,并按数据类型分为自媒体数据、日志数据和富媒体数据三类[14]。

14.1.2大数据的特征

大数据不仅仅是量“大”,它具有许多重要的特征。

专家们归纳为若干个V,即巨量(Volume)、多样(Variety)、快变(Velocity)、价值(Value)大数据的这些特征给我们带来了巨大的挑战。

1.巨量

大数据的首要特征是数据量巨大,而且在持续、急剧地膨胀。

据国际著名的咨询公司IDC的研究报告称,到2020年全球数据总量将达到40ZB,人均5.2TB。

大规模数据的几个主要来源如下:

(1)科学研究(天文学、生物学、高能物理等)、计算机仿真领域。

例如,大型强子对撞机每年积累的新数据量为15PB左右。

(2)互联网应用、电子商务领域。

例如,沃尔玛公司(Wal-Mart)每天通过数千商店向全球客户销售数亿件商品,为了对这些数据进行分析,沃尔玛公司数据仓库系统的数据规模达到4PB,并且在不断扩大。

(3)传感器数据(sensordata)。

分布在不同地理位置上的传感器对所处环境进行感知,不断生成数据。

即便对这些数据进行过滤,仅保留部分有效部分,长时间累积的数据量也是惊人的。

(4)网站点击流数据(clickstreamdata)。

为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来,利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的个性化服务。

(5)移动设备数据(mobiledevicedata)。

通过移动电子设备,包括移动电话和PDA、导航设备等,可以获得设备和人员的位置、移动轨迹、用户行为等信息,对这些信息进行及时分析有助于决策者进行有效的决策,如交通监控和疏导。

(6)无线射频识别数据(RFIDData)。

RFID可以嵌入到产品中,实现物体的跟踪。

RFID的广泛应用将产生大量数据。

(7)传统的数据库和数据仓库所管理的结构化数据也在急速增大。

总之,无论是科学研究还是商业应用,无论是企业部门还是个人,处处时时都在产生着数据。

几十年来,管理大规模且迅速增长的数据一直是一个极具挑战性的问题。

目前数据增长的速度已经超过了计算资源增长的速度。

这就需要设计新的计算机硬件以及新的系统架构,设计新硬件下的存储子系统。

而存储子系统的改变将影响数据管理和数据处理的各个方面,包括数据分布、数据复制、负载平衡、查询算法、查询调度、一致性控制、并发控制和恢复方法,等等。

2.多样

数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。

现在,越来越多的应用所产生的数据类型不再是纯粹的关系数据,更多的是非结构化、半结构化的数据,如文本、图形、图像、音频、视频、网页、推特和博客(blogs)等。

现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末非结构化数据占有比例达到整个数据量的75%以上。

对异构海量数据的组织、分析、检索、管理和建模是基础性的挑战。

例如,图像和视频数据虽具有存储和播放结构,但这种结构不适合进行上下文语义分析和搜索。

对非结构化数据的分析在许多应用中成为一个显著的瓶颈。

传统的数据分析算法在处理同构数据方面比较成熟,是否将各种类型的数据内容转化为同构的格式以供日后分析?

此外,考虑到当今大多数数据是直接以数字格式生成的,是否可以干预数据的产生过程以方便日后的数据分析?

在数据分析之前还要对数据进行清洗和纠错,还必须对缺失和错误数据进行处理等。

因此,针对半结构化、非结构化数据的高效表达、存取和分析技术,需要大量的基础研究。

3.快变

大数据的快变性也称为实时性,一方面指数据到达的速度很快,另一方面指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。

许多大数据往往以数据流的形式动态、快速地产生和演变,具有很强的时效性。

流数据来得快,对流数据的采集、过滤、存储和利用需要充分考虑和掌控它们的快变性。

加上要处理的数据集大,数据分析和处理的时间将很长。

而在实际应用需求中常常要求立即得到分析结果。

例如,在进行信用卡交易时,如果怀疑该信用卡涉嫌欺诈,应该在交易完成之前做出判断,以防止非法交易的产生。

这就要求系统具有极强的处理能力和妥当的处理策略,例如,事先对历史交易数据进行分析和预计算,再结合新数据进行少量的增量计算便可迅速做出判断。

对于大数据上的实时分析处理,大数据查询和分析中的优化技术具有极大的挑战性,需要借鉴传统数据库中非常成功的查询优化技术以及索引技术等。

4.价值

大数据的价值是潜在的、巨大的。

大数据不仅具有经济价值和产业价值,还具有科学价值。

这是大数据最重要的特点,也是大数据的魅力所在。

现在,人们认识到数据就是资源,数据就是财富,认识到数据为王的时代已经到来,因此对大数据的热情和重视也与日俱增。

例如,2012年3月,美国奥巴马政府启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。

美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。

2012年5月,英国政府注资建立了世界上第一个大数据研究所。

同年,日本也出台计划重点关注大数据领域的研究。

2012年10月,中国计算机学会成立了CCF大数据专家委员会,科技部也于2013年启动了“973”、“863”大数据研究项目。

一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家与国家、企业与企业间新的争夺焦点。

大数据价值的潜在性,是指数据蕴含的巨大价值只有通过对大数据以及数据之间蕴含的联系进行复杂的分析、反复深入的挖掘才能获得。

而大数据规模巨大、异构多样、快变复杂,隐私等自身的问题,以及数据孤岛、信息私有、缺乏共享的客观现实都阻碍了数据价值的创造。

其巨大潜力和目标实现之间还存在着巨大的鸿沟。

大数据的经济价值和产业价值已经初步显现出来。

一些掌握大数据的互联网公司基于数据交易、数据分析和数据挖掘,帮助企业为客户提供更优良的个性化服务,降低营销成本,提高生产效率,增加利润;帮助企业优化管理,调整内部机构,提高服务质量。

大数据是未来产业竞争的核心支撑。

大数据价值的实现需要通过数据共享、交叉复用才能获得。

因此,未来大数据将会如基础设施一样,有数据提供方、使用方、管理者、监管者等,从而使得大数据成为一个大产业。

大数据研究的科学价值还没有引起足够的重视,本章文献[7]提出要把数据本身作为研究目标,关注数据科学的研究,研究大数据的科学共性问题。

数据科学是以大数据为研究对象,横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科。

对于大数据的研究方式,2007年1月11日,已故的著名数据库专家,图灵奖得主JamesGray在加州山景城召开的NRC-CSTB上的演讲提出了科学研究的第四范式。

他指出人类从几千年前的实验科学(第一范式),到以模型和归纳为特征的理论科学(第二范式),到几十年来以模拟仿真为特征的计算科学(第三范式),现在要从计算科学中把数据密集型科学区分出来,即大数据研究的第四范式(thefourthparadigm):

数据密集型科学发现(dataintensivescientificdiscovery),JamesGray认为,对于大数据研究,科研人员只需从大量数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。

例如,在天文学领域,天文学家的工作方式发生了大幅度转变。

以前天文学家的主要工作是进行太空拍照,如今所有照片都已经存放在数据库中。

天文学家的任务变为从数据库的海量数据中发现有趣的物体或现象。

科研第四范式将不仅是研究方式的转变,也是人们思维方式的大变化[7]。

这也许是解决大数据挑战的系统性的方法。

此外,IBM还提出了另一个V,即真实性(Veracity),旨在针对大数据噪音、数据缺失、数据不确定等问题强调数据质量的重要性,以及保证数据质量所面临的巨大挑战。

14.2大数据的应用

当前大数据的应用丰富多彩,本节通过介绍两个应用案例说明大数据应用具有的特点,以及对大数据管理和大数据系统提出的技术需求和挑战。

14.2.1感知现在预测未来——互联网文本大数据管理与挖掘

互联网媒体又称网络媒体,是以互联网为传输平台,以计算机、移动电话、便携设备等为终端,以文字、声音、图像等形式来传播新闻信息的一种数字化、多媒体的传播媒介。

互联网媒体相对于传统的报纸、广播、电视等媒体而言,也称为“第四媒体”。

1.互联网媒体文本大数据应用:

时事探针

高速发展的互联网媒体在给人们获取信息带来便利的同时,也带来了新的挑战,其中之一便是“信息过载”问题。

当一个重要新闻事件发生后,各种互联网媒体会有大量相关报道。

例如,2014年3月8日“马航失联”事件发生后,截至2014年5月21日,仅在XX中被索引的相关新闻数量就有500多万篇,Google中有5500多万,新浪微博的微博中有1580万,并产生了大量的转发和评论,这些信息每时每刻还在不断地增加。

如此大量的数据和信息往往超过了个人所能处理的范围。

首先,用户很难快速查找和浏览有用信息;其次,大量的信息是冗余和包含噪音的;再次,用户很难对海量的文本信息进行汇总和理解(如了解马航失联事件中各个搜救阶段的主要进行地点和负责机构)。

因此,如何处理和分析互联网媒体大数据,帮助人们在海量数据中获取及分析真实有价值的信息,从而正确感知现在,迅速预测未来,做好应急事件的预案和防范是一个具有重大价值并且亟待解决的研究问题。

时事探针系统是中国人民大学研制开发的一个互联网舆情分析系统。

该系统可以实时监控、收集互联网媒体数据,并对数据进行深入的挖掘和分析。

其主要功能包括动态数据抓取、历史数据保留、数据深度智能分析、数据可视化展示、敏感信息实时捕捉、预定阈值报警等。

该系统可以有效地帮助用户、企业以及政府机构对所关注的新闻话题在互联网媒体中的报道进行感知、获取、跟踪、预警和深入分析,具有极大的应用价值。

例如,可使用时事探针系统对“高考”这一话题进行分析。

图14.1显示媒体对于高考这一话题整体关注度较高,从2014年5月份开始,随着高考的临近,报道量持续增加。

图14.1“高考”话题的媒体关注度

图14.2展示了对“高考”热议话题的多维分析。

该图显示与“高考”有关的主要人物有袁贵仁(时任教育部部长)、鲁昕(时任教育部副部长)、顾明远(时任教育学会名誉会长)等;主要相关地点有北京、广东、江苏等高考大省:

教育部是最主要的相关机构,北京大学、清华大学、中国教育学会等也是相关机构;与“高考”相关的热议话题是异地高考、小高考、一考定终身等。

多维分析让用户对高考这一话题的主要内容一目了然。

图14.2对“高考”热议话题的多维分析

为深入了解报道内容,用户还可以在时事探针上进行多维度交叉分析。

例如,要深入了解关于英语退出高考的信息,可以选择相关话题中的“英语退出高考”,时事探针系统自动对其他维度进行更新。

图14.3显示有关该话题的正面报道、负面报道和中性报道的分布情况。

显示相关报道集中在5月19日左右,热门人物是顾明远,讨论最多的地点为上海和北京,核心报道内容为顾明远和教育部否认“英语退出高考”。

图14.3对“英语退出高考”子话题进行交叉深入分析

2.互联网文本大数据管理的挑战

目前互联网上的新闻报道以及相应的用户反馈(如评论、转发等)以文本内容为主。

该类文本大数据的出现,对现有数据库管理系统提出了挑战。

首先,文本数据中的主题是开放的,每天的新闻文档分别描述成千上万个无直接关联的新闻事件,无法事先预定义关系模式和值域。

其次,文本大数据一般由自然语言生成,没有确定的结构,无法直接用关系型数据进行存储和查询。

最后,互联网上的数据量巨大、变化速度快,对数据管理系统的可扩展性和实时性提出了很高的要求。

对于文本大数据处理,目前广泛使用的互联网搜索引擎(包括新闻搜索引擎)只是对文本数据的简单索引和查找,不能满足用户对所关注的话题进行实时监测、深入分析以及决策支持等需求。

例如,用户可以通过搜索引擎获取关于“马航失联”的最新报道,但仍然无法直接通过搜索引擎了解在该主题中主要的时间、地点、人物、相关事件以及最新进展。

3.互联网文本大数据管理系统

如上所述,现有的搜索引擎和关系型数据库都不能满足用户对互联网文本大数据管理和查询的需求。

互联网文本大数据管理系统在设计时,需要参考并融合传统信息检索系统、数据库系统以及数据分析系统(如数据仓库和OLAP)的特长和技术来设计数据处理的模型、存储、索引、查询等机制。

同时为了满足可扩展性和实时性的需求,需要吸收和借鉴分布式大数据处理系统(如Hadoop和NoSQL系统)的设计和经验。

图14.4时事探计系统结构图示意图

时事探针系统的结构如图14.4所示。

这是一个面向互联网文本大数据的通用的管理和分析平台。

其核心设计理念是,使用信息检索技术对无结构的互联网文本数据进行索引以满足用户查找相关新闻的需求;同时,对相关文档中包含的关键信息进行挖掘和抽取以生成结构化数据,并对这些数据进行汇总和分析,以辅助用户对报道中包含的高阶知识进行理解。

整个系统分为离线处理和在线处理两个部分。

其中离线部分是设计的重点,主要完成下述功能。

(1)多源异构网络大数据的感知和获取

由于互联网内在的分布性和自组织性,数据的感知和获取是网络大数据处理非常重要的第一步。

和传统搜索引擎一样,使用网络爬虫对互联网媒体网站内容进行抓取并存储到原始文档库中。

本部分的主要挑战是如何针对给定的主题实时智能地收集相关的网络数据,从而为后续的处理提供准确丰富的数据来源。

(2)文档理解及结构化数据抽取和集成

互联网的生命力很大程度上来自于它的开放性,而这种开放性的一个负面效果就是造成了网络数据缺乏统一结构、质量良莠不齐。

“大而低质量”的无结构数据往往不能有效支撑大数据分析和应用。

为了对文本数据进行深入分析,需要采用数据抽取技术从中挖掘出高质量的结构化信息。

另一方面,属于同一个实体或概念的数据往往在多个数据源中以不同的形式表示,数据集成技术被用于将这些不同形式的数据进行统一和集成。

数据抽取和集成是大数据研究的一个难点和热点,具体技术包括文档编码检测及HTML文本转换、文档语言(如中文、日文或者英文)检测、正文及相关属性(标题、时间、作者、主要图片等)抽取、文档内容段落及句子切分、文本分词、命名实体(时间、地点、人物、机构等)识别、动词专有名词抽取、情感分析、话题检测、知识库实体匹配及消歧、事件检测及抽取等。

(3)数据存储和索引

原始文档库主要用于保存抓取下来的原始网页。

原始文档库上主要进行文档的写入和读取,无删除操作,并发计算和查询的需求不大,可直接使用关系型数据库或者NoSQL数据库。

由于原始文档库中的文档在写入时一般按照时间顺序写入,在对原始文档库中的文档进行处理时,也一般按照时间顺序进行,因此需要对文档抓取时间进行索引。

结构化文档库中主要存储对文档进行深入理解后所抽取的信息,包括文档标题、文档正文、文档时间、文档作者、主要图片等文档级别的信息,也包括句子级别的信息,如句子文本、情感值、句子所包含的命名实体、关键词等。

在传统的关系数据库中,关系一般遵循范式的要求以尽可能地节省存储空间并保证数据一致性。

而事实上,因为互联网文本数据量巨大,若严格按照范式的要求进行设计,查询时可能需要大量的连接(join)操作和随机读取,写入时也可能需要在多个表上进行査找和加锁,实践证明这会极大地降低系统性能。

因此,在时事探针中,增加了部分数据冗余来降低交叉查询的代价,提高数据查询的效率。

例如,冗余存储“文档正文”和句子中的“句子文本”。

在结构化文档库上会有大量的并发读写和查询操作。

针对互联网文本数据的特点,对数据一致性和完整性的要求可适当放宽。

例如,对某一事件的报道可能有数千条,其中个别报道的丢失一般不会对整个事件的理解造成重大影响。

互联网文本数据管理在一定程度上能够容忍丢失更新、不可重复读和读“脏”数据等不一致性问题,因此结构化文档库上尽量减少读写锁并采用较低的事务隔离级别。

(4)离线主题文本立方体建立及更新

文本立方体是对特定主题建立的多维度数据立方体,是时事探针系统的主要分析模型。

和传统的关系数据仓库上建立的单个数据立方体不同,系统中每个主题都可以建立一个对应的文本立方体以对该主题进行分析操作。

文本立方体可根据用户查询在匹配的所有文档上对结构化数据进行高效并行统计而建立。

假设“马航失联”这一主题在互联网媒体中一共有1万篇报道,每个报道中有不同的相关人物、相关地点和相关机构。

在这1万个文档上,可建立包含相关人物、相关地点和相关机构这三个维度(dimension)的文本立方体。

每个维度中的项由所有文档中出现的实例(如所有人物)构成。

和传统的数据立方体不同,在文本立方体中不具有直接的度量值可以使用。

时事探针系统通过比较文档(记录)和维度值的紧密程度来计算度量值。

如对于相关人物A,考虑A在文档D中出现的次数、位置、所在句子的长短等特征,并同时考虑报道的来源来计算A在D中的度量值。

在线处理部分负责接收用户查询,检索相关文档及文本立方体并返回给用户。

其主要模块包括关键词分词、倒排表文档匹配及排序、文本立方体生成及缓存、文档及文本立方体展示及交互等。

这里就不展开介绍了。

综上所述,互联网文本大数据管理的特点如下:

(1)互联网文本大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。

(2)实时、深入分析互联网文本大数据,帮助人们在海量数据中获取有价值的信息,发现蕴含的规律,可以更好地感知现在、预测未来,体现了第四范式数据密集型科学发现的研究方式和思维方式。

(3)互联网文本大数据管理对大数据系统和技术的挑战是全面的、跨学科跨领域的,需要创新,也要继承传统数据管理技术和数据仓库分析技术的精华。

14.2.2数据服务实时推荐——基于大数据分析的用户建模

随着以个性化为主要特点的Web2.0兴起,很多大数据应用的数据来源于规模庞大的用户群。

依托数百万、千万,甚至上亿规模的用户,面向大众的信息服务类应用在为大规模的用户提供信息服务的同时,通过用户原创内容(UserGeneratedContent,UGC)或者系统日志等方式不断地收集数据。

这些数据与用户的行为紧密相关,被用来分析用户的兴趣特征,创建用户的描述文件(userprofile),这就是基于大数据分析的用户建模。

1.面向用户建模的大数据系统架构

用户建模的目标是为了准确把握用户的行为特征、兴趣爱好等,进而较为精准地向用户提供个性化的信息服务或信息推荐。

例如,互联网网站通过对用户点击日志的分析,识别用户的偏好,以支持个性化的页面布局、进行精准的广告投放等;电信行业通过对用户消费信息、当前位置、使用习惯等数据的分析,为用户及时推荐符合用户需求的服务、产品、内容等。

当前,基于大数据的用户建模在很多大型的信息服务应用中发挥着至关重要的作用。

面向用户建模的大数据系统一般具有图14.5所示的基本架构。

在大数据采集和存储的基础上,使用在线分析和离线分析两类技术,从大数据中发现用户的兴趣属性,构建动态的用户兴趣模型,以数据服务的方式管理和维护用户兴趣模型中的数据,支持上层的信息推荐等各种各样的应用。

这类系统中数据分析和数据服务构成了大数据系统的两类典型的负载。

图14.5面向用户建模的大数据系统架构示意图

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1