旅游大数据平台方案.docx
《旅游大数据平台方案.docx》由会员分享,可在线阅读,更多相关《旅游大数据平台方案.docx(25页珍藏版)》请在冰豆网上搜索。
旅游大数据平台方案
旅游研究院大数据挖掘与分析
科研平台建设方案
背景
数据挖掘和大数据分析行业背景和发展趋势
移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。
根据IDC《数字宇宙》(DigitalUniverse)研究报告显示,2020年全球新建和复制的信息量已经超过40ZB,是2015年的12倍;而中国的数据量则会在2020年超过8ZB,比2015年增长22倍。
数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。
IDC亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场研究表明,大数据技术和服务市场规模将会从2012年的5.48亿美元增加到2017年的23.8亿美元,未来5年的复合增长率达到34.1%。
该市场涵盖了存储、服务器、网络、软件以及服务市场。
数据量的增长是一种非线性的增长速度。
据IDC分析报道,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。
在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅;应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。
用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。
最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。
目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。
IDC发现很多用户希望大数据能够为企业带来业务创新,并且开始使用高级分析的解决方案以管理复杂的数据环境。
过去一年中用户对社交数据的收集和分析应用的关注度增加明显。
未来,地理位置信息分析将会增长迅速,这也会推动用户对大数据安全和隐私管理的关注。
在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,更关注如何根据新的最佳实践需求设计和实施方案。
中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。
在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。
也就是任务20%的用户提供了80%的价值,因此利用优势资源用户对于少数用户的服务。
随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。
比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。
并且由于计算技术的发展,对于大数据的分析也成为了可能。
旅游行业开展大数据分析及应用的意义
旅游行业有行业广、规模大、移动性强的特点,因此更加依赖大数据。
当前,旅游业也在“新常态”下迎来了升级的挑战和变革的机遇,新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小,很多传统行业在调整结构,但新常态对旅游行业却是速度加快的。
旅游大数据的解决之道,在于整合国内多途径的大数据源,形成旅游大数据生态,为国内旅游业提供大数据解决方案,促进旅游业的转型升级。
数据挖掘与大数据分析科研平台建设的必要性
数据挖掘与大数据分析是以计算机基础为基础,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。
其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该学科对于科研平台具有较高的专业要求。
科研平台不仅要提供基础的编程环境,还要提供大数据的运算环境以及用于科学研究的实战大数据案例。
这些素材的准备均需完整的科研平台作为支撑。
目前,在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括:
计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。
这些专业的在使用科研平台时的侧重点各不相同,使用人员层次水平也不相同,对算法的使用也不相同,因此,需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。
数据挖掘与大数据分析科研平台总体规划
科研平台规划
科研平台建设的基本原则是科研为主,同时为教学实验提供部分计算资源及安全资源,系统在授权范围内共享科研系统的计算资源,提高教学实验的真实性。
项目的总体架构如图1所示。
图1.总体架构图
系统整体由千兆核心交换机作为核心节点,并以两个千兆接入交换机作为科研与实验环境的交换节点。
科研环境由我司开发的商业Hadoop集群为基础,上层集成便于操作的大数据科研应用系统,集成10TB大数据案例集及可拖拽的数据算法和可视化算法。
科研平台功能规划
本科研平台针对数据挖掘有大数据分析研究内容,兼顾科研与教学的需求,既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。
1)大数据资源规划
内置商业级数据资源,按常见科研分类规划数据资源,可以直接用于科学研究,具有数据资源授权管控功能。
2)大数据分析功能规划
建设以商业版Hadoop为核心的大数据分析平台,系统提供MapReduce以及Spark等大数据挖掘功能。
系统具有完整的管理调度功能。
3)硬件资源功能规划
系统具有24个IntelXeonE5CPU计算能力,提供超过40TB的存储能力以及1T以上的内存,可满足1000任务共时计算内能,方便扩充。
数据挖掘与大数据分析科研平台建设方案
大数据科研平台设备架构
图3.设备架构
主节点和备份主节点
主节点负责整个分布式大数据平台的运行。
主节点始终在内存中保存整个文件系统的目录结构,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个计算上,用于处理读写请求。
同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。
备份主节点在主节点发生故障时承担主节点的各种任务,使得分布式大数据平台仍然能够正常运行。
管理节点
管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。
接口节点
终端用户通过接口节点连接和使用分布式大数据平台,提交任务并获得结果,并可以用其他数据分析工具做进一步处理,与外界进行数据交互(如连接关系型数据库)。
计算节点
分布式大数据平台包含了多个计算节点。
计算节点是系统中真正存储数据和做数据运算的节点。
每个计算节点周期性地和主节点通信,还时不时和客户端代码以及其他计算节点通信。
计算节点还维护一个开放的socket服务器,让客户端代码和其他计算节点通过它可以读写数据,这个服务器还会汇报给主节点。
大数据科研平台底层架构
大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构,包含和大数据分析、数据挖掘、机器学习等功能模块,并以HDFS以及Hbase作为存储基础。
图2.软件架构
分布式持久化数据存储——HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。
它和现有的分布式文件系统有很多共同点。
但同时,它和其他的分布式文件系统的区别也是很明显的。
HDFS是一个高度容错性的系统,适合部署在廉价的机器上。
HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
分布式实时数据库——HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:
一个结构化数据的分布式存储系统”。
就像Bigtable利用了Google文件系统(所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于BigTable的能力。
HBase是Apache的Hadoop项目的子项目。
HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
另一个不同的是HBase基于列的而不是基于行的模式。
分布式资源调度管理——YARN
Yarn是Hadoop2.0的MapReduce框架。
YARN分层结构的本质是ResourceManager。
这个实体控制整个集群并管理应用程序向基础计算资源的分配。
ResourceManager将各个资源部分(计算、内存、带宽等)精心安排给基础NodeManager(YARN的每节点代理)。
ResourceManager还与ApplicationMaster一起分配资源,与NodeManager一起启动和监视它们的基础应用程序。
在此上下文中,ApplicationMaster承担了以前的TaskTracker的一些角色,ResourceManager承担了JobTracker的角色。
交互式SQL引擎——Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
内存计算——Spark
Spark是UCBerkeleyAMP实验室所开源的类HadoopMapReduce的通用的并行计算框架。
Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。
科研平台的功能
科研项目管理
在科研平台中,科研计算是以计算项目来保存的,包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节。
从技术角度来说,计算项目中也包括了算法组件、算法流程和数据集,一旦设计完后,就可用于计算,后期还可以调整算法和基于新的数据资源进行计算。
计算项目完成后,可以训练出算法模型,在新的计算项目中使用已经训练好的模型进行数据的预测,形成一次训练多次使用的算法实现。
平台内置数据集
在科研工作中,如何获取到海量高质量大数据资源是最大的难点。
目前在互联网等渠道是很难找到科研工作所需的数据源,尤其是经过数据清洗和治理后的高质量数据。
数据超市平台利用以下模式,通过外部的资源,为高校的科研工作提供优质数据资源:
1)通过商务合作的模式,直接与数据所有权拥有者进行灵活的商务沟通,获得科研的数据使用授权;
2)邀请行业内优质的第三方数据服务提供商入驻数据超市平台;
3)通过数据采集的方式,经过数据寻源、采集、治理、清洗后,引入具有公开版权的数据资源;
所有引入数据都会经过数据工程师的严格审核,保证数据的清洁和质量,可以直接用于数据计算。
如平台内置的专利数据,包括了国内近2000万各类商业数据,并且不断更新,可以直接用于旅游各方面的科学研究。
有别区目前行业提供的数据库,数据超市直接提供了原始的数据,可以打通其他的行业数据,用于深层次的数据分析和经济预测。
科研数据上传
科研老师已有的数据可以上传到平台参与数据计算,老师可以在平台上建立数据表,然后把本地数据文件上传到数据表中。
也可以维护外部的JDBC数据源,平台会把外部数据自动抽取到平台中进行计算和预测。
集成算法组件
为了便于科研老师快速进行科研数据的加工、分析和计算,数据超市平台集成了50多种通用大数据算法组件,包括回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测评估、数据预处理算法、机器学习等。
所有的算法无须重新编程,只需要拖拽绘图完成即可进行计算,如下图:
算法组件经过配置可以实现强大的自定义计算功能和效果,调整后的模型可以完成老师需要的数据分析和预测。
科研平台可视化功能
提供20余种可视化展示模式,一键选择,一键切换,可按使用者需求展示大数据之美,根据需要展示对应的纬度,并可以一键生成高质量PNG文件,保存到本地后可用于科研报告和论文等。
平台数据集清单
科研平台为方便用户快速开展科学研究、生成科研数据报告,平台提供了一些通用的数据集,包括各类标准科研数据等。
平台也内置了数百款可选数据集,分为多个数据包,总量近10TB,并且随商务和采集工作推进,仍在不断增加中。
定制数据服务
根据科研老师的需求,数据超市平台提供数据采集和商务合作等定制数据引入模式,数据引入后,可以直接引入数据超市,由老师来进行使用。
如老师需要旅游服务评价类数据进行服务情况的分析和预测,可以直接通过数据超市内的数据定制模块提出数据需求,经数据超市平台管理员汇总后,可以通过数据超市平台进行数据的准备,交给老师进行使用。
科研平台算法清单
平台集成的算法包括72种,全部来自科研网站,经过了商业机构的验证,引入平台后完成了分布式优化,可以高效执行,详细如下表:
序号
算法分类
算法名称
算法描述
1
回归算法
线性回归
利用线性模型对数值型变量进行拟合。
2
回归算法
决策树回归
利用平方误差最小化准则,进行特征选择,生成二叉树,从而对对数值型变量进行拟合
3
回归算法
随机森林回归
以回归决策树为基模型,将一定数量的基模型组合对数值型变量拟合,并对基模型的预测结果平均作为算法的最终结果
4
回归算法
梯度提升回归树
以二叉回归决策树为基函数的加法模型与前向分步结合的算法,通过对损失函数在当前模型的预测值的梯度作为近似残差进行拟合,从而对数值型变量预测。
5
分类算法
逻辑回归二分类
对目标变量为二值型分类变量,建立参数化逻辑斯谛分布,即sigmoid函数,近似条件概率分布,以实现二值分类。
6
分类算法
逻辑回归多分类
逻辑回归多分类,k个独立的logistic回归分类器与onevsall结合的分类模型,分类对象类别之间不是互斥的
7
分类算法
Softmax回归多分类
Softmax回归就是逻辑回归的一般形式,是logistic回归模型在多分类问题上的推广,分类对象类别是互斥的
8
分类算法
决策树分类
利用信息增益准则或基尼指数最小化准则,进行特征选择,生成二叉树,从而对对目标变量为离散变量的数据进行分类
9
分类算法
随机森林分类
以分类决策树为基模型,将一定数量的基模型组合对离散型的目标变量拟合,并根据基模型的预测结果进行投票,以占多数结果的种类作为算法的最终结果
10
分类算法
梯度提升分类树
以二叉分类决策树为基函数的加法模型与前向分步结合的算法,通过对损失函数在当前模型的预测值的梯度作为近似残差进行拟合,从而对分类型目标变量预测。
11
分类算法
BP神经网络
以感知器为基函数,通过将当前基函数的的输出作为下一个感知器的输入,从而实现对离散型分类变量的分类
12
分类算法
贝叶斯分类
基于贝叶斯定理与特征条件独立假设,对给定数据集,学习输入输出的联合概率分布,利用贝叶斯原理输出后验概率最大的预测类作为预测结果
13
分类算法
支持向量机分类
在感知机的基础上,通过在特征空间上间隔最大和核技巧,实现对二类目标变量分类
14
聚类算法
K均值聚类
将无标记样本根据特征空间中的数据结构,划入K个不相交的子集中
15
聚类算法
二分K均值聚类
K均值聚类的改进版,能克服原算法收敛局部最小的缺点,每次选其中一簇分成两簇。
16
聚类算法
高斯混合模型
对于符合高斯分布的数据,假设存在K个高斯模型,将数据反复迭代,期望极大化。
将样本聚到后验概率最大的模型类下。
17
关联规则算法
频繁项集挖掘算法(FP-Growth)
主要分为两个步骤:
FP-tree构建、递归挖掘FP-tree。
挖掘出共同出现的频繁物品集。
18
推荐算法
协同过滤算法
协同过滤是在海量数据中挖掘出某部分与目标客户行为类似的数据,并根据某种指标对其进行排序。
19
预测评估
分类预测及评估
分类算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际目标变量比对评估,检测模型的性能。
20
预测评估
回归预测及评估
回归算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际目标变量比对评估,检测模型的性能。
21
预测评估
聚类预测及评估
聚类算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际数据类型比对评估,检测模型的性能。
22
预测评估
推荐评估
推荐算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与物品类目比对评估,检测模型的性能。
23
数据预处理
归一化
将有量纲的数据转化为无量纲的数据,min-max标准化
24
数据预处理
Join-两表关联
类似sqljoin的功能,将两张表通过一个字段对或者多个字段对的相等关系关联合成一张表
25
数据预处理
类型转换(string类型转换数值类型)
将不同数据的类型按需要进行转换
26
数据预处理
Union
对不同数据集取并集
27
数据预处理
标准化/正则化
标准化是将数据缩放到一个区间范围内,如正态分布,小数定标,逻辑斯谛分布。
正则化是利用先验知识,对模型增加约束,防止过拟合。
28
数据预处理
缺失值填充
对数据中某项数值所对应的某些样本缺失,通过某种先验假设,根据样本其他已知数据项对缺失值拟合预测。
29
数据预处理
拆分
按照比例拆分样本集,如设置0.6,切分成60:
40两个样本集。
30
数据预处理
随机采样
当数据量过大或模型训练批容量有限时,随机采取一定量/比例的样本集。
31
数据预处理
增加序列号
在数据表第一列追加ID列。
32
数据预处理
Select
数据库查询操作,查询某限定条件下的样本
33
数据预处理
Select_Distinct
数据库查询操作,查询某限定条件下并过滤掉重复的样本
34
数据预处理
Select_Where
数据库查询操作,查询指定条件下的样本
35
数据预处理
Select_And_Or
数据库查询操作,查询条件的交集与并集
36
数据预处理
Select_OrderBy
数据库查询操作,查询结果按某指标排序
37
数据预处理
Select_Limit
数据库查询操作,查询某限定段的数据
38
数据预处理
Select_Like
数据库查询操作,查询包含指定字段的数据
39
特征工程
主成分分析
数据降维去噪常用方法,对数据的协方差矩阵取前K个最大方差方向作为新的数据方向。
40
特征工程
Onehot编码
用户将特征值进行二元编码映射成二元向量,并与数值向量进行拼接
42
特征工程
特征尺度变换
由于计算需要或根据数据特点将某特征对应数据项进行缩放,不改变样本间该数值项的相对大小
43
特征工程
特征重要性分析
指根据数据集各项特征在算法模型中对目标变量的相对重要程度的分析,从而提出冗余特征,关注重要特征,提高算法模型的效率准确性
44
特征工程
特征离散
对连续型特征按某方法转换为离散型变量
45
文本分析
SplitWord
分布式jieba分词接口,基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
46
文本分析
文档主题生成模型(LDA)
LDA(LatentDirichletallocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。
同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。
LDA首先由DavidM.Blei、AndrewY.Ng和MichaelI.Jordan于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
47
文本分析
TF特征
将文本文档的集合转换为词频计数的向量。
48
文本分析
HashingTF特征
使用散列技巧将一系列词语映射到其词频的向量,HashingTF的过程就是对每一个词作了一次哈希并对特征维数取余得到该词的位置,然后按照该词出现的次数计次。
所以就不用像传统方法一样每次维护一张词表,运用HashingTF就可以方便的得到该词所对应向量元素的位置。
当然这样做的代价就是向量维数会非常大,好在spark可以支持稀疏向量,所以计算开销并不大。
49
文本分析
TF-IDF特征
TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索与文本挖掘的常用加权技术。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
50
文本分析
字符串相似度
一个字符串转换成另外一个字符串的代价,转换的代价越高则说明两个字符串的相似度越低。
51
文本分析
停用词过滤
针对文档数据,将包含的特定词汇过滤掉,不计入统计数据中
52
文本分析
Word2Vec
Word2Vec是一种着名的词嵌入(WordEmbedding)方法,它可以计算每个单词在其给定语料库环境下的分布式词向量(DistributedRepresentation,亦直接被称为词向量)。
词向量表示可以在一定程度上刻画每个单词的语义。
如果词的语义相近,它们的词向量在向量空间中也相互接近,这使得词语的向量化建模更加精确,可以改善现有方法并提高鲁棒性。
词向量已被证明在许多自然语言处理问题,如:
机器翻译,标注问题,实体识别等问题中具有非常重要的作用。
Word2Vec具有两种模型,其一是CBOW,其思想是通过每个词的上下文窗口词词向量来预测中心词的词向量。
其二是Skip-gram,其思想是通过每个中心词来预测其上下文窗口词,并根据预测结果来修正中心词的词向量。
该组件目前只支持后者。
53
文本分析
词频统计
在对文章进行分词的基础上,按行保序输出对应文章ID列(docId)对应文章的词,统计指定文章ID列(docId)对应文章内容(docContent)的词频。
54
文本分析
文本摘要
通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。
55
文本分析
关键词提取
全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语
56
文本分析
长句拆分
根据长句中的标点符号将句子进行分割成多个短句
57
工具算法
sql脚本
用户可以在该组件自定义的SQL脚本从而完成对数据的转换处理
58
统计分析
单样本T检验
单样本T检验:
单样本t检验(one-samplet-test)又称单样本均数t检验,适用于样本均数x与已知总体均数u0的比较,其比较目的是检验样本均数x所代表的总体均数u0是否与已知总体均数u0有差别。
已知总体均数u0,一般为标准值、理论值或经大量观察得到的较稳定的指标值。
T检验的前提是样本总体服从正态分布
59
统计分析
配对样本均数T检验
配对样本均数t检验(pairedttest),又称非独立两样本均数t检验,适用于配对设计计量资料