旅游大数据平台方案.docx

资源描述

旅游大数据平台方案.docx

《旅游大数据平台方案.docx》由会员分享，可在线阅读，更多相关《旅游大数据平台方案.docx（31页珍藏版）》请在冰豆网上搜索。

旅游大数据平台方案.docx

旅游大数据平台方案

旅游研究院大数据挖掘与分析

科研平台建设方案

一.背景

1.1数据挖掘和大数据分析行业背景和发展趋势

移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量

成指数增长。

根据IDC《数字宇宙》（DigitalUniverse）研究报告显示，2020年全球新建和复制的信息量已经超过40ZB，是2015年的12倍;而中国的数据量则会在2020年超过8ZB，比2015年增长22倍。

数据量的飞速增长带来了大数据

技术和服务市场的繁荣发展。

IDC亚太区（不含日本）最新关于大数据和分析（BDA）领域的市场研究表明，大数据技术和服务市场规模将会从2012年的5.48亿美元增加到2017年的23.8亿美元，未来5年的复合增长率达到34.1%。

该市场涵盖了存储、服务器、网络、软件以及服务市场。

数据量的增长是一种非线性的增长速度。

据IDC分析报道，最近一年来，亚太区出现了越来越广泛的大数据和分析领域的应用案例。

在中国，从互联网企业，到电信、金融、政府这样的传统行业，

都开始采用各种大数据和分析技术，开始了自己的大数据实践之旅;应用场景也在逐渐拓展，从结构化数据的分析，发展到半结构化、非结构化数据的分析，尤

其是社交媒体信息分析受到用户的更多关注。

用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。

最新调研结果显示，提高竞争优势，降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。

目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。

IDC发现很多用户希望大数据能够为企业带来业务创新，并且开始使用高级分析的解决方案以管理复杂的数据环境。

过去一年中用户对社交数据的收集和分析应用的关注度增加明显。

未来，地理位置信息分析将会增长迅速，这也会推动用户对大数据安全和隐私管理的关注。

在亚太区，澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面，更关注如何根据新的最佳实践需求设计和实施方案。

中国和印度在大数据领域的硬件投资则非常明显，更倾向于数据中心相关的基础架构的投资。

在传统的数据分析与商业数据挖掘中，人们通常遵循二八原则。

也就是任务20%的用户提供了80%的价值，因此利用优势资源用户对于少数用户的服务。

随着互联网的发展，越来越多的低价值用户进入到商业体系中，这部分用户成为商业企业竞争的目标。

比如电商行业，大量顾客都是传统意义上的低价值客户，数据表明对于这部分用户价值的挖掘可以改变二八原则，甚至可达到价值的几乎均匀分布。

并且由于计算技术的发展，对于大数据的分析也成为了可能。

1.2旅游行业开展大数据分析及应用的意义

旅游行业有行业广、规模大、移动性强的特点，因此更加依赖大数据。

当前，旅游业也在“新常态”下迎来了升级的挑战和变革的机遇，新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小，很多传统行业在调整结构，但新常态对旅游行业却是速度加快的。

旅游大数据的解决之道，在于整合国内多途径的大数据源，形成旅游大数据生态，为国内旅游业提供大数据解决方案，促进旅游业的转型升级。

1.3数据挖掘与大数据分析科研平台建设的必要性

数据挖掘与大数据分析是以计算机基础为基础，以挖掘算法为核心，紧密面向行业应用的一门综合性学科。

其主要技术涉及概率论与数理统计、数据挖掘、

算法与数据结构、计算机网络、并行计算等多个专业方向，因此该学科对于科研平台具有较高的专业要求。

科研平台不仅要提供基础的编程环境，还要提供大数据的运算环境以及用于科学研究的实战大数据案例。

这些素材的准备均需完整的科研平台作为支撑。

目前，在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括：

计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。

这些专业的在使用科研平台时的侧重点各不相同，使用人员层次水平也不相同，对算法的使用也不相同，因此，需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。

二.数据挖掘与大数据分析科研平台总体规划

2.1科研平台规划

科研平台建设的基本原则是科研为主，同时为教学实验提供部分计算资源及安全资源，系统在授权范围内共享科研系统的计算资源，提高教学实验的真实性。

项目的总体架构如图1所示。

大数据科研环境

Hadoop集群

可视化计算

虚拟化实验

集群

21U

10U

千兆数据千兆数据

交换机交换机

核心交

换机

图1.总体架构图

系统整体由千兆核心交换机作为核心节点，并以两个千兆接入交换机作为科研与实验环境的交换节点。

科研环境由我司开发的商业Hadoop集群为基础，上

层集成便于操作的大数据科研应用系统，集成10TB大数据案例集及可拖拽的数据算法和可视化算法。

2.2科研平台功能规划

本科研平台针对数据挖掘有大数据分析研究内容，兼顾科研与教学的需求，既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。

1）大数据资源规划

内置商业级数据资源，按常见科研分类规划数据资源，可以直接用于科学研究，具有数据资源授权管控功能。

2）大数据分析功能规划

建设以商业版Hadoop为核心的大数据分析平台，系统提供MapReduce以及Spark等大数据挖掘功能。

系统具有完整的管理调度功能。

3）硬件资源功能规划

系统具有24个IntelXeonE5CPU计算能力，提供超过40TB的存储能力以及1T以上的内存，可满足1000任务共时计算内能，方便扩充。

三.数据挖掘与大数据分析科研平台建设方案

3.1大数据科研平台设备架构

高性能交换机

主节点

备份主节点

管理节点

接口节点

计算节点

接口节点

计算节点

机架1

机架2

机架3

图3.设备架构

3.1.1主节点和备份主节点

主节点负责整个分布式大数据平台的运行。

主节点始终在内存中保存整个文件系统的目录结构，每个目录有哪些文件，每个文件有哪些分块及每个分块保存

在哪个计算上，用于处理读写请求。

同时，主节点还负责将作业分解成子任务，并将这些子任务分配到各个计算节点上。

备份主节点在主节点发生故障时承担主节点的各种任务，使得分布式大数据平台仍然能够正常运行。

3.1.2管理节点

管理节点用于管理整个分布式大数据平台，可进行节点安装、配置、服务配置等，提供网页窗口界面提高了系统配置的可见度，而且降低了集群参数设置的

复杂度。

3.1.3接口节点

终端用户通过接口节点连接和使用分布式大数据平台，提交任务并获得结

果，并可以用其他数据分析工具做进一步处理，与外界进行数据交互（如连接关系型数据库）。

3.1.4计算节点

分布式大数据平台包含了多个计算节点。

计算节点是系统中真正存储数据和做数据运算的节点。

每个计算节点周期性地和主节点通信，还时不时和客户端代

码以及其他计算节点通信。

计算节点还维护一个开放的socket服务器，让客户端代码和其他计算节点通过它可以读写数据，这个服务器还会汇报给主节点。

3.2大数据科研平台底层架构

大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构，包

含和大数据分析、数据挖掘、机器学习等功能模块，并以HDFS以及Hbase作

为存储基础。

任务执行调度接口数据交互接口统计建模

（Shell）（JDBC,ODBC）（R）

批处理交互式SQL引擎机器学习算法库内存计算

（MapReduce,Pig）（Hive）（Mahout）（Spark）

管理监控

分布式资源调度管理

（HonyaES-data）

（YARN）

分布式存储

（Sentry）

分布式持久化数据存储分布式实时数据库

（HDFS）（Hbase）

图2.软件架构

3.2.1分布式持久化数据存储——HDFS

Hadoop分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统。

它和现有的分布式文件系统有很多共同点。

但同时，它和其他的分布式文件系统的区别也是很明显的。

HDFS是一个高度容错性的系统，适合部署在廉价的机器上。

HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

3.2.2分布式实时数据库——HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：

一个结构化数据的分布式存储系统”。

就像

Bigtable利用了Google文件系统（所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于BigTable的能力。

HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

3.2.3分布式资源调度管理——YARN

Yarn是Hadoop2.0的MapReduce框架。

YARN分层结构的本质是

ResourceManager。

这个实体控制整个集群并管理应用程序向基础计算资源的分配。

ResourceManager将各个资源部分（计算、内存、带宽等）精心安排给基础NodeManager（YARN的每节点代理）。

ResourceManager还与ApplicationMaster一起分配资源，与NodeManager一起启动和监视它们的基

础应用程序。

在此上下文中，ApplicationMaster承担了以前的TaskTracker的一些角色，ResourceManager承担了JobTracker的角色。

3.2.4交互式SQL引擎——Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射

为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为

MapReduce任务进行运行。

其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数

据仓库的统计分析。

3.2.5内存计算——Spark

Spark是UCBerkeleyAMP实验室所开源的类HadoopMapReduce的通用

的并行计算框架。

Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。

3.3科研平台的功能

3.3.1科研项目管理

在科研平台中，科研计算是以计算项目来保存的，包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节。

从技术角度来说，计算项目中也包括了算法组件、算法流程和数据集，一旦设计完后，就可用于计算，后期还可以调整算法和基于新的数据资源进行计算。

计算项目完成后，可以训练出算法模型，在新的计算项目中使用已经训练好的模型进行数据的预测，形成一次训练多次使用的算法实现。

3.3.2平台内置数据集

在科研工作中，如何获取到海量高质量大数据资源是最大的难点。

目前在互联网等渠道是很难找到科研工作所需的数据源，尤其是经过数据清洗和治理后的高质量数据。

数据超市平台利用以下模式，通过外部的资源，为高校的科研工作提供优质数据资源：

1）通过商务合作的模式，直接与数据所有权拥有者进行灵活的商务沟通，获得科研的数据使用授权；

2）邀请行业内优质的第三方数据服务提供商入驻数据超市平台；

3）通过数据采集的方式，经过数据寻源、采集、治理、清洗后，引入具有公开版权的数据资源；

所有引入数据都会经过数据工程师的严格审核，保证数据的清洁和质量，可以直接用于数据计算。

如平台内置的专利数据，包括了国内近2000万各类商业数据，并且不断更新，可以直接用于旅游各方面的科学研究。

有别区目前行业提供的数据库，数据超市直接提供了原始的数据，可以打通其他的行业数据，用于深层次的数据分析和经济预测。

3.3.3科研数据上传

科研老师已有的数据可以上传到平台参与数据计算，老师可以在平台上建立

数据表，然后把本地数据文件上传到数据表中。

也可以维护外部的JDBC数据源，平台会把外部数据自动抽取到平台中进行计算和预测。

3.3.4集成算法组件

为了便于科研老师快速进行科研数据的加工、分析和计算，数据超市平台集成了50多种通用大数据算法组件，包括回归算法、分类算法、聚类算法、关联

规划算法、推荐算法、预测评估、数据预处理算法、机器学习等。

所有的算法无须重新编程，只需要拖拽绘图完成即可进行计算，如下图：

算法组件经过配置可以实现强大的自定义计算功能和效果，调整后的模型可以完成老师需要的数据分析和预测。

3.3.5科研平台可视化功能

提供20余种可视化展示模式，一键选择，一键切换，可按使用者需求展示

大数据之美，根据需要展示对应的纬度，并可以一键生成高质量PNG文件，保

存到本地后可用于科研报告和论文等。

四.平台数据集清单

科研平台为方便用户快速开展科学研究、生成科研数据报告，平台提供了一些通用的数据集，包括各类标准科研数据等。

平台也内置了数百款可选数据集，分为多个数据包，总量近10TB，并且随商务和采集工作推进，仍在不断增加中。

五.定制数据服务

根据科研老师的需求，数据超市平台提供数据采集和商务合作等定制数据引入模式，数据引入后，可以直接引入数据超市，由老师来进行使用。

如老师需要旅游服务评价类数据进行服务情况的分析和预测，可以直接通过数据超市内的数据定制模块提出数据需求，经数据超市平台管理员汇总后，可以通过数据超市平台进行数据的准备，交给老师进行使用。

六.科研平台算法清单

平台集成的算法包括72种，全部来自科研网站，经过了商业机构的验证，引入平台后完成了分布式优化，可以高效执行，详细如下表：

序

算法分类

算法名称

算法描述

号

回归算法

线性回归

利用线性模型对数值型变量进行拟合。

回归算法

决策树回归

利用平方误差最小化准则，进行特征选择，生成二

叉树，从而对对数值型变量进行拟合

回归算法

随机森林回归

以回归决策树为基模型，将一定数量的基模型组合

对数值型变量拟合，并对基模型的预测结果平均作

为算法的最终结果

回归算法

梯度提升回归树

以二叉回归决策树为基函数的加法模型与前向分

步结合的算法，通过对损失函数在当前模型的预

测值的梯度作为近似残差进行拟合，从而对数值型

变量预测。

分类算法

逻辑回归二分类

对目标变量为二值型分类变量，建立参数化逻辑斯

谛分布，即sigmoid函数，近似条件概率分布，以

实现二值分类。

分类算法

逻辑回归多分类

逻辑回归多分类,k个独立的logistic回归分类器与

onevsall结合的分类模型,分类对象类别之间不是互

斥的

分类算法

Softmax回归多分类

Softmax回归就是逻辑回归的一般形式,是logistic

回归模型在多分类问题上的推广,分类对象类别是

互斥的

分类算法

决策树分类

利用信息增益准则或基尼指数最小化准则，进行特

征选择，生成二叉树，从而对对目标变量为离散变

量的数据进行分类

分类算法

随机森林分类

以分类决策树为基模型，将一定数量的基模型组合

对离散型的目标变量拟合，并根据基模型的预测结

果进行投票，以占多数结果的种类作为算法的最终

结果

分类算法

梯度提升分类树

以二叉分类决策树为基函数的加法模型与前向分

步结合的算法，通过对损失函数在当前模型的预测

值的梯度作为近似残差进行拟合，从而对分类型目

标变量预测。

分类算法

BP神经网络

以感知器为基函数，通过将当前基函数的的输出作

为下一个感知器的输入，从而实现对离散型分类变

量的分类

分类算法

贝叶斯分类

基于贝叶斯定理与特征条件独立假设，对给定数据

集，学习输入输出的联合概率分布，利用贝叶斯原

理输出后验概率最大的预测类作为预测结果

13分类算法支持向量机分类在感知机的基础上，通过在特征空间上间隔最大和

核技巧，实现对二类目标变量分类

聚类算法

K均值聚类

将无标记样本根据特征空间中的数据结构，划入K

个不相交的子集中

聚类算法

二分K均值聚类

K均值聚类的改进版，能克服原算法收敛局部最小

的缺点，每次选其中一簇分成两簇。

聚类算法

高斯混合模型

对于符合高斯分布的数据，假设存在

K个高斯模

型，将数据反复迭代，期望极大化。

将样本聚到后

验概率最大的模型类下。

关联规则算

频繁项集挖掘算法（FP-Growth）

主要分为两个步骤：

FP-tree构建、递归挖掘FP-tree。

法

挖掘出共同出现的频繁物品集。

推荐算法

协同过滤算法

协同过滤是在海量数据中挖掘出某部分与目标客

户行为类似的数据，并根据某种指标对其进行排

序。

预测评估

分类预测及评估

分类算法中，在已有训练数据训练模型的基础上，

将未训练的数据代入算法中，预测结果与实际目标

变量比对评估，检测模型的性能。

预测评估

回归预测及评估

回归算法中，在已有训练数据训练模型的基础上，

将未训练的数据代入算法中，预测结果与实际目标

变量比对评估，检测模型的性能。

预测评估

聚类预测及评估

聚类算法中，在已有训练数据训练模型的基础上，

将未训练的数据代入算法中，预测结果与实际数据

类型比对评估，检测模型的性能。

预测评估

推荐评估

推荐算法中，在已有训练数据训练模型的基础上，

将未训练的数据代入算法中，预测结果与物品类目

比对评估，检测模型的性能。

数据预处理

归一化

将有量纲的数据转化为无量纲的数据，min-max标

准化

数据预处理

Join-两表关联

类似sqljoin的功能，将两张表通过一个字段对或

者多个字段对的相等关系关联合成一张表

数据预处理

类型转换（string类型转换数值类型）

将不同数据的类型按需要进行转换

数据预处理

Union

对不同数据集取并集

数据预处理

标准化/正则化

标准化是将数据缩放到一个区间范围内，如正态分

布，小数定标，逻辑斯谛分布。

正则化是利用先验

知识，对模型增加约束，防止过拟合。

数据预处理

缺失值填充

对数据中某项数值所对应的某些样本缺失，通过某

种先验假设，根据样本其他已知数据项对缺失值拟

合预测。

数据预处理

拆分

按照比例拆分样本集，如设置0.6，切分成60:

40两

个样本集。

数据预处理

随机采样

当数据量过大或模型训练批容量有限时，随机采取

一定量/比例的样本集。

数据预处理

增加序列号

在数据表第一列追加

ID列。

数据预处理

Select

数据库查询操作，

查询某限定条件下的样本

数据预处理

Select_Distinct

数据库查询操作，

查询某限定条件下并过滤掉重

复的样本

数据预处理

Select_Where

数据库查询操作，查询指定条件下的样本

数据预处理

Select_And_Or

数据库查询操作，查询条件的交集与并集

数据预处理

Select_OrderBy

数据库查询操作，查询结果按某指标排序

数据预处理

Select_Limit

数据库查询操作，查询某限定段的数据

数据预处理

Select_Like

数据库查询操作，查询包含指定字段的数据

特征工程

主成分分析

数据降维去噪常用方法，对数据的协方差矩阵取前

K个最大方差方向作为新的数据方向。

特征工程

Onehot编码

用户将特征值进行二元编码映射成二元向量，并与

数值向量进行拼接

特征工程

特征尺度变换

由于计算需要或根据数据特点将某特征对应数据

项进行缩放，不改变样本间该数值项的相对大小

特征

展开阅读全文