旅游大数据平台方案.docx

资源描述

旅游大数据平台方案.docx

《旅游大数据平台方案.docx》由会员分享，可在线阅读，更多相关《旅游大数据平台方案.docx（28页珍藏版）》请在冰豆网上搜索。

旅游大数据平台方案.docx

旅游大数据平台方案

旅游研究院大数据挖掘与分析

科研平台建设方案

二匕旦

—-冃禺

1.1数据挖掘和大数据分析行业背景和发展趋势

移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。

根据IDC《数字宇宙》（DigitalUniverse）研究报告显示，2020年全球新建和复制的信息量已经超过40ZB,是2015年的12倍;而中国的数据量则会在2020年超过8ZB,比2013年增长22倍。

数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。

IDC亚太区（不含日本）最新关于大数据和分析（BDA）领域的市场研究表明，大数据技术和服务市场规模将会从2012年的5.48亿美元增加到2017年的23.8亿美元，未来5年的复合增长率达到34.1%O该市场涵盖了存储、服务器、网络、软件以及服务市场。

数据量的增长是一种非线性的增长速度。

据IDC分析报道，最近一年来，亚太区出现了越来越广泛的大数据和分析领域的应用案例。

在中国，从互联网企业，到电信、金融、政府这样的传统行业，都开始釆用各种大数据和分析技术，开始了自己的大数据实践之旅;应用场景也在逐渐拓展，从结构化数据的分析，发展到半结构化、非结构化数据的分析，尤其是社交媒体信息分析受到用户的更多关注。

用户们开始评估以Hadoop＞数据库一体机以及内存计算技术为代表的大数据相关新型技术。

最新调研结果显示，提高竞争优势，降低成本以及吸引新的客户是中国用户对大数据项U最期望的三大回报。

訂前现有的大数据项U主要集中在业务流程优化以及提高客户满意度方面的应用。

IDC发现很多用户希望大数据能够为企业带来业务创新，并且开始使用高级分析的解决方案以管理复杂的数据环境。

过去一年中用户对社交数据的收集和分析应用的关注度增加明显。

未来，地理位置信息分析将会增长迅速，这也会推动用户对大数据安全和隐私管理的关注。

在亚太区，澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面，更关注如何根据新的最佳实践需求设计和实施方案。

中国和印度在大数据领域的硬件投资则非常明显，更倾向于数据中心相关的基础架构的投资。

在传统的数据分析与商业数据挖掘中，人们通常遵循二八原则。

也就是任务20%的用户提供了80%的价值，因此利用优势资源用户对于少数用户的服务。

随着互联网的发展，越来越多的低价值用户进入到商业体系中，这部分用户成为商业企业竞争的LI标。

比如电商行业，大量顾客都是传统意义上的低价值客户，数据表明对于这部分用户价值的挖掘可以改变二八原则，甚至可达到价值的儿乎均匀分布。

并且由于计算技术的发展，对于大数据的分析也成为了可能。

1-2旅游行业开展大数据分析及应用的意义

旅游行业有行业广、规模大、移动性强的特点，因此更加依赖大数据。

当前，旅游业也在“新常态”下迎来了升级的挑战和变革的机遇，新常态对于一般的经济部门是经济速度放慢、人均GDP增速减小，很多传统行业在调整结构，但新常态对旅游行业却是速度加快的。

旅游大数据的解决之道，在于整合国内多途径的大数据源，形成旅游大数据生态，为国内旅游业提供大数据解决方案，促进旅游业的转型升级。

1.3数据挖掘与大数据分析科研平台建设的必要性

数据挖掘与大数据分析是以计算机基础为基础，以挖掘算法为核心，紧密面向行业应用的一门综合性学科。

其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向，因此该学科对于科研平台具有较高的专业要求。

科研平台不仅要提供基础的编程环境，还要提供大数据的运算环境以及用于科学研究的实战大数据案例。

这些素材的准备均需完整的科研平台作为支撑。

LI前，在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括：

计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。

这些专业的在使用科研平台时的侧重点各不相同，使用人员层次水平也不相同，对算法的使用也不相同，因此，需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。

2.数据挖掘与大数据分析科研平台总体规划

2.1科研平台规划

科研平台建设的基本原则是科硏为主，同时为教学实验提供部分计算资源及安全资源，系统在授权范用内共享科研系统的计算资源，提高教学实验的真实性。

项H的总体架构如图1所示。

人数据科研环境

图1•总体架构图

系统整体山千兆核心交换机作为核心节点，并以两个千兆接入交换机作为科研与实验环境的交换节点。

科研环境山我司开发的商业Hadoop集群为基础，上层集成便于操作的大数据科研应用系统，集成10TB大数据案例集及可拖拽的数据算法和可视化算法。

2.2科研平台功能规划

本科研平台针对数据挖掘有大数据分析研究内容，兼顾科研与教学的需求，既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。

1）大数据资源规划

内置商业级数据资源，按常见科研分类规划数据资源，可以直接用于科学研究，具有数据资源授权管控功能。

2）大数据分析功能规划

建设以商业版Hadoop为核心的大数据分析平台，系统提供MapReduce以及Spark等大数据挖掘功能。

系统具有完整的管理调度功能。

3）硬件资源功能规划

系统具有24个IntelXeonE5CPU计算能力,提供超过40TB的存储能力以及1T以上的内存，可满足1000任务共时计算内能，方便扩充。

3.数据挖掘与大数据分析科研平台建设方案

3.1大数据科研平台设备架构

图3.设备架构

3.1.1主节点和备份主节点

主节点负责整个分布式大数据平台的运行。

主节点始终在内存中保存整个文件系统的LI录结构，每个LI录有哪些文件，每个文件有哪些分块及每个分块保存在哪个计算上，用于处理读写请求。

同时，主节点还负责将作业分解成子任务，并将这些子任务分配到各个计算节点上。

备份主节点在主节点发生故障时承担主节点的各种任务，使得分布式大数据平台仍然能够正常运行。

3.1.2管理节点

管理节点用于管理整个分布式大数据平台，可进行节点安装、配置、服务配置等，提供网页窗口界面提高了系统配置的可见度，而且降低了集群参数设置的复杂度。

3/L3接口节点

终端用户通过接口节点连接和使用分布式大数据平台，提交任务并获得结果，并可以用其他数据分析工具做进一步处理，与外界进行数据交互（如连接关系型数据库）。

3.1.4计算节点

分布式大数据平台包含了多个计算节点。

计算节点是系统中真正存储数据和做数据运算的节点。

每个计算节点周期性地和主节点通信，还时不时和客户端代码以及其他计算节点通信。

计算节点还维护一个开放的socket服务器，让客户端代码和其他讣算节点通过它可以读写数据，这个服务器还会汇报给主节

3.2大数据科研平台底层架构

大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构，包含和大数据分析、数据挖掘、机器学习等功能模块，并以HDFS以及Hbase

作为存储基础。

任务执行调度接口

数据交互接口

统计建模

丄（Shell）

（JDBC,ODBC）

■

（R）

分布式存储

（Sentry）

图2.软件架构

3.2.1分布式持久化数据存储——HDFS

Hadoop分布式文件系统（HDFS）被设讣成适合运行在通用硕件上的分布式文件系统。

它和现有的分布式文件系统有很多共同点。

但同时，它和其他的分布式文件系统的区别也是很明显的。

HDFS是一个高度容错性的系统，适合部署在廉价的机器上。

HDFS能提供高乔吐量的数据访问，非常适合大规模数据集上的应用。

HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

3.2.2分布式实时数据库——HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：

—个结构化数据的分布式存储系统”。

就像Bigtable利用了Google文件系统（所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于BigTable的能力。

HBase是Apache的Hadoop项目的子项目。

HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

3.2.3分布式资源调度管理——YARN

Yarn是Hadoop2.0的MapReduce框架。

YARN分层结构的本质是ResourceManagero这个实体控制整个集群并管理应用程序向基础计•算资源的分配。

ResourceManager将各个资源部分（计算、内存、带宽等）精心安排给基础NodeManager（YARN的每节点代理）。

ResourceManager还与ApplicationMaster一起分配资源，与NodeManager—起启动和监视它们的基础应用程序。

在此上下文中，ApplicationMaster承担了以前的TaskTracker的一些角色，ResourceManager承担了JobTracker的角色。

3.2.4交互式SQL引擎——Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统讣，不必开发专门的M即Reduce应用，十分适合数据仓库的统计分析。

3.2.5内存计算——Spark

Spark是UCBerkeleyAMP实验室所开源的类HadoopMapReduce的通用的并行计算框架。

Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。

3.3科研平台的功能

3.3.1科研项目管理

在科研平台中，科研计算是以计算项忖来保存的，包括了计算项H建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等儿个环节。

从技术角度来说，计算项目中也包括了算法组件、算法流程和数据集，一旦设计完后，就可用于计算，后期还可以调整算法和基于新的数据资源进行计算。

讣算项口完成后，可以训练出算法模型，在新的计算项LJ中使用已经训练好的模型进行数据的预测，形成一次训练多次使用的算法实现。

3・3・2平台内置数据集

在科研工作中，如何获取到海量高质量大数据资源是最大的难点。

目前在互联网等渠道是很难找到科研工作所需的数据源，尤其是经过数据清洗和治理后的高质量数据。

数据超市平台利用以下模式，通过外部的资源，为高校的科研工作提供优质数据资源：

1）通过商务合作的模式，直接与数据所有权拥有者进行灵活的商务沟通，获得科研的数据使用授权；

2）邀请行业内优质的第三方数据服务提供商入驻数据超市平台；

3）通过数据采集的方式，经过数据寻源、釆集、治理、清洗后，引入具有公开版权的数据资源；

所有引入数据都会经过数据工程师的严格审核，保证数据的清洁和质量，可以直接用于数据计算。

如平台内置的专利数据，包括了国内近2000万各类商业数据，并且不断更新，可以直接用于旅游各方面的科学研究。

有别区LI前行业提供的数据库，数据超市直接提供了原始的数据，可以打通其他的行业数据，用于深层次的数据分析和经济预测。

3.3.3科研数据上传

科研老师已有的数据可以上传到平台参与数据计算，老师可以在平台上建立数据表，然后把本地数据文件上传到数据表中。

也可以维护外部的JDBC数据源，平台会把外部数据自动抽取到平台中进行计算和预测。

3.3.4集成算法组件

为了便于科研老师快速进行科研数据的加工、分析和计算，数据超市平台集成了50多种通用大数据算法组件，包括回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测评估、数据预处理算法、机器学习等。

所有的算法无须重新编程，只需要拖拽绘图完成即可进行计算，如下图：

列盘D项目：

决掛回归tfl件测试

+机各学习

+理+统计分析

+特征工理

+文水分析

+XA

+网络分析

+效襦可祝化

算法组件经过配置可以实现强大的自定义讣算功能和效果，调整后的模型可以完成老师需要的数据分析和预测。

GK均值聚类

QMaxtter

InitMode

k-means||

Tol

0.01

3・3・5科研平台可视化功能

提供20余种可视化展示模式，一键选择，一键切换，可按使用者需求展示大数据之美，根据需要展示对应的纬度，并可以一键生成高质量PNG文件，保存到本地后可用于科研报告和论文等。

数据分布图

4.平台数据集清单

科研平台为方便用户快速开展科学研究、生成科研数据报告，平台提供了一些通用的数据集，包括各类标准科研数据等。

平台也内置了数百款可选数据集，分为多个数据包，总量近10TB,并且随商务和采集工作推进，仍在不断增加中。

5.定制数据服务

根据科研老师的需求，数据超市平台提供数据采集和商务合作等定制数据引入模式，数据引入后，可以直接引入数据超市，由老师来进行使用。

如老师需要旅游服务评价类数据进行服务悄况的分析和预测，可以直接通过数据超市内的数据定制模块提出数据需求，经数据超市平台管理员汇总后，可以通过数据超市平台进行数据的准备，交给老师进行使用。

6.科研平台算法清单

平台集成的算法包括72种，全部来自科研网站，经过了商业机构的验证,引入平台后完成了分布式优化，可以高效执行，详细如下表：

号

以法分类

算法名称

并法描述

回归算法

线性回归

利用线件模型对数值型变fit进行拟合.

回归算法

决策树回归

利用平方谋差R小化准则.进行特徳选择.生成二叉树.从而对对数值型变址进行拟合

回归算法

随机森林回归

以回归抉策树为基模型.将一定数慑的墓模型组合对数值型变fit拟合.并对基模型的预测结果平均作为算法的最终结果

回归算法

梯度提升回归树

以•叉回归决策树为基函数的加法枳型与前向分步结合的斃法.通过对损失函数在当前模型的预测値的梯度作为近似歿差进行拟合.从而对数值型变慑预测。

分类算法

逻辑回归二分类

对目标变就为.M分类变敞.建立参数化逻辑斯谛分布・即sigmoidEfi数.近似条件概率分布.以实现二值分类。

分类其法

逻辑回归多分类

逻训回财务分类・k个独立的logistic冋归分类器9oncvsall结合的分类模型•分类对象类别之闾不足互斥的

分类算法

Softmax回归多分类

Softmax回归就足逻辑回归的一般形式•是logistic回归模型在多分类何題上的推广•分类对象类别足互斥的

分类算法

决策树分类

利用信思增益准则或基尼抬数蹑小化准则.进行特征选择.生成二叉树.从『J对对目标变it为离散变母的数据进行分类

分类算法

隨机森林分类

以分类决策树为基模型.将一定数笊的基模梨组合对离散型的目标变就拟合・并根据基模型的预测结果进行投票.以占多数结果的种类作为并法的帰终结果

1（）

分类算法

梯度提升分类树

以•叉分类决饿树为基函数的加法模炉询向分步结合的斃法.通过对拐失曲数在勻前模型的侦测值的梯度作为近似残更进行拟合•从而对分类型目标变就预测.

分类算法

BP神经网络

以感知器为垄函数.通过将'”1洲呈曲数的的输岀f卜为卜•一个感知器的输入.从而实现对离散型分类变fit的分类

分类算法

贝叶斯分类

基「贝叶斯定理与特征条件独立假设•对给定数据集.学习输入输出的联合概率分布.利用贝叶斯原理输岀后輪概率故人的预测类作为预测结果

分类算法

支持向fit机分类

在感知机的基础1：

・通过在特征空间上间隔最人和核技巧.实现对二类目标变啟分类

聚类算法

K均値聚类

将无标记样本根据特征空间中的数据结构・划入K个不相交的子集中

聚类算法

二分K均值聚类

K均值聚类的改进版・能克脆原并法收敛局部2小的缺点.每次选其中一簇分成苗簇。

聚类算法

高斯混合模型

对于符合高斯分布的数据•假设存在K个高斯模型.将数据反复迭代.期里极人化•将样木聚到后枪概率赧人的模里类兀

关联规则算法

频緊项集挖堀以法（FP.Gnwih）

主要分为两个步曝：

H>-ircc构建、递归挖掘FP・tree.挖掘出共同出现的频緊物品集。

推荐算法

协同过滤算法

协同过滤足在海墩数据中挖掘出某部分与目标客户行为类似的数据.并根据荣种描标对其进行排序。

预测评估

分类预测及评佑

分类算法中.在已有训练数IR训练模型的基础上.将未训练的数据代入尊法中,预测结果与实际目标变fit比对评估•检测模型的性能。

预测评估

回归预测及评估

回归算浓中.在已有训练数据训练模型的基础上.将未训练的数据代入坤法中,预测结果与实际目标变敞比对评估•檢测模型的性能。

预测评估

聚类预测及评估

聚类算法中.在L*有训练数据训练模型的基础上.将未训练的数据代入养法中.预测结果与实际数据类型比对评估•检测模型的性能。

预测评估

推荐评估

推荐珠法中.在已有训练数据训练模型的基础上.将未训练的数据代入球法中,预测结果与物品类目比对评估・检测蟆型的性能・

数据預处理

归一化

将有最纲的数据转化为无fit纲的数据.min-max标准化

数据狈处理

Join•两茨关联

类似sqljoin的功能.将两张表通过一个字段对或者参个字段对的相等关系关联合成一张浪

数据預处理

类型转换firing类型转換数值类型）

将不同数据的类型按碍要进行转换

数据狈处理

Union

对不同数据集取并集

数据狈处理

标准化/正则化

标准化是将数据缩放到一个区何范阳内.如正态分布,小数定标.逻辑斯谤分布。

正則化是利用先脸知识.对模型增加約束.防止过拟合。

数据狈处理

銚失值填充

对数据中某项数值所对应的荣些样本缺失.通过荣种先验假设.根据样木其他已知数据项对缺失值拟合预测。

数据預处理

拆分

按照比例拆分样本集.如设R0.6.切分成60:

40两个样本集。

数据预处理

颅机采样

勻数抵賦过人或模里训练批容扯何限时.殛机采族一定助比例的样本集°

数据预处理

增加序列号

在数据茨笫一列追加1D列。

数据預处理

Select

数据库我诲操作.荻询荣瞅定条件卜的样本

数据旗处理

Sclccl_Distinct

数据库査询操作.去询某限定条件卜并过濾抑車變的样本

数据狈处理

Sclccl_Whcrc

数据库査询操作.査询播定条件卜的样本

数据旗处理

Sclccl_And_Or

数据库査询操作.35询条件的交集与井集

数据预处理

Sclccl_OrdcrBy

数据库査询操作.査询结果按某播标排序

数据预处理

Sclccl_Limil

数据库査询操作.査询某限定段的数据

数据預处理

Sclccl_Likc

数据库齋i旬操作・金询包含指定字段的数抵

特征工程

主成分分析

数据降维去噪術用方法,对数据的协方差矩阵取前K个说人方差方向作为新的数抵方向。

特征工程

Onchol編码

用户将特征值进行二元編码映射成「:

元向此井与数值向扯进行拼接

特征工程

特征尺度变换

由于计尊需要或根据数据特点将某特征对应数据项进行缩放•不改变样本何该数值项的相对人小

特征工程

特征重要性分析

指根据数据集各项特征在算法模型中对目标变量的相对虫要祝度的分析.从而提出兀余特征.关注重要特征.提高算法桎型的效率准确性

特征工程

特征离散

对连续型特征按某方法转換为离散型变最

文本分析

SplilWord

分布式jidxi分词接口.基干Trie树结构实现高效的词图打描.生成句子中汉字所有吋能成词伤况所构成的有向无环图（DAG）：

采用了动态规划査找嚴人概率路径•找出基于词频的般人切分组郃对于未登录词.采用了基干汉字成词能力的模型.使用TViterbi»法

文本分析

文档主题生成模型（LDA）

LDAfLalcntDirichletallocation）.是一种主题棋型•它吋以将文档集中毎篇文档的主題按照概率分布的形式给出。

同时它足一种无监愕学习算法•在训练时不需要手工标注的训练集.需耍的仅仅足文档集以及折定主题的数！

ftk即对，LDA商先由DavidM.Bid.AndrewY.Ng和MichaelI.Jordan于2003年提出.WM文本挖掘緬域包括文本主题识别、文本分类以及文本相似度汁刃方面都有应用。

文本分析

TF特征

将文木文档的集合转换为词频汁数的向敝。

文本分析

HashingTF特征

使用敬列技乃将一系列词语映射到其词频的向此HashingTF的过程就足对毎一个词作了一次哈希并对特征维数取余帑到该词的位賈・然后按照该词出现的次数计次。

所以就不用像传统方法一样每次维护一张词茨.运用HushingTF就对以方便的得到该词所对应向fit元素的位BL当怨这样做的代价就是向fit维数会非常大.好在spark町以支持稀疏向瓯所以计Wffffi并不大•

文本分析

TFJDF特征

TFJDF

TFJDF是一种统计方法•用以评估一字词对干一个文件集或一个语料库中的其中一份文件的車要程度.字词的觅要性随若它在文件中出现的次数成正比增加.但同时会同若它在语料库中出现的频率成反比卜•降。

TFJDF加权的备种形式帑被捜索引擎应用.作为文件与用户査询之何相关程度的度扯或评级•

文本分析

字符串相似度

•个字符串转换成另外一个字符串的代价・转换的代价越高则说明两个宁符串的相似度越低.

文本分析

停用词过滤

针对文档数据.将包含的特定词汇过滤掉•不计入统汁数据中

文本分析

\Vord2Vcc

Word2Vcc足一种著名的词嵌入（WoixJEmbedding）方法•它町以itnftj个单词在其给定语料库环境卜•的分布式词向fit（DislributcdRcprescnlalion.亦宜接被称为词向flt）&词向扯茨示对以在一宦程度上刻画毎个单词的语义.如果词的语义相近•它们的词向址在向址空间中也相互接近・这使得词语的向址化建模更加桔确.吋以改善现冇方法井提高魯核性。

词向飛已被证明在许多自然语肓处理问题.如：

机器牺译.标注问题,实休识别等何题1>从冇非常重要的作用。

Word2VccH有两种模型.其一足CBOW.其思想是通过毎个词的匕下文當口词词

展开阅读全文