开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx

上传人:b****6 文档编号:5810058 上传时间:2023-01-01 格式:DOCX 页数:17 大小:24.88KB
下载 相关 举报
开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx_第1页
第1页 / 共17页
开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx_第2页
第2页 / 共17页
开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx_第3页
第3页 / 共17页
开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx_第4页
第4页 / 共17页
开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx

《开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx》由会员分享,可在线阅读,更多相关《开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx(17页珍藏版)》请在冰豆网上搜索。

开源力量公开课第二十六期大数据的实时分析与应用案例分享图.docx

开源力量公开课第二十六期大数据的实时分析与应用案例分享图

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

大数据的实时分析与应用案

例分享

YunTable大数据实时分析数据库介绍

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

}来自麦肯锡的报告,未来的10年里,数据和内容将增长44倍,并且这些数据有无法估量的价值;

}出现很多以数据为资产的行业,数据本身和数据相关的分析能力决定了整个公司的核心竞争力。

比如互联网广告,金融机构,大数据实时分析工具对他们而言,就等同于竞争武器,快或慢一秒钟,往往就意味着财富的得与失;

}关于各种数据的创新想法层出不穷,Google,关联关系等;

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

}MoreFindings(更多的发现,比如说,一家快消公司现在不仅可以获得具体销售数据来判断产品的走势,而且可以抓取网页来进行舆情方面的分析,来帮助他们进行决策,比如,一个男性护肤品公司在通过分析网页,从而产生的舆情信息来判断在亚洲杯投广告比在世界杯投广告更合适。

}DeepInsights(更深入的挖掘,比如说,另一家快消公司,现在不仅能获知那些人是他们的顾客,而且能获取更多关于这些顾客的信息,比如,年龄,性别,工资和所在地等,从而能对客户进行画像,从而能发展更多同类型的客户或者其他相关类似的客户;

}PricelessResults(无价的结果,我们有一个客户,他们是做车联网,他们有几十万台终端,这些终端每隔一段时间会发具体位置的消息给后端的数据集群,之后这些集群会分析一下这些海量的位置信息,最终分析出那些路段在什么时候比较堵,之后将这些非常有价值信息推送给客户,帮助用户减少在路上的受消耗的时间,假如北京所有司机都能使用这种服务,我觉得天下第一堵将不再是帝都的专利;

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

大数据需求新兴行业

业务传统新兴传统快例如电信账单分拣:

从两周到一天大例如智能电网:

一个业务系统每天20亿条记录快

阿里巴巴:

从商品销售到保险信贷转型大快

社交网络电商实时数据挖掘,广告跟踪部署

简单服务质量提升终端数量激增

竞争格局改变数据分析决定竞争力开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

}第一个阶段:

自身业务需求产生大量数据,利用这些数据,通过深入证析,优化相关业务;

}第二个阶段:

搜集与目标业务直接或间接关联的大量异质数据,建立复杂的分析和预测模型,产生针对目标业务的输出;

}第三个阶段:

随着整体数据相关的法律不断补充,以及技术不断成熟,形成一个完善的数据生态,包括数据市场,数据运营商和数据商店等。

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

}第一个阶段:

先将大量数据先存下来,并做初步和简单的处理和分析;

}第二个阶段:

对大数据,实时处理和分析的趋势非常明显,用户越快越好,越实时越好;

}第三个阶段:

用户会有更多全面数据分析需求,包括SQL、挖掘算法,以及以DeepLearning为代表机器学习技术。

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

什么是大数据实时分析?

}就是在几秒或者一秒内完成对亿万级数据的处理和分析;}快:

10秒以内,100毫秒为佳;

}大:

数据应该是10亿/TB以上级别;

}分析操作多样:

可以是简单的查询,也可以是逻辑复杂的算法和数据分析;

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

大数据实时分析的目的}实时决策能力;

}提高业务效率;

}快速智能发现新观点和商业机会;

}提供业务产出;

}提升IT效率;

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

大数据实时分析场景

金融证券

高频交易

量化交易

互联网与电商用户行为分析商品模型分析信用分析

电信

业务支撑系统

统一营帐

商业智能

能源

电厂电网监控

用电信息采集分析

其他行业

智慧城市

物联网

大数据资产

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

大数据实时分析所需的技术支撑}大数据秒级,甚至毫秒级的处理;

}上千人的并发访问;

}支持SQL标准,特别是OLAP相关的语句;

}数据的安全和集群的稳定型;

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

大数据实时分析的技术选型}Hadoop系列:

Hive,Impala;

}NoSQL类别:

MongoDB,HBase;

}传统关系型数据库:

Oracle,DB2,MySQL;

}传统列式数据库:

Infobright,SybaseIQ;

}新一代基于内存计算的数据库?

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

技术选型的对比图

秒级处理并发SQL支持安全和稳定HadoopNoDependsDependsYesNoSQLYesYesDependsDepends

DependsYesYesYes

传统关系型数据

传统列式数据库YesDependsYesDepends

?

?

?

?

基于内存技术的

新一代数据库

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

YunTable

YunTable是在从分布式MPP数据库的基础上发展而来,同时加入一些NoSQL的基因的新一代用于大数据实时分析的分布式数据库,并且支持内存计算,比较接近SAPHANA,也可以认为是新一代的数据仓库;

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

整体架构

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

核心特性

}大数据,秒级内存计算;

}采用廉价的x86硬件;

}自动线性动态扩展至数百台集群;

}每秒GB级别吞吐量,PB级别存储量;

}SQL92特性覆盖,并提供多平台的SQL驱动,还支持R;

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

核心技术

并行处理

内存计算行列混合存储

压缩

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

并行处理:

数据复制分布存储在不同的节点上并行处理内存本地化:

把大数据量和计算量分散到不同处理器

高可用性:

任何节点宕机将不影响数据完整和业务连续性核心技术(一:

并行处理

数据源

C1C2C3C4

C1‘压缩C2‘压缩C3‘压缩C4‘压缩C1‘复制C2‘复制C3‘复制C4‘复制节点1节点2节点3

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

}行分区}保留数据关联}列式数据组织}高效的数据压缩}快速的数据聚合}独特的索引结构

赵25男钱25男

孙24男李30男周31女赵钱孙李周2525243031男男男

男女内存地址

行式的数据组织

列式的数据组织

25男钱

25男孙

24男李

30男周31女数据源原始结构

映射到内存

核心技术(二:

行列混合存储开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

核心技术(三:

高效压缩}多种无损压缩算法;

}加上前面的列式数据组织,整体压缩率高达7~20倍以上

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

核心技术(四:

内存计算

硬件性能的提升

64位地址空间—单台服务器内存容量可达2TB100GB/秒数据吞吐量价格迅速下降,性能迅速提升

多核架构(每块CPU8CoreX86服务器成本较低

可采用多服务器或多刀片大规模并行扩展

行列混合存储

极高的压缩效率

YunTable的软件技术创新

数据分片

高效索引

增量插入

硬件性能提升结合YunTable软件技术创新,使原来通过大量磁盘读写处理的海量数据,可以在服务器的主内存中实时处理,提供实时统计分析结果!

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

出色的性能

因为经过强大的数据压缩,使的数据规模小很多,大都会在内存中。

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

场景一:

互联网

主要业务应用:

电商交易分析,社交网络,位置信息服务,广告交易、跟踪分析等

典型用户:

互联网广告投放效果实时监测

场景:

广告投放效果实时分析数据规模:

100亿条记录

投放网站

投放平台监测平台

广告源,

投放代码

购买广告位

嵌入代码

Python(Cookie

logcsv

YunTable

分析引擎,

模型和算法

统计报表

广告业主

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

项目YunTable指标(秒频次分析

9.492重合度分析

16.625多维度分析11.408

具体的性能测试结果

测试环境:

YunTable3台4核64G内存Dell服务器

数据场景:

2.3亿条互联网用户访问记录数据

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

场景二:

物联网与智能电网主要业务应用:

海量数据终端信息采集与用户行为分析

典型应用场景:

智能电网用电信息采集(子系统

InternetInternet数据采集服务器集群传感网络

Yun

Table实时分析数据库

实时数据RTDB

ETL工具

SQL(ODBC/JDBCSG168ERP计费系统采集业务

无线采集器

数据集中器

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

商业试验的案例-国家电网2012年底,我们团队参与了国家电网海盐大数据实验基地的建设,并且建设过程中,我们在性能方面与Oracle数据库进行了正面的PK。

在本次PK中,我们无论在导入和分析等性能方面,都远胜Oracle。

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

场景三:

金融

主要业务应用:

量化交易,高频交易

典型场景:

证券公司量化交易平台及各子系统

第三方行情数据库

第三方分析数据库Level2实时行情源Level2实时行情源

量化交易执行系统

CEP引擎

(Apama,SybaseAleri

行情计算服务

日内K线计算

分钟RSI计算

计算平台计算接口

量化交易策略

行情数据中心

分析数据

历史行

情数据

YunTable

数据接收接口数据转换工具

策略执行结果评估

回测仿真

快速交易系统成交回报推送系统

模拟盘

实盘

交易所

历史高频行情数据回放

高频实

时数据开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

证券POC具体性能表现(十亿条

查询时间

单日业务数据统计0.36秒

单周业务数据统计0.58秒

单月业务数据统计1.25秒

单日股票代码汇总分析2.27秒

单日多列汇总分析2.71秒

单日账户汇总分析4.43秒

单月股票代码汇总分析3.86秒

单月多列汇总分析5.09秒

单月账户汇总分析8.12秒

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

场景四:

电信运营商

主要业务应用:

BOSS/NGBOSS系统及各子系统典型应用场景:

NGBOSS业务运营支撑系统及各子系统

交换中心CSC

业务管理

YunTable运营数据

存储与提供商业智能

运营管理

订单枢纽

帐务枢纽

客服枢纽

鉴权枢纽

决策支持

YunTable分析数据服务、数据集市、数据仓库

管理分析

运营支持

经营分析

运营监控管理

YunTable运营管理数据

存储与服务

收入保障

人员管理

知识管理

纵向管理流程调度

业务流程调度管理统一产品目录管理统一业务资源管理

全网结算

数据集成

支撑网网管

交换节点PSN

订单枢纽

帐务枢纽

客服枢纽

鉴权枢纽

网管数据枢纽中心数据信令传输网管

业务枢纽网管

枢纽节点数据

NGBOSS统一接入门户

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

一、效率提升类应用

应用场景举例:

快速批价,快速出账,报表加速。

EzTable能力展现度:

★★★★★用户效益评价★★★★

YunTable

批价预处理/分拣/排重

原始记录

明细账单合帐高额控制

高额报告数据分发

要素统计报表

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

二、大数据应用平台

目前集团公司在广东、四川、重庆、安徽四省市开展试点。

应用场景:

配合Hadoop平台使用,用YunTable进行在线和实时分析,用Hadoop进行历史数据批量分析,提供从统计分析、数据挖掘与BI、数据可视化、业务应用开发等一系列PaaS服务。

EzTable能力展现度:

★★★★★用户效益★★★★

实时数据YunTable

Hadoop

分析引擎,模型和算法统计报表

历史数据

SQL、API

API在线实时分析离线批量分析开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

电信应用举例(三三、用户行为分析及DPI应用应用场景举例:

他网手机用户精准促转

EzTable能力展现度:

★★★★★用户效益:

★★★★★企业内网Wifi家庭Wifi

公众Wifi热

点覆盖EzTable

数据镜像ETL第三方网

站API接口

数据关联

他网号码、设备号关联•

热点地区•

网络服务能力对比•

消费能力评估•

事件及时发现,提醒•转网促销

分析模型开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

YunTable,大数据的Tesla?

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

一起携手努力实现技术理想

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

THANKYOU

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

附录

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

MasterNode

当Standby宕机时,ActiveMasterNode会通知管理员加入新的Standby节点。

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

DataNode架构

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

注册DataNode

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

数据分布和处理架构

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

DataNode失效

开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

集群“脑裂”开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

数据导入(单节点导入)开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

数据导入(多节点导入)开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

数据导入(失败)开源力量|让我们一起向最牛的IT技术专家们学习!

开源力量公开课|每周二线上线下同时开课

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1