集团大数据平台整体方案建议书.docx

上传人:b****1 文档编号:176051 上传时间:2022-10-05 格式:DOCX 页数:531 大小:18.87MB
下载 相关 举报
集团大数据平台整体方案建议书.docx_第1页
第1页 / 共531页
集团大数据平台整体方案建议书.docx_第2页
第2页 / 共531页
集团大数据平台整体方案建议书.docx_第3页
第3页 / 共531页
集团大数据平台整体方案建议书.docx_第4页
第4页 / 共531页
集团大数据平台整体方案建议书.docx_第5页
第5页 / 共531页
点击查看更多>>
下载资源
资源描述

集团大数据平台整体方案建议书.docx

《集团大数据平台整体方案建议书.docx》由会员分享,可在线阅读,更多相关《集团大数据平台整体方案建议书.docx(531页珍藏版)》请在冰豆网上搜索。

集团大数据平台整体方案建议书.docx

集团大数据平台

整体方案建议书

目录

1 项目概述 14

1.1 建设背景 14

1.1.1 集团已有基础 14

1.1.2 痛点及需提升的能力 14

1.1.3 大数据趋势 15

1.2 建设目标 15

1.2.1 总体目标 15

1.2.2 分阶段建设目标 16

1.3 与相关系统的关系 16

1.3.1 数据分析综合服务平台 16

1.3.2 量收系统 17

1.3.3 金融大数据平台 18

1.3.4 各生产系统 18

1.3.5 CRM 18

1.4 公司介绍和优势特点 18

1.4.1 IDEADATA 18

1.4.2 TRANSWARP 20

1.4.3 我们的优势 21

2 业务需求分析 24

2.1 总体需求 24

2.2 数据管理 25

2.2.1 数据采集 25

2.2.2 数据交换 26

2.2.3 数据存储与管理 26

2.2.4 数据加工清洗 27

2.2.5 数据查询计算 27

2.3 数据管控 28

2.4 数据分析与挖掘 28

2.5 数据展现 29

2.6 量收系统功能迁移 30

3 系统架构设计 31

3.1 总体设计目标 31

3.2 总体设计原则 31

3.3 案例分析建议 32

3.3.1 中国联通大数据平台 32

3.3.2 恒丰银行大数据平台 40

3.3.3 华通CDN运营商海量日志采集分析系统 51

3.3.4 案例总结 56

3.4 系统总体架构设计 57

3.4.1 总体技术框架 57

3.4.2 系统总体逻辑结构 61

3.4.3 平台组件关系 63

3.4.4 系统接口设计 68

3.4.5 系统网络结构 72

4 系统功能设计 74

4.1 概述 74

4.2 平台管理功能 74

4.2.1 多应用管理 74

4.2.2 多租户管理 78

4.2.3 统一运维监控 79

4.2.4 作业调度管理 98

4.3 数据管理 100

4.3.1 数据管理框架 100

4.3.2 数据采集 102

4.3.3 数据交换 105

4.3.4 数据存储与管理 106

4.3.5 数据加工清洗 124

4.3.6 数据计算 125

4.3.7 数据查询 140

4.4 数据管控 159

4.4.1 主数据管理 159

4.4.2 元数据管理技术 161

4.4.3 数据质量 164

4.5 数据ETL 171

4.6 数据分析与挖掘 173

4.6.1 数据分析流程 175

4.6.2 R语言开发环境与接口 176

4.6.3 并行化R算法支持 177

4.6.4 可视化R软件包 180

4.6.5 编程语言支持 182

4.6.6 自然语言处理和文本挖掘 182

4.6.7 实时分析 183

4.6.8 分析管理 183

4.6.9 分析支持 187

4.6.10 指标维护 187

4.6.11 分析流程固化 188

4.6.12 分析结果发布 188

4.6.13 环境支持 188

4.7 数据展现 189

4.7.1 交互式报表 191

4.7.2 仪表盘 196

4.7.3 即席查询 197

4.7.4 内存分析 198

4.7.5 移动分析 199

4.7.6 电子地图支持 199

5 技术要求实现 201

5.1 产品架构 201

5.1.1 基础构建平台 204

5.1.2 大数据平台组件功能介绍 205

5.1.3 系统分布式架构 243

5.2 运行环境支持 245

5.2.1 系统操作支持以及环境配置 245

5.2.2 与第三方软件平台的兼容说明 246

5.3 客户端支持 247

5.3.1 客户端支持 247

5.3.2 移动端支持 247

5.4 数据支持 247

5.5 集成实现 249

5.6 运维实现 251

5.6.1 运维目标 251

5.6.2 运维服务内容 252

5.6.3 运维服务流程 254

5.6.4 运维服务制度规范 256

5.6.5 应急服务响应措施 257

5.6.6 平台监控兼容 257

5.6.7 资源管理 258

5.6.8 系统升级 260

5.6.9 系统监控平台功能 261

5.7 平台性能 269

5.7.1 集群切换 269

5.7.2 节点切换 271

5.7.3 性能调优 272

5.7.4 并行化高性能计算 277

5.7.5 计算性能线性扩展 280

5.8 平台扩展性 281

5.9 可靠性和可用性 283

5.9.1 单点故障消除 283

5.9.2 容灾备份优化 285

5.9.3 系统容错性 289

5.10 开放性和兼容性 291

5.10.1 高度支持开源 294

5.10.2 操作系统支持以及软件环境配置 306

5.10.3 兼容性与集成能力 307

5.11 安全性 308

5.11.1 身份鉴别 309

5.11.2 访问控制 309

5.11.3 安全通讯 315

5.12 核心产品优势 315

5.12.1 高速运算、统计分析和精确查询 315

5.12.2 有效的资源利用 317

5.12.3 高并发、低延迟性能优化 318

5.12.4 计算资源有效管控 319

5.12.5 API设计和开发工具支持 320

5.12.6 友好的运维监控界面 322

5.12.7 扩容、备份、恢复机制 326

5.12.8 集群自动负载均衡 328

5.12.9 计算能力扩展 328

5.13 自主研发技术优势 328

5.13.1 高稳定、高效的计算引擎Inceptor 328

5.13.2 完整的SQL编译引擎 330

5.13.3 高性能的SQL分析引擎 330

5.13.4 SQL统计分析能力 331

5.13.5 完整的CURD功能 332

5.13.6 Hyperbase高效的检索能力 333

5.13.7 基于Hyperbase和SQL引擎的高并发分布式事务 335

5.13.8 Hyperbase非结构化数据的支持 336

5.13.9 机器学习与数据挖掘 336

5.13.10 TranswarpStream 340

5.13.11 内存/SSD/磁盘混合存储 342

5.13.12 MR/Spark/流处理统一平台 344

5.13.13 多租户支持能力 345

5.13.14 多租户安全功能 346

5.13.15 标准JDBC与ODBC接口 346

6 系统性能指标和测试结果说明 348

6.1 性能测试报告 348

6.1.1 测试目标 348

6.1.2 测试内容 348

6.1.3 测试环境 348

6.1.4 测试过程和结果 350

6.2 TPC-DS测试报告 353

6.2.1 测试目标 353

6.2.2 测试内容 353

6.2.3 测试环境 355

6.2.4 测试过程和结果 356

6.3 量收迁移验证性测试报告 357

6.3.1 测试目标 357

6.3.2 测试内容 357

6.3.3 测试环境 358

6.3.4 串行执行情况 358

6.3.5 并行执行情况 360

6.3.6 生产表数据规模 361

6.3.7 测试结果 363

6.4 某银行性能测试报告 363

6.4.1 测试目标 363

6.4.2 测试内容 363

6.4.3 测试环境 363

6.4.4 测试过程和结果 364

7 系统配置方案 376

7.1 硬件系统配置建议 376

7.1.1 基础Hadoop平台集群配置规划 376

7.1.2 数据仓库集群配置规划 378

7.1.3 集群规模综述 380

7.1.4 开发集群配置建议 381

7.1.5 测试集群配置建议 381

7.2 软件配置建议 382

7.3 软硬件配置总表 383

7.4 网络拓扑 385

8 系统测试 386

8.1 系统测试方法 386

8.2 系统测试阶段 387

8.3 系统测试相关提交物 388

9 项目实施 390

9.1 项目实施总体目标 390

9.2 项目管理 390

9.3 业务确认 391

9.4 数据调研 392

9.5 系统设计阶段 393

9.6 集成部署阶段 394

9.7 ETL过程设计 394

9.8 ETL开发与测试 395

9.9 系统开发阶段 396

9.10 系统测试阶段 397

9.11 系统上线及验收 398

9.12 提交物 400

9.13 系统的交接与知识转移 402

10 项目管理 404

10.1 项目总体管理 404

10.1.1 项目实施总流程 404

10.1.2 项目实施中各阶段的主要任务 404

10.1.3 项目组织架构 409

10.1.4 项目负责人及主要成员 415

10.1.5 项目管理制度 490

10.2 项目质量管理 493

10.2.1 范围 494

10.2.2 过程目标 494

10.2.3 角色与职责 494

10.2.4 过程活动 496

10.3 项目计划 499

11 安全保密 509

12 知识产权 511

13 技术服务 512

13.1 现场支持服务 512

13.2 标准售后技术服务 513

13.2.1 提供预防性维护 513

13.2.2 系统升级服务 514

13.2.3 系统性能优化 514

13.2.4 提供系统完整文档 514

13.2.5 定期系统健康检查服务 515

13.2.6 应急预案 516

13.3 承诺 516

13.3.1 我方对集团的承诺 516

13.3.2 关于开发队伍的承诺 516

13.4 技术保证 517

13.4.1 方案实用性保证 517

13.4.2 应用系统的运行能力的保证 517

13.4.3 预防性维护检修内容 517

13.4.4 服务响应 518

13.4.5 关于软件维护的保证 518

13.4.6 专业服务保证 519

13.4.7 售后服务流程及时限 519

14 人员培训 520

14.1 Hadoop系统培训 521

14.2 业务使用培训 522

14.3 分析挖掘培训 523

14.4 运行维护培训 525

14.5 开发培训 526

14.5.1 培训目标 530

14.5.2 培训方式 530

14.5.3 培训资源 531

1项目概述

1.1建设背景

1.1.1集团已有基础

经过十几年的信息化建设,集团已经积累了覆盖邮务、速递物流、金融三大板块的海量生产和经营数据,这些数据分布在集团各类应用系统和数据库中,支撑着集团业务的发展。

集团初步搭建了由名址系统、量收系统、速递平台系统、数据分析平台组成的初步的数据仓库,为数据分析挖掘工作打下了一定的技术基础。

组建了专业的组织架构促进企业数据管理与应用的规范化与制度化。

集团已成立数据中心,集团数据中心和各省的数据分析团队已经进行了多个专题的数据分析与成果应用的尝试。

1.1.2痛点及需提升的能力

集团拥有丰富的客户资源,海量的数据积累。

在大数据时代,要充分挖掘数据价值,跟上时代的步伐。

板块间数据存在壁垒,共享不足,无法实现集团企业数据的充分有效利用。

数据存在冗余、分散、安全性差、一致性差等问题,应建立有效的数据管控体系,打破信息孤岛、实现企业信息数据共享、提升数据价值。

非/半结构化数据利用不足,需利用大数据技术加强应用。

1.1.3大数据趋势

随着移动互联网、

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 党团建设

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1