电信客户分析项目解决方案说明书.docx-资源下载

电信客户分析项目解决方案说明书.docx

1、电信客户分析项目解决方案说明书客户分析项目解决方案说明书XX科技股份编制一、项目存在问题及需解决问题1.存在问题1.很难获得用户操作行为完整日志。现阶段数据分析以统计为主，如用户量、使用时间点时长和使用频率等。一是需要识别用户，二是记录行为容易引起程序运行速度，三是开发成本较高。2.产品缺乏核心指标。这需要分析人员足够的了解产品，产品有了核心指标，拆分用户操作任务和目的，分析才会有目的，否则拿到一堆数据不知如何下手。3.短期内可能难以发挥作用。数据分析需要不断的试错，很难在短期内证明方法的性，可能难以获得其他角色的支持。2.需解决问题通话记录数据混乱冗余数据难以清洗，影响数据分析结果数据维度

2、过多，不利于精准发现数据价值数据量较大，普通数据库存储难度大传统数据库数据查询时效性低二、客户分析项目解决方案电话通话记录分析平台将互联网应用和大数据应用整合起来，构建成一个完整的系统，将客户数据经过清洗后存储到数据仓库中，使数据可以实现更大规模的关联计算，挖掘出数据更大的价值；进而实现数据驱动业务，通过数据统计发现业务规律；利用这个规律对未来的数据进行分类和预测，使系统呈现出智能的特性。1. 解决方案架构系统开发平台使用Hadoop大数据开发平台。Hadoop是一个高度可扩展的存储平台，可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。能扩展到处理大量的数据，能提供成百上千TB的数据

3、节点上运行的应用程序。Hadoop能够的在几分钟内处理TB级的数据。相比关系型数据库管理系统有优势。它适用于任何规模的非结构化数据持续增长的企业，将帮助运营商持续提高用户体验。系统采用面向对象的软件设计方法，把整个系统看作是多个离散对象的组合。系统设计时，首先把业务流程分解成功能模块及其业务实体对象，然后根据业务流程分析对于这些业务实体对象的操作方法，形成业务处理对象，把各个功能模块关联起来，形成系统。软件设计是一个将需求转变为软件的过程，系统通过逐步求精使得设计陈述逐渐接近于源代码。系统程序采用MVC的设计思想，将展现逻辑、控制逻辑、业务处理逻辑分离。系统采用参数化的设计思想，定义和管理系

4、统的实体及配置，调整实体以适应外部变化。系统采用J2EE技术保证程序逻辑实现的平台无关性，并便于安装部署。系统采用AJAX技术，提高客户操作的交互性，保证实际使用的易用性。系统采用echarts可视化框架实现数据展示。2. 关键技术（1） HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。（2） SpringMVCSpringMVC：属于SpringFreWork的后续产品，已经结合在Spring Web Flow里面。Spring 框架提供了构建 Web 应用程序的全功能

5、MVC模块。（3） MyBatisMYBatis：是支持普通 SQL查询，存储过程和映射的持久层框架。MyBatis 了几乎所有的JDBC代码和参数的手工设置以及结果集的检索。MyBatis 使用简单的 XML或注解用于配置和原始映射，将接口和 Java 的POJOs（Plain Old Java Objects，普通的 Java对象）映射成数据库中的记录。（4） EchartsECharts是一款基于Javascript的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表。（5） MySQL MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，属于 O

6、racle 旗下产品。MySQL 是的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是的 RDBMS (Relational Database nagement System，关系数据库管理系统) 应用软件之一。 MySQL是一种关系型数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活。 MySQL所使用的 SQL 语言是用于访问数据库的标准化语言。MySQL 软件采用了双授权政策，分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，尤其是开源源码这一特点，一般中小型的开发都选择 MySQL 作为数据库。（6） H

7、ivehive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为pReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉preduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而preduce开发人员可以把自己写的pper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询

8、、条件查询。它还提供了一系列的：具进行数据提取转化加载，用来存储、查询和分析存储在Hadoop中的大规模数据集，并支持UDF（User-Defined Function）、UDAF(User-Defnes AggregateFunction)和UDTF（User-Defined Table-Generating Function），也可以实现对p和reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性。（7） HBASEHBase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储

9、集群。（8） ZookeeperZooKeeper是一个分布式的，开源源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。（9） FlumeFlume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。三、开发范围1.数据生产对于该模块的业务，即数据生产过程，一般并

10、不会让你来进行操作，数据生产是一套完整且严密的体系，这样可以保证数据的安全性。但是如果涉及到项目的一体化方案的设计（数据的产生、存储、分析、展示），则清楚每一个环节是如何处理的，包括其中每个环境可能隐藏的问题；数据结构，数据内容可能出现的问题。2.数据采集/消费数据采集模块（消费），在企业中你要清楚流式数据采集框架flume和kafka的定位是什么。我们在此需要将实时数据通过flume采集到kafka然后供给给hbase消费。flume：cloudera公司研发适合下游数据消费者不多的情况；适合数据安全性要求不高的操作；适合与Hadoop生态圈对接的操作。kafka：linkedin公司

11、研发适合数据下游消费众多的情况；适合数据安全性要求较高的操作（支持replication）；因此我们常用的一种模型是：线上数据 - flume - kafka - flume(根据情景增删该流程) - HDFS线上数据 - flume - kafka - sparkstreing 实时流式处理消费存储模块流程图：3.数据分析我们的数据已经完整的采集到了HBase集群中，这次我们需要对采集到的数据进行分析，统计出我们想要的结果。注意，在分析的过程中，我们不一定会采取一个业务指标对应一个preduce-job的方式，如果情景允许，我们会采取一个preduce分析多个业务指标的方式来进行任务。分析模块流程图：业务指标：a) 用户每天主叫通话个数统计，通话时间统计。b) 用户每月通话记录统计，通话时间统计。c）用户流量使用情况，近两月使用统计。d）用户使用情况。e）收入来源分配。4.数据展示数据展示模块流程图：

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？