广西烟草数据中心软件开发集成及实施项目总体需求分析说明书.docx
《广西烟草数据中心软件开发集成及实施项目总体需求分析说明书.docx》由会员分享,可在线阅读,更多相关《广西烟草数据中心软件开发集成及实施项目总体需求分析说明书.docx(70页珍藏版)》请在冰豆网上搜索。
广西烟草数据中心软件开发集成及实施项目总体需求分析说明书
广西烟草数据中心
软件开发集成及实施项目
总体需求分析说明书
1需求概述
针对信息化规划中确定的广西区信息化总体架构,数据中心系统建设主要实现行业总体技术架构中数据中心的内容,同时搭建应用集成平台、企业门户的基础信息化平台。
2信息资源标准
企业数据模型是数据仓库建立的基础,具体建模路线图如下:
整个数据中心建模工作从业务探索和信息探索两条路径进行,业务探索是基于烟草行业商业企业组织结构、流程和经营管理活动的共性来进行建模,信息探索是基于应用需求和企业信息化现状来进行建模,两条路径共同影响,最终形成企业的数据模型。
主题域建模是对企业关键参与者、产品与服务及其主要经营和管理活动领域的抽象,是对参与企业经营和管理活动的实体及其活动的分组,主题域建模阶段的产物为主题域模型。
业务数据建模是一个对各主题域进行进一步细化的过程,它通过分析与主题域相关的活动及实体,确定出主题域的实体及其相互关系,业务数据建模阶段的产物为业务数据模型(概念模型)。
逻辑建模是对业务数据模型进一步细化,形成逻辑表、字段和键值,逻辑建模阶段的产物为逻辑模型,并在此基础上形成数据接口需求和基础编码标准初稿。
信息需求分析阶段主要确定可用的数据范围和应用的呈现内容,该阶段的产物为需求分析报告。
数据源分析阶段是根据需求分析报告对所需的数据源数据进行分析,确定数据源数据的组织形式。
ODS建模根据逻辑模型确定的信息内容和数据源数据的组织形式确定ODS模型,在这个过程中会根据数据源数据内容适当增加信息来满足应用需求,同时对基础编码标准初稿进行完善。
该阶段的产物包括ODS物理模型,数据源接口标准和基础编码标准。
DW建模是在ODS模型基础上进行历史数据存储以及满足应用的便利性和性能构建趋向于星型结构的模型,该阶段的产物为DW物理模型,DW模型具有一定的公用性。
DM建模是为了满足某些专门的应用构建的模型,基于需求分析报告和ODS、DW中模型进行构建,如果某个应用ODS、DW中模型已有模型能够满足,则不需要再进行DM建模,该阶段的产物为DM物理模型。
本部分内容的成果包括《广西烟草数据中心系统模型设计说明书》。
3数据标准体系
遵循国家和行业的标准和规范,制定广西烟草信息分类及编码标准和数据交换标准,对于国家和行业标准未涉及的内容,应根据广西烟草商业信息化的需要,补充制定企业标准,并充分考虑国家和行业标准规范因素,使企业规范能够在未来平滑地过渡到国家和行业标准规范。
在制定标准的基础上,建立基础编码管理功能,实现对编码标准的进行维护,并在系统中应用这个标准数据对采集进来的数据信息进行规范。
本部分内容的成果包括《广西烟草数据中心系统信息分类及编码标准》以及《广西烟草数据中心软件开发集成及实施项目集成标准》中数据交换相关内容。
4数据加工存储
数据中心架构采用ODS(操作型数据存储)、EDW(企业级数据仓库)、DM(数据集市)、OLAP(多维数据库)四层逻辑架构。
4.1ODS
ODS是整个企业的核心实体及经营管理活动的系统的、面向主题的、完整的当前级描述。
ODS不提供对外的大数据量查询和检索功能,而是在EDW层面提供,从而充分发挥EDW在大数据量数据检索性能方面的优势。
ODS采用3NF进行设计。
ODS的数据内容包括:
●数据交换过程的临时数据;
●外部采集数据的存储区域;
●BI的决策分析结果应用到业务系统的中间存储区域;
●明细级、当前的、近实时的业务数据(建议保留3个月)
4.2EDW
EDW是整个企业的核心实体及经营管理活动的系统的、面向主题的、完整的历史级描述。
EDW作为数据综合分析应用的输出基地,为数据集市层提供数据输入。
EDW底层采用3NF进行设计,逐步向上层星型结构过度。
其数据特点是:
●全局的、面向主题的;
●明细的、轻度汇总的;
●近期的、历史的数据;
建议数据存储周期为3年。
其中底层明细数据可以支持前端应用的明细数据查询,基于EDW可以生成面向分析主题的数据集市层。
4.3DM
DM存储面向主题和数据分析应用的、高度汇总级别的数据,采用维度建模的方式进行设计。
根据数据应用的特点可以划分为多维分析集市、报表集市、数据挖掘集市、专题应用的集市。
同时,数据集市可为OLAP引擎提供多维分析的数据支撑环境,便于快速加载到多维分析数据库。
4.4OLAP
OLAP多维分析数据库充分利用多维数据库对查询性能的优势,将数据组织为多维的存储结构、面向数据分析应用的高性能支持环境;借助于OLAP分析工具实现相关的多维分析、自定义报表和查询。
4.5ETL
ETL整个架构分为三个部分:
⏹源数据获取(Extract)
⏹数据据清洗转换(Tansform)
⏹数据导入(Load)
源数据获取(Extract)
数据获取主要是指从各个生产系统中获取本系统所需的原始数据。
一般有几种方式:
直接连接生产系统导出数据文件、直接从生产系统Export出文本文件再通过FTP等手段下载等。
对本系统的Extract过程建议遵循以下几个原则:
⏹为提高ETL效率,数据在进入ETL系统后的EXF文件都将转换为FlatText文件格式
⏹从ETL程序设计的灵活性和整体结构的一致性考虑,尽量采用Push的方式,减少对源系统的影响和对其他开发队伍的依赖,并减少网络压力
⏹EXF的文件格式接近数据源的数据结构定义
⏹在Extract过程中过滤数据仓库不需要的数据记录和字段
其中,
⏹Push方式:
在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理
⏹
⏹Pull方式:
由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理
数据清洗转换(Transform)
此阶段主要是根据具体系统数据需求确定清洗原则,主要包括:
数据检查与稽核
数据类型统一转换
空数据赋缺省值
数据排序与拆分
脏数据处理等。
通过对源数据文本文件(EXF)进行一些列处理生成符合数据仓库结构的文本文件(PLF),再导入数据库。
中间会生成中间结构文件(CIF)。
具体文件格式解释如下:
⏹EXF(ExtractedFormat):
由数据源Extract产生的文件,文件结构与Source相似,经过过滤,部分字段被忽略。
⏹CIF(CommonInterfaceFormat):
CIF是ETL经过Converting/Sort/Split过程产生的中间数据文件。
⏹PLF(Pre-LoadFormat):
经过数据转换,用于直接加载到数据仓库的文本文件,其数据结构与数据仓库中的表定义一致。
数据导入(Load)
把与数据表结构定义一致的文本文件PLF一次性导入到数据库中。
根据具体需求和硬件资源,分为全量导入和增量导入。
全量数据导入:
是指把Extract出来的源数据按采集频度全部导入到目标数据库中。
这样做的优势在于进行数据细加工以及数据分析的时候,减低处理逻辑复杂程度,从而提高开发效率。
但是此种方法带来的负面影响就是会占用大量的硬件资源,从而增加成本。
增量数据导入:
根据源数据情况和具体需求的不同,采用的方式也不同。
如果源数据具备时间戳并且根据时间戳就能够做到增量数据的Extract,那么在源数据导出的时候就能够实现增量数据获取。
如果满足不了上述条件,那么只好采用通过上一个采集频度和本次采集频度生成的文本文件的比较来产生增量源数据。
这种情况要求文本文件中的数据是按照键值排好序的。
根据具体需求的不同,有时候数据采集和导入方式要并存。
也就是说,有些数据保存全量(例如数据量不大,但是数据复杂度较高),而有些数据保存增量(例如数据量较大,但是数据复杂度相对较低)。
而且还要考虑硬件资源的成本问题。
5数据分析应用
5.1首页
包括:
信息提示、菜单、地图、简报、折线图、常用功能7部分。
其中:
5.1.1预警信息
首页左上角框里显示两类内容,滚动显示预警信息内容;点击框后图标,分别弹出界面显示具体的预警信息内容。
点击:
市州名称,显示市州实际值和目标值。
互动信息界面如下:
说明:
登录用户可以把一些问题处理意见以互动信息的形式发给相关负责人,相关责任人处理后可以进行情况回复。
5.1.2简报
查询条件:
分为年度和月度两种,选择年度,相关数据显示到所选月为止的累计数据(时点数据除外,如库存),选择月度,相关数据显示所选月的数据。
简报包括卷烟、烟叶、专卖和财务四部分。
卷烟简报
在卷烟统计简报页面中,点击客户结构,弹出界面如下:
卷烟结构页面,卷烟价类结构
卷烟品牌结构
行业排名
日期默认显示有数据的最新的年月,日期类型默认年度。
指标包括:
销量、产量、销额、销售均价、库存量
柱状图按所选指标本期降序排列,广西加亮显示。
烟叶简报
地图选择全省时内容如下:
文字描述:
2011年全区计划调拨烤烟200万担,截止到2011年3月11日,全区累计调拨180万担,完成计划90%;调拨150万担,结算150万担,结算金额14.4亿元,结算均价960元/担。
在烟叶统计简报中点击调拨工业分布,弹出界面如下:
指标包括:
协议量、累计调拨量
在烟叶统计简报中点击烟叶种植主体分布,弹出界面如下:
数据来源:
烟叶种植布局TO_PLANT_LAYOUT
烟叶种植主体TO_PLANTER
专卖简报
广西区烟草公司2013年专卖简报
2011年
全区当前有效许可证数###,占辖区人口数##%;
全区2011年共查处涉烟违法犯罪案件10638起,查获违法经营卷烟9100多万支,捣毁制假窝点19个,查获制假烟机械26台,查扣烟丝1300多吨;移送公安机关追究刑事责任398人,刑拘258人,逮捕192人,判刑141人。
指标库取数
财务简报
广西区烟草公司2013年财务简报
2010年01月-2010年11月
实现税利亿元,同比增长%;
实现利润亿元,同比增长%;
综合毛利率%,同比上升(下降)个百分点;
三项费用总额为亿元,同比增加(减少)亿元,增(减)幅%
三项费用率7.68%,同比增加(减少)个百分点。
从指标库取。
5.1.3常用分析
根据用户对分析的使用次数降序显示分析名称(4个)。
5.2专题分析
5.2.1品牌分析
品牌分析提供对单品牌卷烟的一系列分析,包括:
波动分析、BCG矩阵、竞争分析、生命周期和品牌定位评价。
5.2.1.1品牌分析总览
点击数据中心右侧导航栏中的专题分析下的品牌分析,可进入品牌分析总览页面,对不同品牌、价类、产地、品类,不同的时间范围查询卷烟的购进、订单、销售等数据。
在品牌分析总览中选择一条卷烟记录,点击左侧的波动分析、BCG矩阵、竞争分析、生命周期、品牌定位评价,可进入对应的分析中。
5.2.1.2波动分析
选中卷烟,通过左侧的波动分析,进入该卷烟的波动分析页面。
在波动分析中,可以查询各公司在某个时间段的数据。
5.2.1.3BCG矩阵
选中卷烟,通过左侧的BCG矩阵,进入该卷烟的BCG矩阵分析页面。
在BCG矩阵分析中,选择不同条件,可对卷烟的市场占有率和销售增长率进行对比分析。
5.2.1.4竞争分析
选中卷烟,通过左侧的竞争分析,进入该卷烟的竞争分析页面。
该页面显示选中卷烟的销售走势图和占比走势图,并给出两个主要竞争者。
5.2.1.5生命周期
通过左侧的生命周期,进入该卷烟的生命周期页面。
该页面可以选择不同公司,查询选中卷烟的长期以来的销售情况。
5.2.1.6品牌定位评价
通过左侧的品牌定位评价,可进入该卷烟的品牌定位评价页面。
改页面可以查询不同公司不同时间段的改品牌卷烟属性,并给出评估结论,分析改卷烟存在的挑战和机遇。
5.2.2销售预测
销售预测提供对销量、销额和毛利的预测,可以根据不同机构、不同品、不同区间和不同采用周期等进行预测。
5.2.2.1建立销售预测
通过数据中心左侧的导航栏中的专题分析下的销售预测,可进入销售预测建模页面。
在页面上选择预测机构、预测指标、预测对象、预测区间、样本周期数和预测模型,再点击右上角的执行销售预测,可以建立销售预测模型。
下图为销预测页面,点击返回可以返回到模型建立页面。
5.2.2.2导出样本数据
点击模型建立页面的导出样本数据,可以将模型数据导出为Excel。
5.2.3供应链监控
供应链监控描述了供应商、购进、库存、销售和零售客户之间的关系,清晰的显示一整条供应链直接的数据关系。
通过数据中心左侧导航栏中专题分析下的供应链监控,可以进入供应链监控页面。
在该页面可以查询到各公司各时间的供应链情况。
5.2.4对标分析
对标分析通过行业对标数据与全区的对标数据进行对比分析,得出全区指标与整个行业指标的差异。
通过数据中心左侧导航栏中专题分析下的对标分析,可以进入对标分析页面。
通过录入行业对标数据和省内对标数据,进行对标分析。
5.2.5宏观分析
宏观分析描述了单条均价、销售总量和销售总额跟宏观要素之间的关系。
功能包括宏观数据列表、新建模型
5.2.5.1宏观数据查询
宏观数据查询,可查询指定地区,指定年份的宏观经济数据。
5.2.5.2建立宏观分析模型
选择一个指标,并在宏观要素选择去中勾选若干个条件,在模型选择区中选择一个分析模型,点击右上角的建模,则可根据选择条件建立分析模型。
下图为成功建立模型的页面
5.2.5.3模拟仿真
通过左边的模拟仿真,或者模型页面右上角的模拟仿真按钮,可以进入模拟仿真页面。
在页面中可以选择查询公司、年份,得出分公司分年份的模拟仿真结果。
5.2.5.4差距分析
通过左边的差距分析,或者模型页面右上角的差距分析按钮,可进入差距分析页面。
差距分析页面可以选择查询年份范围,得出不同时间段内的模型差距分析。
得出的差距分析表格可以导出为Excel。
5.2.6烟叶流程监控
界面如上图:
产区选择包括:
全省和各烟叶产区
日期按时间段选择
流程图中指标完全按上图显示指标,
烟叶种植:
相关指标取法与首页烟叶内容指标取法一致,因为种植相关表是年表,所以日期按开始日期所在年,点击图片显示
与首页图形完全一样;
烟叶收购:
指标按所选时间段计算,完成率为累计数/计划,点击烟叶收购的图片,显示收购量与收购均价的折线图走势;
烟叶入库:
点击烟叶入库图标,显示烟叶等级和烟叶大等级两个饼图,
烟叶调拨:
点击图标,显示调拨数量的折线图走势;
烟草工业:
点击图标,显示
指标包括:
协议量、累计调拨量
5.2.7销量排名分析
对销量进行立体分析。
5.2.8综合分析
5.2.9市场份额分析
按月查询:
按日查询:
5.2.10进销存分析
可以逐级汇总查询:
5.2.11销售走势分析
可以从公司、营销部、客户经理、客户,进行逐级分析:
5.2.12销售分级分析
可以从公司、营销部、客户经理、客户,进行逐级分析,点击单位进行下级分析:
5.3目标管理
目标管理通过创建目标,通过创建目标时的目标值与实际值相比较,达到对目标的监控、预警、提醒等功能。
通过数据中心左侧导航栏中的目标管理下的创建目标,可以进入创建目标向导页面。
点击创建一个新的目标,进入下一步。
点击选择指标,会弹出指标选择对话框。
在该对话框内选择一个指标,点击确认后,会返回指标选择页面,点击下一步,进入目标设置。
在目标设置页面,选择目标的组织、周期,并设置目标值,点击下一步,进入预警设置页面。
在预警设置页面,输入完成目标的百分比,设置优秀或者异常,点击下一步,进入提交完成页面。
在提交完成页面,可以为设置的目标定义目标名称。
如果需要指定责任人,则在是否指定责任人后的方框内打钩,并点击后面的选择责任人。
在弹出的对话框中选择一名责任人,点击确定。
之后点击提交完成,则提示目标创建成功,并会返回目标创建向导。
通过数据中心左侧的目标管理下的目标查询,进入目标跟踪页面。
可以选择不同的查询条件,过滤目标。
点击操作中的编辑按钮,可以进入目标编辑页面,对目标进行重新编辑。
5.4报表中心
报表中心里存放业务部门日常工作必须的固定格式的报表。
选择某报表,可进入报表查看页面,点击导出按钮,可以将报表导出为Excel。
5.5灵活查询
5.5.1关键技术要求保证策略
性能保证策略:
分表限量、智能定位;
1.分表是指客户经理及以下表数据都按时间类型(月、日)、是否含商品和公司分表(年表不按公司分),如果一个省有14个市的话,客户经理和客户分别有2*2*14+2=58张表;
2.限量是指分别限制年、月、日表的查询范围,原则上日查询限定为三个月,月查询限定为三年,年查询根据历史数据质量情况确定;
通过ETL控制目标表的数据量来实现,并把相关信息写入表中。
数据表名
TM_DATAAREA
主键
描述
数据范围
属性描述
列名
字段说明
类型
长度
约束
DATE_TYPE_ID
日期类型内码(主)
Integer
非空
DATE_TYPE_NAME
日期类型名称
CHAR
2
MAX_DATE
最大日期
VARCHAR
8
MIN_DATE
最小日期
VARCHAR
8
3.智能定位是指用户通过选择查询条件确定查询需求后,系统会自动找出满足客户查询需求的性能最好的一张表。
易用性保证策略:
1.同一主题域单一入口,如‘卷烟’灵活查询,每个用户看到的只有一个菜单,选择完查询条件就可进行表样定制,这样客户不用考虑该用哪个菜单、哪个模板或哪个模型。
2.查询条件界面默认显示最常用的少量查询条件,非常用查询条件通过进一步设置选择。
3.现在展现层面,综合了多个bi工具的灵活分析功能,基本实现了bi工具的在确定数据范围内的任意组合效果,同时在多个方面比一般的bi工具更简洁、更实用。
灵活性保证策略:
主要是对多种需求的囊括性,处理方法是分别对客户、商品和数据表分别增加一个辅助表,满足自定义客户分类、自定义商品分类、复杂指标(如品牌集中度)的需求,这个部分内容暂时不做。
5.5.2需求详述
5.5.2.1查询条件
1.查询条件数据范围说明从TM_DATAAREA表中获取。
时间选择:
默认最大、最小,从TM_DATAAREA表中获取。
2.机构选择:
根据用户对应公司确定显示机构层级,只显示本级及以下级机构,指标会随机构选择的变化而变化,默认只选中本级。
过滤条件:
除全省(区)不显示在过滤条件内,选中的最低粒度的显示项本级及所有上级层次都依次显示在过滤条件中,过滤条件联动。
3.时间类型选择:
包括日、月、年,默认选择月,指标会随日期类型的变化而变化;当机构为全省(区)且选择客户维时,日、年选择失效。
4.商品维选择:
可收放,默认收起,显示项为卷烟类别、品牌拥有者、品类、卷烟品牌和卷烟规格、焦油含量类别,更多显示项为非常用的卷烟分类(暂时先不做)。
过滤条件包括:
卷烟类别、卷烟产地(产地类别—品牌拥有者—品牌,各层都可选)、品类,更多包含:
购进价范围,批发价范围,零售价范围,焦油含量范围;
5.客户维选择:
可收放,默认收起,机构维选择客户时,此项必选;
显示项包括:
业态、市场类型、区域类型、守法情况、经营规模;客户明细包括:
客户名称、主订货电话、客户住址、法人、结算方式,更多显示项为非常用的客户分类(暂时先不做)。
过滤条件包括:
客户名称、客户住址、法人、结算方式,其中客户名称、客户住址、法人通过输入进行模糊查询;当机构为未选客户时,客户明细选择项、过滤条件项和限制条件无效。
6.指标:
随机构、时间、商品、客户的选择而变化;点击指标设置,每个月度指标可以选择上期、同期、环比增减(+-)、环比增减(%)、同比增减(+-)、同比增减(%),每个年度指标可以选择同期、同比增减(+-)、同比增减(%);可设置指标过滤条件。
注:
本期必选,单位即是过滤条件的单位,又是指标的单位,量默认条,金额默认元,另外还有件、箱,单位转换时要关联单位转换表。
5.5.2.2指标对应
机构最细粒度
时间
商品
客户
基础指标
计算指标
数据源表
复杂指标
数据源表
省
日
未选
未选
购进数量
购进均价(元/箱)
F_CG_ORG_DALL
暂无
购进金额
销售均价(元/箱)
需求数量
库存均价(元/箱)
销售数量
毛利率(%)
销售金额
需求满足率(%)
系统外销售数量
系统外销售金额
期末库存数量
期末库存金额
毛利额
月
购进数量
购进均价(元/箱)
F_CG_ORG_MALL
暂无
购进金额
销售均价(元/箱)
需求数量
库存均价(元/箱)
销售数量
毛利率(%)
销售金额
需求满足率(%)
系统外销售数量
系统外销售金额
期末库存数量
期末库存金额
毛利额
年
购进数量
购进均价(元/箱)
F_CG_ORG_YALL
暂无
购进金额
销售均价(元/箱)
需求数量
库存均价(元/箱)
销售数量
毛利率(%)
销售金额
需求满足率(%)
系统外销售数量
系统外销售金额
期末库存数量
期末库存金额
毛利额
省
日
选
未选
购进数量
购进均价(元/箱)
F_CG_ORG_DAY,D_CG
暂无
购进金额
销售均价(元/箱)
需求数量
库存均价(元/箱)
销售数量
毛利率(%)
销售金额
需求满足率(%)
系统外销售数量
系统外销售金额
期末库存数量
期末库存金额
毛利额
月
购进数量
购进均价(元/箱)
F_CG_ORG_MONTH,D_CG
暂无
购进金额
销售均价(元/箱)
需求数量
库存均价(元/箱)
销售数量
毛利率(%)
销售金额
需求满足率(%)
系统外销售数量
系统外销售金额
期末库存数量
期末库存金额
毛利额
年
购进数量
购进均价(元/箱)
F_CG_ORG_YEAR,D_CG
暂无
购进金额
销售均价(元/箱)
需求数量
库存均价(元/箱)
销售数量
毛利率(%)
销售金额
需求满足率(%)
系统外销售数量
系统外销售金额
期末库存数量
期末库存金额
毛利额
省
月
未选
选
需求数量
销售均价(元/箱)
F_CG_CUSTGROUP_MALL
暂无
销售数量
需求满足率(%)
销售金额
客户数量
选
选
需求数量
销售均价(元/箱)
F_CG_CUSTGROUP_FROFIT,D_CG
暂无
销售数量
需求满足率(%)
销售金额
机构最细粒度
时间
商品
客户
基础指标
计算指标
数据源表
复杂指标
数据源表