商务智能期末考试整理.docx

资源描述

商务智能期末考试整理.docx

《商务智能期末考试整理.docx》由会员分享，可在线阅读，更多相关《商务智能期末考试整理.docx（17页珍藏版）》请在冰豆网上搜索。

商务智能期末考试整理.docx

商务智能期末考试整理

第一讲商务智能概述（综合论述题）

1学习本课程的原因：

现代管理需要基于计算机的方法

让决策更有有效性

企业需要有智能　

A：

在分析型商务智能软件的帮助下，用户可以建立统一的企业数据仓库平台,并收集,访问，分析每个商业领域的数据，同时,数据库技术的进步,服务器性能的提升以及分析软件算法的优化,是的访问大型数据库处理海量信息变得更加容易便捷。

　B：

商务智能可以提供个性化服务，以满足不同用户的需求,智能搜索可以给决策者以很好的数据分析。

2与本专业的关联性：

　信息技术迅速发展的今天,电子商务已在国民经济中显现出极其重要的作用。

伴随着服务形态在全球扩张,市场需求多样化,社会网络的广泛建立等社会经济巨大变革;数据量正以每年翻倍的速度扩增,然而数据源分散，异构数据库难以整合，数据接口复杂等问题严重，导致大量数据中真正能被利用来分析和运用的数据不足１0％。

如何将数据有效转化为决策者所需要的信息,提升电子商务整体应用水平，已经成为政府，企业界和软件开发界关注的一个研究方向。

（BＩ发展趋势：

绩效管理，产品模块的集成，结构化和非结构化数据，数据质量,预测分析，客户定制化。

）

　根据商务智能的主要技术,以及电子商务的移动，虚拟性，个性化，社会性等新型特征，把商务智能同电子商务基础性规律结合起来，完善商务节点的数据挖掘,抽取，转化集成和应用。

提升电子商务中的智能搜索，精度营销,比较购物，供应链、配送优化等现实需求。

描述商务智能融合技术在电子商务中的应用展望.

3商务智能在电子商务中的典型应用

（1）数据挖掘的应用：

挖掘主要是挖掘出有潜力价值数据的信息拘束，主要应用在情报分析，数据库营销,识别用户消费行为，客户流失分析，划分客户群体等相关应用.（沃尔玛超市尿布与啤酒的销售）

（2）智能搜索的应用:

人们运用关键词进行搜索返还的结果信息之间缺乏有效的关联，不仅增加了用户筛选结果信息的时间,而且也为用户查找有效信息增加了复杂的。

更重要的是传统搜索系统基于信息共享平台设计,缺乏有效的权限管理策略和安全机制，无法有效的保证资讯信息合法使用。

结合新兴电子商务的特征与精度营销,比较购物，供应链、配送优化等现实需求，研究电子商务中的知识管理与智能搜索的理论和方法。

主要内容可包括:

具有智能的商务知识表达与数据挖掘方法,非结构信息中的知识获取技术,网页数据有效提取与实时动态分析技术,个性化推荐技术的应用等问题。

（3）可视化技术的应用：

基于有限的离散采样，三维数据比几何形态的信息更为丰富和完整,而且更适合于表达不规则的研究对象。

（4）知识管理的应用：

随着知识管理在科研机构内的应用,所有的科研成果和业内最新信息都可以共享在知识库中,方便使用人员检索知识，参考经验，从而达到商务成果信息的有效利用.

（5）个性推荐技术的应用:

个性化推荐必须能够对用户的喜好提供相关性强的精确的推荐,尽可能减少个性化用户的查找时间，推荐结果必须能够实时计算。

4商务智能在电子商务中的未来发展趋势

（1）商务智能简易型趋势（简便易用的交互界面；良好的适用性;实施与管理的便捷性；）

（2）商务智能平台化发展（３）商务智能嵌入化趋势（４）商务智能同群众决策互补发展

第二讲商务智能导论

１：

BI的作用

１。

1商务智能与信息社会

　处在信息社会的一个重要标志性特征就是信息融合。

由信息技术的进步和广泛应用驱动的技术融合不断深化，从两个方面对于人们的社会生活和经济活动产生影响.（一方面，企业中许多传统的业务决策问题逐渐变成信息决策问题。

另一方面，信息产品及其应用随着技术创新呈现出越来越丰富的形态和特征）

　商务智能发展起来的四种推手:

1：

传统业务报告数据充分而知识匮乏;2:

传统报告不能满足用户需求3:

传统分析工具的整合能力有限（用户被限定在数据对象中，而不能进一步分析和整合）4：

信息技术及应用的推广（大容量数据存储，互联网，并行处理，云技术）商务智能是信息社会繁荣的推动力—从传统的商业领域逐步拓展到政务领域、教育领域、医疗领域等其他各领域.

1。

2商务智能与企业管理

　商务智能对企业的战略决策也同样具有非常重要的影响,这种影响体现在3个方面：

公司战略、业务战略和职能战略。

（商务智能可以根据公司各战略业务单元的经营业绩和经营定位来选择合格的投资组合战略商务智能可以进行企业外部因素分析：

外部环境分析、行业状况分析、竞争对手分析等　　商务智能可以在分析企业内部因素（劳动力,成本，技术,竞争等）的基础上为职能战略提供科学的决策依据）

改善关系：

提供有关业务状况的有用信息，提高企业知名度，改善全信息链的效率。

理解业务：

可以对各项业务进行准确的评估,帮助理解业务的驱动因素,识别对业务产生影响的关键因素，积极推动业务发展，培养良好发展态势。

创造商业机会：

掌握各种商务数据和信息的企业可以出手这些信息而获利。

　衡量绩效:

从企业各个应用系统中提取各种基础绩效指标与关键绩效指标，对员工的工作绩效进行追踪、衡量和评价。

　　商务智能是如何协助企业进行管理的呢？

（基于目标的管理：

能计算跨组织的绩效目标。

基于异常的管理：

检测实际指标与计划目标之间的偏差.基于事实的管理:

将企业目标与事实结合．基于智能协同的管理：

实现企业内部与外部资源的协同）

商务智能的商业价值主要有三个方面的体现：

省钱,提高效率和提高竞争力。

2。

1　BI的概念

　商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息，创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动，完善各种商务流程，提升各方面商务绩效，增强综合竞争力的智慧和能力。

2．２ＢI的理解

　　商务智能是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助企业进行决策支持。

　　2．３　BI的四层面（个数据分析层面;信息系统层面；知识发现层面;　战略层面）

3商务智能的系统构成

3.1四个阶段：

数据收集→强大的分析工具→专业的分析知识→改善决策水平

3.2　关键技术：

数据仓库，联机分析处理技术,数据挖掘，可视化技术。

４　商务智能的开发方法（规划，需求分析，设计，实现。

）

4.1商务智能系统成功的关键因素:

培训，循序渐进，业务人员与IT人员合作，高层支持，业务驱动

5商务智能的发展趋势

•融合加强，演变成门户化•　日趋“傻瓜”,体现人性化　•可视化数据和自助式BI

•基于云计算的BI•移动BI　•致力于搜索领域的BＩ

第三讲数据仓库的概述

不应该说数据库到数据仓库是技术的进步。

数据仓库并不是对数据库的彻底抛弃。

数据库与数据仓库的比较:

２数据集市

数据集市（Dａtａ　Mart）又叫数据市场,是部门级的数据仓库,或者是为某种专门的用途开发的数据存储系统。

数据集市：

规模较小，成本较低，针对性更强。

　　数据仓库：

数据来源于各个部门的不同应用系统，可保证数据的整合性。

数据集市的两种基本形式A：

从属的数据集市（自上而下构建数据集市）

　数据是从企业的数据仓库获得,可看作是数据仓库的一个子集。

因此具有较好的数据整合性。

若需要的数据在数据集市中没有，则要先修改数据仓库的结构,使这种数据先进入数据仓库,再进入数据集市.这种数据集市适合用于对数据仓库的访问量比较大的关键业务部门。

独立的数据集市（自下而上构建数据集市）

没有数据仓库作为它的数据来源，而是直接从各个应用系统取得数据，因此,成本低,灵活性好，需要一种新的数据时不必修改企业级的数据仓库。

可提供个别部门所需要的数据，整合性较差。

第四讲数据仓库的分析

1　数据仓库的体系结构

数据仓库是面向主题、面向分析和知识发现的一种数据处理技术,对数据仓库的使用没有固定的模式,因此数据仓库与操作型事务处理系统的结构有很大的不同。

对于用户,数据仓库就是由数据源、数据仓库的数据存储、数据仓库的应用工具和可视化用户界面组成的.

2粒度

越是详细的数据，粒度级别越小；越是概括的数据,粒度级别越大。

•双重粒度指轻度综合数据级和真实细节数据级（最低粒度级）。

3确定粒度大小一般考虑的原则：

•若数据仓库的空间很有限，为节省存储空间,宜采用大粒度级表示数据;

•若追求数据仓库能够回答的问题类型的能力，要求能够回答非常具体的问题,则使

　用较小的数据粒度级别；

•若想要减轻处理器的负担，提高查询性能，则采用较大的数据粒度级别；

•若没有存储空间的限制，则可在一个数据仓库中采用多重粒度级别，既存储低粒度

级别的数据,也存储高粒度级别的数据，以同时获得高的查询效率和查询能力。

第五讲　DＷ的设计与开发

概念模型设计关键任务：

分析和理解ＤW中的主题,确定主题的要素及描述属性。

逻辑模型设计关键任务：

粒度的划分、数据分割策略的确定、关系模式的定义、

　　　　　　数据源及数据抽取模型等问题。

物理模型设计关键任务：

物理数据库表及其存储结构设计。

2　概念模型设计

确定主题（借助一些基本的方向性需求）　对每个主题的内容进行描述（描述内容）

•需要做哪些类型的决策?

　　　　•分析问题时所关心的事实；

•决策者感兴趣的是什么问题？

　　　　•分析问题时的各种观察角度;

•这些问题需要什么样的信息　　•描述事实及观察角度的属性。

•要得到这些信息需要包含哪些数据？

3　分析问题的维度

市场经理:

产品种类、时间、销售地区、销售渠道等。

市场部部长：

时间、地区、客户统计特征、分销机构、产品型号等。

财务经理：

预算、时间、地区

４信息包图（用户信息需求表）

某连锁旅馆入住情况（核心问题是客房的使用量）

维度包括：

客房类型，旅馆，时间

关键指标：

已占用客房,空房间，不可用房间，入住人数，收入等。

对维度客房类型的分析:

房间类型，房间大小,床位数，床位类型，最多容纳人数，套房家具，冰箱，厨房等。

对维度旅馆的分析:

分支机构代码,分支机构名称,国家，省份，地区，城市,建设年份，修缮年份等.

对维度时间的分析：

年份,季度,月份,星期几，日期,假日标准等.

５　数据仓库项目的开发过程:

项目规划，需求分析，概念设计，ＥTL设计，逻辑和物理设计,实现与培训.

第六讲OLAＰ

1多维数据库（MOＬＡP）与关系数据库（RＯＬAＰ）在存储上的不同

对关系数据库来说,任何数据集均用二维表来存放;对多维数据库也是用二维表来存放的，但其存放方式和效率不同.

　–　若增加汇总，存储空间的占用情况也不同.

　–　若增加一个时间维——季度，采用关系数据库存储时仍使用二维表，多维数据库则采用数据立方体这样的三维数组来存储。

2MOＬＡP与ROLAＰ的特征

一般情况,MOLAＰ和ＲOLAP的选择主要看应用的规模。

若要建立功能复杂、规模较大的企业级数据仓库，则一般选择ROLAP方式；若是建立功能单一、小型的数据集市则更适合采用MOLＡP方式。

第七讲　DM的概述

１产生DM的原因:

　　A：

数据挖掘技术产生的动力:

数据爆炸问题；数据过量而知识贫乏（新理论、新材料、新工艺、新方法的不断出现，使知识老化的速度加快。

）

　B：

从商业数据到商业信息的进化

C：

实施数据挖掘的目的:

不再是单纯为了研究，更主要的是为商业决策提供真正有价值的信息，进而获得利润。

所有企业面临的一个共同问题是：

企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。

2　数据挖掘与信息处理、知识发现

–数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

与之相似的概念称为知识发现。

–　信息处理基于查询，可以发现有用的信息。

但是这种查询回答反映的是直接存放在数据库中的信息。

它们不反映复杂的模式，或隐藏在数据库中的规律。

–知识发现（Knowledｇe　DiscoveryinDａtabases）是用数据库管理系统来存储数据,用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识,称为数据库中的知识发现。

3数据挖掘与数据仓库的区别联系

–数据挖掘是数据仓库发展的必然结果。

–数据仓库为数据挖掘提供应用基础:

•大多数数据挖掘工具要在集成的、一致的、经过清理的数据上进行挖掘;

•数据仓库构造过程中已组建了数据处理和数据分析的基础设施,数据挖掘可借此进行，不必重新组建基础设施；

•数据仓库中的OＬＡP完全可为数据挖掘提供有关的数据操作支持;

•在数据挖掘中,如果将数据挖掘与数据仓库进行有效地联结，将增加数据挖掘的联机挖掘功能。

4　　数据挖掘与ＯLＡP

–　OＬAP分析过程在本质上是一个演绎推理的过程，是决策支持领域的一部分。

传统的查询和报表工具是告诉你数据库中都有什么（whathappened），OLAＰ则更进一步告诉你下一步会怎么样（Whａtnext）和如果采取这样的措施又会怎么样（Whａｔｉf）。

用户首先建立一个假设，然后用OＬAＰ检索数据库来验证这个假设是否正确。

–数据挖掘在本质上是一个归纳推理的过程，与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。

–数据挖掘和OLAP具有一定的互补性。

在利用数据挖掘出来的结论采取行动之前，OLＡP工具能起辅助决策作用。

而且在知识发现的早期阶段，OLAP工具用来探索数据,找到哪些是对一个问题比较重要的变量，发现异常数据和互相影响的变量.这都有助于更好地理解数据，加快知识发现的过程。

5　数据挖掘的应用

•银行–　分析客户使用分销渠道的情况和分销渠道的容量；建立利润评测模型;客户关系优化；风险控制等

•电子商务–网上商品推荐;个性化网页；自适应网站„

•生物制药、基因研究–ＤNA序列查询和匹配；识别基因序列的共发生性„

•电信　　　–欺诈甄别;客户流失„

•　保险、零售……

决策树•　倾向性分析聚类分析•客户细分•市场细分

关联分析•　市场组合分析•套装产品分析•目录设计•交叉销售

神经网络•倾向性分析•客户保留•　目标市场•　欺诈检测

６　ＤW解决的商业问题:

推荐信息的生成,异常检测，客户流失分析,风险管理,客户细分，广告定位，预测。

第八讲　数据挖掘的过程

1数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测等技术为企业服务.

（１）使用聚类发现互联网中的不同群体,用于网络社区发现；

（2）使用分类对客户进行等级划分,从而实施不同的服务；（3）使用关联规则发现大型数据集中间存在的关系，用于推荐搜索。

如大部分搜索了“广外”的人都会继续搜索“信息学院"，那么在搜索“广外”后会提示是否进进一步搜索“信息学院”。

（4）使用离群点挖掘发现与大部分对象不同的对象，用于分析针对网络的秘密收集信息的攻击。

ＣRIＳP－DM六阶段

–商业理解:

确定业务目标、评估商业环境、确定数据挖掘目标、提出项目计划

–数据理解:

收集原始数据、描述数据、探索数据、检查数据质量

–　数据准备:

数据选择、数据清洗、数据创建、数据合并、数据格式化

–　建模：

选择建模技术、测试方案设计

–评估:

结果评估、过程回顾、确定下一步工作

–部署：

部署计划、监控和维护计划、做出最终报告、项目回顾

四层次:

阶段划分、定义通用任务、定义专用任务、处理实例

上两层独立于具体数据挖掘方法，是一般数据挖掘项目均需实施的步骤（这解决了“ＷHATＴODＯ？

”的问题）。

这两层的任务将结合具体数据挖掘项目的“上下文”（ＣOＮTEXT）映射到下两层的具体任务和过程。

下两层注重解决如何完成每个阶段所要完成的任务和任务的输出所要求的必要映射活动（这用于解决“HOWＴOＤO”的问题）。

第九讲关联分析

例1:

通过统计用户主叫号码的业务使用情况,进行业务的关联分析.设有１0项业务，记0-语音信箱，…，５—移动秘书，6—信息点播,…，9-呼叫转移,统计1０个主叫号码及使用业务如下表所示.

主叫号码　　　使用业务类型　　主叫号码　使用业务类型

0,5,6，7　　　　1，２，３，6

1,5，6,7　　　　4，5，6，9

　1，4，7　　　　0,2，3

　８，7,９　　　４，5，7，８

　０，1，2，５,6　　3，6，7

Ø设A为业务5,Ｂ为业务6，T为事务总数（主叫号码统计数），则业务AＢ出现的支持度为P（A　∪B）=AB出现次数／事务总数Ｔ=4/10＝０.4

Ø对于具有支持度0。

4的项集ＡＢ，规则Ａ→B的可信度为P（B｜Ａ）＝P（AＢ）/P（A）＝（4／1０）/（5/10）=0.４/0。

5＝０.８

Ø同理,规则B→A的可信度为Ｐ（A｜B）＝P（AB）/P（Ｂ）＝0。

４/0.６＝0。

若用户给出的最小可信度为0.3,最小支持度为0．3,则项集ＡＢ满足最小支持度，是二项频繁集,规则Ａ→Ｂ，B　→A两条规则满足最小可信度

Aprｉｏri算法过程（基本思想:

频繁项集的任何子集也一定是频繁的。

）

（1）制定最小支持度及最小置信度；

（2）Ａpｒiori算法使用候选项集的概念，首先扫描数据库产生候选项目集,若候选项目集的支持度≥最小支持度，则该候选项集合为频繁项集；

（3）在Ａpriori算法的过程中，首先由数据库读入所有的事务数据，得出候选１_项集合C1及相应的支持度数据，通过将每个1_项集合的支持度与最小支持度比较,得出频繁1_项集合Ｌ１，然后将这些频繁1_项集两两进行连接,产生候选2_项集合C2；

（４）然后再次扫描数据库得到候选２_项集合C２的支持度,将２_项集的支持度与最小支持度比较,确定频繁2_项集L2，类似地,利用这些频繁2_项集产生候选3＿项集和确定频繁3＿项集，以此类推；

（5）反复扫描数据库与最小支持度比较，产生更高项的频繁项集合,再结合产生下一级候选项集，直到不再结合产生出新的候选项集为止。

例2:

假定最小支持度是2，最小置信度为5０%，求大项集.

第十讲分类

1熵（Ｅnｔｒopｙ）：

针对一个给定的属性（可预测属性）找出一个数学公式，来度量数据集的纯度。

2ID3算法构建决策树

Steｐ1:

建立相关性计数表

Sｔｅp2：

选择一个属性，然后在根层次进行拆分。

例：

3从树中生成分类规则

–用IＦ－ＴHEN这种形式来表示规则

–对从根到叶节点的每条路径创建一条规则

–沿着一条路径的每个属性值对构成“并”连接

–叶子节点中的类别就是所预测的类

–规则更容易被人们理解

4　决策树相关问题

–理想的决策树有三种

　（１）叶子结点数最少;•

（2）叶子结点深度最小;•（３）叶子结点数最少且叶子结点深度最小。

　–分类模型的误差分为

•训练误差（TｒainｉnｇＥｒror）:

是在训练记录上误分类样本比例；

•泛化误差（GenｅraｌizａtionErｒoｒ）:

模型在未知记录上的期望误差。

–一个好的模型不仅要能够很好地拟合训练数据,而且对未知样本也要能够准确地分类.

–　一个好的分类模型必须具有低的训练误差和泛化误差。

一个具有低训练误差的模型,其泛化误差可能比具有较高训练误差的模型高。

（训练误差低,泛化误差高,称为过渡拟合）

–模型过渡拟合的潜在因素:

（1）噪声导致的过渡拟合：

错误的类别值/类标签,属性值等。

（2）缺乏代表性样本所导致的过渡拟合:

根据少量训练记录作出的分类

决策模型容易受过渡拟合的影响。

由于训练样本缺乏代表性的样本，在没有多少训练记录的情况下,学习算法仍然继续细化模型就会导致过渡拟合。

第十一讲聚类分析

1　聚类分析的特征

–适用于没有先验知识的分类。

–可以处理多个变量决定的分类。

–聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术.

1数据矩阵与相异度矩阵的比较

3　　层次方法（系统聚类法）

–　层次方法就是通过分解所给定的数据对象集来创建一个层次。

分为自下而上（凝聚）和自上而下（分裂）两种类型。

•　自下而上的层次方法从每个对象均为一个（单独的）组开始；逐步将这些（对象）组进行合并，直到组合并在层次顶端或满足终止条件为止。

•自上而下层次方法从所有均属于一个组开始；每一次循环将其（组）分解为更小的组；直到每个对象构成一组或满足终止条件为止。

–缺陷:

合并或分类的步骤不能撤销.

最小距离：

又为单链接，是基于来自两个簇中的节点之间的最小距离来衡量两个簇的相似性。

合并最小距离最小的两个簇。

展开阅读全文