马尔科夫决策解决方案Word下载.docx
《马尔科夫决策解决方案Word下载.docx》由会员分享,可在线阅读,更多相关《马尔科夫决策解决方案Word下载.docx(8页珍藏版)》请在冰豆网上搜索。
我们认为,长度为零的假设
篇二:
马尔可夫决策规划2
马尔可夫决策规划
第二讲马尔可夫链与马尔可夫过程
马尔可夫链
为书写方便,下面用X表示随机变量(ξ)。
定义:
随机变量序列{Xn,n=0,1,2,......}称为是一个马尔科夫(Markov)链,如果等式p{Xm+k=j|Xm=i,XkL=iL,......,Xk2=i2,Xk1=i1}=p{Xm+k=j|Xm=i}对任意整数k、L、m以及非负整数m>
kL>
…k2>
k1均成立。
其中。
Xm=i表示马尔科夫链在第m步(时刻m)位于状态i,状态i的集合S称为状态空间;
pij=p{Xm+k=j|Xm=i}称为在时刻m位于状态i经k步转移到达状态j的k步转移概率,而pij=pij称为时刻m的1步转移概率;
P=ij)称为时刻m的k步转移概率矩阵,而P=ij)=)称为时刻m的1步转移概率矩阵。
Markov满足的K-C方程如下:
A.P=PP,其中0≤l≤k约定:
P=I
m?
k?
1
?
P?
i
i?
m
1i?
约定:
?
i?
I
马尔科夫链{Xn,n=0,1,2,......}称为是齐次的,是指它在时刻m的1步转移概率矩阵P与m无关,它等价于P与m无关。
P=ij)称为齐次马氏链的k步转移概率矩阵,而P=称为齐次马氏链的1步转移概率矩阵。
相应地有。
A.K-C方程:
P=PP,其中0≤l≤kB.P=Pk
C.马尔科夫链的概率分布:
设{Xn,n=0,1,2,......}为一马尔科夫链,X0的分布列(初始分布)为q0,记qn为Xn的分布列或Markov链在时刻n的瞬时分布列,{P,n=0,1,2,......}为一步转移概率矩阵的集合,则有:
C1:
qn?
q0P
0?
q0?
P,n?
0(非齐次)
n
C2:
q0P?
q0P,n?
0(齐次)
关于马氏链的存在性:
对任意给定的分布列q0和一束随机矩阵{P,n=0,1,2,......},唯一地存在某概率空间(Ω,F,P)上的马氏链,恰以q0为初始分布列、以{P,n=0,1,2,......}为转移概率矩阵的集合。
因此,齐次马氏链由它的初始分布和一步转移概率矩阵唯一决定。
例假设三个食品公司分别生产三种不同牌子的方便面。
它们除通过改进成品口味、美化包装以增强在市场的竞争力外,还各自开展了广告攻势促销本公司的产品。
因此,各公司所占的市场比例是随时间有所变化的,可以根据个别人的行为来推断多数人的行为。
比如,随机选择的个人若以概率1/2偏爱公司1生产的方便面,则表明公司1占有50%的市场比例。
以Xn表示随机选择的个人?
在第n周所偏爱的公司。
有理由认为,当给定现在的偏爱,将来的偏爱与过去的选择无关。
于是,X?
{Xn,n?
0}便构成一个以
E?
{1,2,3}为状态空间的
Markov链。
假设在任一时刻,公司1能留住
它1/2的老顾客,其余的则对半购买另两个公司的产品。
公司2的一半顾客在下周改买公司1的产品,其余的仍购买公司2的产品。
公司3能维持其3/4的老顾客,其余的则在下周流向公司2。
即Markov链的转移概率矩阵可表示为
1?
2?
1P?
14
1214
1?
4?
3?
公司i对第n周它所占有的市场份额感兴趣,即概率
p。
再者当
p存n趋于无穷时,若这一概率的极限limn?
在,则此极限概率也是令各公司感兴趣的,它刻画了公司i占有市场的稳态概率。
例继续考虑例的三个食品公司之间的竞争问题,描述顾客偏
爱变化情形的转移概率矩阵P已由式给出,求出P
;
qn。
假设已知任一初始分布q0?
,求limn?
[解]:
利用P?
B?
1关系式计算P
首先,求出与转移概率矩阵P对应的特征值及特征向量。
由
|?
I?
P|?
0得
14
2
12
41?
21?
4
即转移概率矩阵P的三个特征值分别为?
1,?
2
3
。
为求特征向量,令与特征值?
i对应的特征向量为bi,由于
ibi?
biP,列出方程组即可求得bi,此处不再详述。
取
b1?
为相应于特征值1的特征值向量,再分别求出与特征值?
TT
及?
3相对应的特征向量b2?
与b3?
。
鉴于特征值
T
1、?
2与?
3互不相同,故可知b1、b2与b3必线性无关。
若令
01?
0。
120
则B可逆,且有P?
1,可以算出
B
3?
13
013
于是
P
B
nn?
131313
01n20
11n3421n3411n34
10?
1n4?
11n
?
3341n21n?
?
234?
1n11n?
121n
334
11n41n?
234?
n?
于是有n?
limP
1n
limP?
1313
31?
设q0?
是任一初始分布,则由分布概率与转移概
111nn
limq?
limqP?
qlimP?
这表明,不管初始率的关系有n?
nn?
00
n?
333
时三个食品公司所占的市场份额如何,在经过充分长的一段时间的竞争后,每个公司所占的市场份额趋于稳定,均为左右。
3
1
状态的分类及状态空间的分解
篇三:
决策
1、决策问题的类型(按结构化程度分为):
结构化决策问题
半结构化决策问题
2、决策的过程
赫尔伯特?
西蒙划分的四个阶段1.情报活动2.设计活动3.抉择活动4.实施活动
3、个人决策和集体决策——从决策的主体看可划分为个人决策和集体决策
个人决策:
社会背景、抱负、价值观、动机
(一)个人能力
(二)个人价值观
(三)个人对待风险的态度
(四)决策群体的关系融洽程度
集体决策方法
头脑风暴法的创始人奥斯本()提出四项原则:
(1)对别人的建议不作任何评价,将相互讨论限制在最低限度内
(2)建议越多越好,不考虑建议的质量,想到什么就应该说出来(3)鼓励每个人积极思考、广开思路,想法越新颖、奇异越好(4)可以补充和完善已有的建议使它更有说服力
集体决策中,如对问题的性质不完全了解且
意见严重分歧,则可采用名义小组技术
(1)小组成员互不通气,也不在一起讨论、协商
(2)先召集一些有知识、有经验、有能力的
人,把要解决的问题和关键内容告诉他
们。
思考后制定备选方案。
陈述他们各自的方案
(3)对方案进行投票优选(4)决策是否实施
要点:
(1)匿名、反复、函讯
(2)选择好专家
(3)决定专家的人数(调查次数一般为三次,人数为45~60人)(4)拟订好意见征询表
(5)做好意见甄别和判断工作
4、GDSS的基本类型
P249
1、决策室
决策室(DecisionRoom)。
与传统意义的电子会议室相当,决策参与者集中到一间支持群体决策支持的特殊会议室,通过特殊的终端或节点,参与决策过程。
在这种环境下的决策过程都有一定的时间限制。
2、局域决策网
多位决策者在近距离内的不同房间里定时或不定时做群体决策时,GDSS可建立计算机局域网,网上各位决策者通过连网的计算机站点进行通信,相互交流,共享存于网络服务器或中央处理机的公共决策资源,在某种规程的控制下实现群体决策。
主要优点是可克服定时决策的限制,也即决策者可在决策周期内时间分散地参与决策。
3、电子会议
利用计算机网络通信技术,使分散在各地的决策者在某一时间内能以不见面的方式进行集中决策。
在实质上与决策室相同,它的优点是能克服空间距离的限制。
4、远程决策
远程决策网充分利用广域网等信息技术来支持群体决策。
它综合了局域决策网与虚拟会议的优点,可使决策参与者异时异地共同对同一问题作出决策。
这种类型还不成熟,开发应用也很少见。
主要针对需要定期在一起作决策而又不能会面的决策成员。
地理上分散的决策成员通过远程“决策站”
之间的持续通信,完成决策的制定
上面四种类型的
GDSS,前一种(决策室)属于集中性,而后三种(局域决策网、远程会议、远程决策网)是属于分散性的。
5、决策的科学化
(一)用信息系统支持和辅助决策
(二)定性决策向定量与定性相结合的决策发展(三)单目标决策向多目标综合决策发展(四)战略决策向更远的未来决策发展
做一位明智的决策者
①开始工作。
②关注重大问题。
③改善工作计划。
④化繁为简
6、决策支持的方式数据与决策支持模型的决策支持
“如果,将怎样”(what-if)分析的决策支持
决策问题方案的决策支持
自动生成决策问题方案的决策支持知识推理与智能技术的决策支持
⑤⑥⑦⑧⑨⑩摆脱困境适时退出
聪明地利用他人的帮助确立基本的决策原则调整决策风格掌握自己的决策
7、模型、模型库管理系统、数学建模的步骤、模型库管理系统的功能
模型库系统——以库的形式对模型进行组织和管理,包括模型库及模型库管理系统。
模型是对于现实世界的事物、现象、过程或系统的简化描述
(一)物理模型:
也称实体模型,又可以分为实物模型和类比模型。
(二)数学模型:
用数学语言描述的一类模型
(三)结构模型:
主要反映系统的结构特点和因果关系的模型
(四)仿真模型:
通过数字计算机,模拟计算机或混合计算机上运行的程序表达的模型。
模型库提供模型的存储和表示模式。
模型库管理系统提供模型的提取、访问、更新和合成等操作。
模型的表示形式:
模型的程序表示:
基于程序的表示方法。
模型的数据表示:
基于数据的表示方法。
模型的逻辑表示:
基于知识的表示方法。
数学模型与建模
数学模型——用数学语言描述的一类模型。
一般可分为:
原理性模型系统学模型系统学的模型有:
系统动力学、大系统理论、灰色系统、系统辨识、系统控制、最优控制和创造工程学等
规划模型数学规划是研究合理使用有限资源以取得最大效果。
规划模型包括:
线性规划、非线性规划、动态规划、目标规划、运输问题等。
预测模型管理决策模型仿真模型计量经济模型
8、决策支持系统(DecisionSupportSystem,DSS)是以信息技术为手段,应用管理科学、
计算机科学及有关学科的理论和方法,针对半结构化的决策问题,通过提供背景材料、协助明确问题、修改完善模型、列举可能方案、进行分析比较等方式,为管理者做出正确决策提供帮助的人机交互信息系统。
DSS数据库系统的特点:
面向决策支持过程组织和管理数据?
面向模型、面向模型生成来使用数据?
数据描述方式要面向不同的决策者
DSS的系统结构
9、DSS与MIS的关系
MIS:
收集、传递、存储、加工处理各种信息,监测运营数据,利用历史数据预测未来,用指定的数学方法分析数据,提供全面数据和分析报告。
面向管理人员,提供低层次的决策支持。
DSS:
面向决策者,提供适当的决策支持,是MIS的高级阶段。
DSS与ES的关系
IDSS=DSS+ES
ES:
利用知识和推理机,处理半结构化问题。
使用数据和模型,处理结构化问题,与ES结合后,可处理半结构化问题
10、数据集市、
DataWarehouse
数据集市——具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。
数据仓库(DataWarehouse相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。
首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;
其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库的基本数据模式:
雪花模式、星型模式
数据仓库的应用:
证券业、物流领域、银行领域、保险业、客户服务及营销方面的应用
11、OLAP与
OLTP
OLTP系统——联机事务处理
On-LineTransactionProcessing事件驱动,面向应用。
如:
银行的储蓄系统
OLAP系统——联机分析处理
On-LineAnalyticalProcessing跨部门,面向主题。
OLTP与OLAP对比
OLAP的分析方法:
1、切块2钻取3旋转
12、数据挖掘的主要方法
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
数据挖掘方法和技术
归纳学习方法
信息论方法(决策树方法):
ID3、ID4、ID5、、IBLE方法
集合论方法:
粗糙集方法、关联规则挖掘、覆盖正例排斥反例方法、概念树方法
仿生物技术:
神经网络方法、遗传算法
公式发现
统计分析方法:
常用统计方法、相关分析、回归分析、假设检验、聚类分析、判别分析
模糊数学方法:
模糊模式识别、模糊聚类、模糊分类、模糊关联规则等
可视化技术:
提取几何图元、绘制、演示和演放
13、Apriori算法/ID3算法的思想及其应用
ID3的基本思想:
构造决策树,决策树的每个节点对应一个非类别属性,每条边对应该
属性的每个可能值。
以信息熵的下降速度作为选取测试属性的标准,即所选的测试属性是从根到当前节点的路径上尚未被考虑的具有最高信息增益的属性
14、IDSS\IDSS的基本结构图
智能决策支持系统(IDSS,IntelligenceDecisionSupportingSystem),是人工智能(AI,ArtificialIntelligence)和DSS相结合,应用专家系统(ES,ExpertSystem)技术,使DSS