通用人工智能与机器人学习Word文件下载.docx
《通用人工智能与机器人学习Word文件下载.docx》由会员分享,可在线阅读,更多相关《通用人工智能与机器人学习Word文件下载.docx(14页珍藏版)》请在冰豆网上搜索。
种种迹象表明:
通用人工智能正在兴起,并在酝酿—场彻底的变革!
最基本的通用人工智能框架一RL框架
大脑
f
4
••
观察
I回馈I动作
世界<
………I
问题变成如何构建这样一个与世界交互的大脑?
Actor-Critic框架
状态s・
历史
动作a
大脑
♦Actor行动模块•动作Q
[更新
•Critic评判模块*回馈「
基于Actor-Critic的智能框架
大脑思考结果
状态S
d理解<■■"
■
•)••
预测
••%t?
•
/决策
控制
t
Actor
更新
「动作a
价值观iCritic
回馈r
你是不是Host?
什么是自由意识?
基于ActorCritic的智能框架大脑思;
考结果
状态s
•理解<■■
"
记忆
■♦-
历史i动作a…•
价值观
Critic
Universe
Actor行动模块
Critic评判模块
Actor-Critic框架同样适用于整个宇宙
Actor-Critic的宇宙框架
・整个宇宙和大脑一样,也煜基于Actor-Critic模型遥行演化
•这个世界可能罡有意义的,有某种内在的指引!
•通过Actor-Critic实现由内到夕卜,由韬神到物质的统一
2深度增强学习算法思想
提供学习目标
i
DeepReinforcementLearning=DL+RL=UniversalAl
・♦
提供学习机制
Actor-Critic框架
深度增强学习实现途径
・基于Clitic也就是Value
•基于Actor也就是Policy
・基于model模型(本质上应嵌入到Actors中的预测模块)
基于Value的方法一DQN
・离散控制,仅有少量的动作
・通过Value价值就可以选择动作・利用历史样本根据Bellman方程估计最优的Value,从而
更新整个ValueNetwork
•/\
2-
r(w)=E
了+7maxQ(s\d、w)一Q(s:
a,w)a1,
Xtarget/
DQN
與型的DQN网络结构
基于Policy的方法
・对动作逬行好坏的评估,如果好,那么就使Actor
Network出现该动作的可能性増加,反之减少
目标函数
L(u)=E+“2十>
5十…IT(su)・
更新方法
•••
Thegradientofastochasticpolicytr(a|s,u)isgivenby
肌(u)u[Mog7T(a|Gii)csr、du-E加Q3)
»
・
Thegradientofadeterministicpolicya=k(s)isgivenby
A3C(AsynchronousAdvantageActor-Critic)
►Estimatestate-valuefunction
v}«
E[rM+”十2+•••|s]
►Q-valueestimatedbyann-stepsample
6=心1+”十2…十丁"
T如“+丁V)
►Actorisupdatedtowardstarget
►CriticisupdatedtominimiseM5Ew.r.t.target
J=g-"
(句"
))2
DDPG
・连续控制,输出连续动作
・Critic采用和DQN-样的模式
・Actor使用确定性动作梯度进行更新
dlu_3Q(s,込w)da
duc)3
典型DDPG网络结构
a
UNREAL基本结构
UNREAL基本思想
・通过同时训练辅助任务来加快神经网络的训练,并提升训练效果
・辅助任务1)控制任务,像素控制和网络隐藏层激活控制
・辅助任务2)回馈预测任务・辅助任务3)使用最新的历史数据训^ValueNetwork
UNREAL算法评价
・通过多种面向同一个最终目标的任务来提升Actor的水平,符合人类的学习方式
・本质上可以认为是有多个Critic来引导Actor的训练
•但如何有效的定义辅助任务是一个问题,面向不同的场
景恐怕不能都适用,比如像素控制。
当前DRL算法的情况
・大框架是对的,但是神经网络结构太简单了,使得这个“大脑”的学习水平受到了限制。
・通过进一步改逬神经网络的结构将有可能使智能水平大幅度提高
・改变Critic对Actor的训练方式也会有大的变化。
DL
z
最前沿的机器人学习:
/
••
'
RL
领军人物
^eterAbtoeelSergeyLevneOper^l.UCBflfKefteyUCBerkeley
RaiaHadseiAbhiravGupta
DeephAnaCMU
学术先锋
Google首席
机奧人®
导核心
1End-to-EndTrainingofDeepVisuomotorPolicies
End-to-EndTrainingof
DeepVisuomotorPolicies
1End-to-EndTrainingofDeepVisuomotorPolicies
-GuidedPolicySearch
传统机器人控制
2LearningHand-EyeCoordinationforRoboticGraspingwithDeepLearningandLarge-ScaleDataCollection
2LearningHand-EyeCoordinationforRoboticGraspingwithDeepLearningandLarge-ScaleDataCollection
・基本思想:
纯暴力尝试,输出成功概率,然后基于网络选择动作,并不使用RL
・缺点:
需要巨量的实验
3
Target-drivenVisualNavigationinIndoorScenesusingDeepReinforcementLearning.
3"
Target-drivenVisualNavigationinIndoorScenesusingDeepReinforcementLearning.
・将DRL第一次用在机器人视觉导航上,彻底颠覆了以往的机器人控制方法。
・使用A3C逬行训练
•采用SiameseNetwork连体网络
4DeepReinforcementLearningforRoboticManipulation
・通过多个机器人异步进行训练,使用异步NAF(另一种连续控制的DRL算法)
4DeepReinforcementLearningforRobotic
Manipulation
・NAF(将DQN算法拓展到连续控制)
action
5DeepVisualForesightforPlanningRobotMotion
・通过神经网络构建机器人动作的预测模型,从而通过预测的方式选择动作,第一次基于Model实现机器人控制
6Sim-to-RealRobotLearningfromPixelswithProgressiveNets
・从仿真迁移到真实,迁移深度增强学三
6Sim-to-RealRobotLearningfromPixelswithProgressiveNets
•采用ProgressiveNeuralNetwork
7ControlofMemory,ActivePerception,andActioninMinecraft
•像训练小白鼠一样需要机器人走迷宫,虽然还只是仿真
7ControlofMemory,ActivePerception,andActioninMinecraft
•改进神经网络结构,增加记忆功能
•使用DQN
4机器人学习的未来