通用人工智能与机器人学习Word文件下载.docx

资源描述

通用人工智能与机器人学习Word文件下载.docx

《通用人工智能与机器人学习Word文件下载.docx》由会员分享，可在线阅读，更多相关《通用人工智能与机器人学习Word文件下载.docx（14页珍藏版）》请在冰豆网上搜索。

通用人工智能与机器人学习Word文件下载.docx

种种迹象表明：

通用人工智能正在兴起，并在酝酿—场彻底的变革！

最基本的通用人工智能框架一RL框架

大脑

••

观察

I回馈I动作

世界<

………I

问题变成如何构建这样一个与世界交互的大脑?

Actor-Critic框架

状态s・

历史

动作a

大脑

♦Actor行动模块•动作Q

［更新

•Critic评判模块*回馈「

基于Actor-Critic的智能框架

大脑思考结果

状态S

d理解＜■■"

■

•）••

预测

••%t?

•

/决策

控制

Actor

更新

「动作a

价值观iCritic

回馈r

你是不是Host?

什么是自由意识?

基于ActorCritic的智能框架大脑思;

考结果

状态s

•理解＜■■

记忆

■♦-

历史i动作a…•

价值观

Critic

Universe

Actor行动模块

Critic评判模块

Actor-Critic框架同样适用于整个宇宙

Actor-Critic的宇宙框架

・整个宇宙和大脑一样，也煜基于Actor-Critic模型遥行演化

•这个世界可能罡有意义的，有某种内在的指引！

•通过Actor-Critic实现由内到夕卜，由韬神到物质的统一

2深度增强学习算法思想

提供学习目标

DeepReinforcementLearning=DL+RL=UniversalAl

・♦

提供学习机制

Actor-Critic框架

深度增强学习实现途径

・基于Clitic也就是Value

•基于Actor也就是Policy

・基于model模型（本质上应嵌入到Actors中的预测模块）

基于Value的方法一DQN

・离散控制，仅有少量的动作

・通过Value价值就可以选择动作・利用历史样本根据Bellman方程估计最优的Value,从而

更新整个ValueNetwork

•/\

r（w）=E

了+7maxQ（s\d、w）一Q（s:

a,w）a1,

Xtarget/

DQN

與型的DQN网络结构

基于Policy的方法

・对动作逬行好坏的评估，如果好，那么就使Actor

Network出现该动作的可能性増加，反之减少

目标函数

L（u）=E+“2十>

5十…IT（su）・

更新方法

•••

Thegradientofastochasticpolicytr（a|s,u）isgivenby

肌（u）u[Mog7T（a|Gii）csr、du-E加Q3）

・

Thegradientofadeterministicpolicya=k（s）isgivenby

A3C（AsynchronousAdvantageActor-Critic）

►Estimatestate-valuefunction

v}«

E[rM+”十2+•••|s]

►Q-valueestimatedbyann-stepsample

6=心1+”十2…十丁"

T如“+丁V）

►Actorisupdatedtowardstarget

►CriticisupdatedtominimiseM5Ew.r.t.target

J=g-"

（句"

））2

DDPG

・连续控制，输出连续动作

・Critic采用和DQN-样的模式

・Actor使用确定性动作梯度进行更新

dlu_3Q（s,込w）da

duc）3

典型DDPG网络结构

UNREAL基本结构

UNREAL基本思想

・通过同时训练辅助任务来加快神经网络的训练，并提升训练效果

・辅助任务1）控制任务，像素控制和网络隐藏层激活控制

・辅助任务2）回馈预测任务・辅助任务3）使用最新的历史数据训^ValueNetwork

UNREAL算法评价

・通过多种面向同一个最终目标的任务来提升Actor的水平，符合人类的学习方式

・本质上可以认为是有多个Critic来引导Actor的训练

•但如何有效的定义辅助任务是一个问题，面向不同的场

景恐怕不能都适用，比如像素控制。

当前DRL算法的情况

・大框架是对的，但是神经网络结构太简单了，使得这个“大脑”的学习水平受到了限制。

・通过进一步改逬神经网络的结构将有可能使智能水平大幅度提高

・改变Critic对Actor的训练方式也会有大的变化。

最前沿的机器人学习:

••

领军人物

^eterAbtoeelSergeyLevneOper^l.UCBflfKefteyUCBerkeley

RaiaHadseiAbhiravGupta

DeephAnaCMU

学术先锋

Google首席

机奧人®

导核心

1End-to-EndTrainingofDeepVisuomotorPolicies

End-to-EndTrainingof

DeepVisuomotorPolicies

1End-to-EndTrainingofDeepVisuomotorPolicies

-GuidedPolicySearch

传统机器人控制

2LearningHand-EyeCoordinationforRoboticGraspingwithDeepLearningandLarge-ScaleDataCollection

・基本思想：

纯暴力尝试，输出成功概率，然后基于网络选择动作，并不使用RL

・缺点：

需要巨量的实验

Target-drivenVisualNavigationinIndoorScenesusingDeepReinforcementLearning.

・将DRL第一次用在机器人视觉导航上，彻底颠覆了以往的机器人控制方法。

・使用A3C逬行训练

•采用SiameseNetwork连体网络

4DeepReinforcementLearningforRoboticManipulation

・通过多个机器人异步进行训练，使用异步NAF（另一种连续控制的DRL算法）

4DeepReinforcementLearningforRobotic

Manipulation

・NAF（将DQN算法拓展到连续控制）

action

5DeepVisualForesightforPlanningRobotMotion

・通过神经网络构建机器人动作的预测模型，从而通过预测的方式选择动作，第一次基于Model实现机器人控制

6Sim-to-RealRobotLearningfromPixelswithProgressiveNets

・从仿真迁移到真实，迁移深度增强学三

6Sim-to-RealRobotLearningfromPixelswithProgressiveNets

•采用ProgressiveNeuralNetwork

7ControlofMemory,ActivePerception,andActioninMinecraft

•像训练小白鼠一样需要机器人走迷宫，虽然还只是仿真

7ControlofMemory,ActivePerception,andActioninMinecraft

•改进神经网络结构，增加记忆功能

•使用DQN

4机器人学习的未来

展开阅读全文