通用人工智能与机器人学习Word文件下载.docx

上传人:b****6 文档编号:16272937 上传时间:2022-11-22 格式:DOCX 页数:14 大小:978.91KB
下载 相关 举报
通用人工智能与机器人学习Word文件下载.docx_第1页
第1页 / 共14页
通用人工智能与机器人学习Word文件下载.docx_第2页
第2页 / 共14页
通用人工智能与机器人学习Word文件下载.docx_第3页
第3页 / 共14页
通用人工智能与机器人学习Word文件下载.docx_第4页
第4页 / 共14页
通用人工智能与机器人学习Word文件下载.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

通用人工智能与机器人学习Word文件下载.docx

《通用人工智能与机器人学习Word文件下载.docx》由会员分享,可在线阅读,更多相关《通用人工智能与机器人学习Word文件下载.docx(14页珍藏版)》请在冰豆网上搜索。

通用人工智能与机器人学习Word文件下载.docx

种种迹象表明:

通用人工智能正在兴起,并在酝酿—场彻底的变革!

最基本的通用人工智能框架一RL框架

大脑

f

4

••

观察

I回馈I动作

世界<

………I

问题变成如何构建这样一个与世界交互的大脑?

Actor-Critic框架

状态s・

历史

动作a

大脑

♦Actor行动模块•动作Q

[更新

•Critic评判模块*回馈「

基于Actor-Critic的智能框架

大脑思考结果

状态S

d理解<■■"

•)••

预测

••%t?

/决策

控制

t

Actor

更新

「动作a

价值观iCritic

回馈r

你是不是Host?

什么是自由意识?

基于ActorCritic的智能框架大脑思;

考结果

状态s

•理解<■■

"

记忆

■♦-

历史i动作a…•

价值观

Critic

Universe

Actor行动模块

Critic评判模块

Actor-Critic框架同样适用于整个宇宙

Actor-Critic的宇宙框架

・整个宇宙和大脑一样,也煜基于Actor-Critic模型遥行演化

•这个世界可能罡有意义的,有某种内在的指引!

•通过Actor-Critic实现由内到夕卜,由韬神到物质的统一

2深度增强学习算法思想

提供学习目标

i

DeepReinforcementLearning=DL+RL=UniversalAl

・♦

提供学习机制

Actor-Critic框架

深度增强学习实现途径

・基于Clitic也就是Value

•基于Actor也就是Policy

・基于model模型(本质上应嵌入到Actors中的预测模块)

基于Value的方法一DQN

・离散控制,仅有少量的动作

・通过Value价值就可以选择动作・利用历史样本根据Bellman方程估计最优的Value,从而

更新整个ValueNetwork

•/\

2-

r(w)=E

了+7maxQ(s\d、w)一Q(s:

a,w)a1,

Xtarget/

DQN

與型的DQN网络结构

基于Policy的方法

・对动作逬行好坏的评估,如果好,那么就使Actor

Network出现该动作的可能性増加,反之减少

目标函数

L(u)=E+“2十>

5十…IT(su)・

更新方法

•••

Thegradientofastochasticpolicytr(a|s,u)isgivenby

肌(u)u[Mog7T(a|Gii)csr、du-E加Q3)

»

Thegradientofadeterministicpolicya=k(s)isgivenby

A3C(AsynchronousAdvantageActor-Critic)

►Estimatestate-valuefunction

v}«

E[rM+”十2+•••|s]

►Q-valueestimatedbyann-stepsample

6=心1+”十2…十丁"

T如“+丁V)

►Actorisupdatedtowardstarget

►CriticisupdatedtominimiseM5Ew.r.t.target

J=g-"

(句"

))2

DDPG

・连续控制,输出连续动作

・Critic采用和DQN-样的模式

・Actor使用确定性动作梯度进行更新

dlu_3Q(s,込w)da

duc)3

典型DDPG网络结构

a

UNREAL基本结构

UNREAL基本思想

・通过同时训练辅助任务来加快神经网络的训练,并提升训练效果

・辅助任务1)控制任务,像素控制和网络隐藏层激活控制

・辅助任务2)回馈预测任务・辅助任务3)使用最新的历史数据训^ValueNetwork

UNREAL算法评价

・通过多种面向同一个最终目标的任务来提升Actor的水平,符合人类的学习方式

・本质上可以认为是有多个Critic来引导Actor的训练

•但如何有效的定义辅助任务是一个问题,面向不同的场

景恐怕不能都适用,比如像素控制。

当前DRL算法的情况

・大框架是对的,但是神经网络结构太简单了,使得这个“大脑”的学习水平受到了限制。

・通过进一步改逬神经网络的结构将有可能使智能水平大幅度提高

・改变Critic对Actor的训练方式也会有大的变化。

DL

z

最前沿的机器人学习:

/

••

'

RL

领军人物

^eterAbtoeelSergeyLevneOper^l.UCBflfKefteyUCBerkeley

RaiaHadseiAbhiravGupta

DeephAnaCMU

学术先锋

Google首席

机奧人®

导核心

1End-to-EndTrainingofDeepVisuomotorPolicies

End-to-EndTrainingof

DeepVisuomotorPolicies

1End-to-EndTrainingofDeepVisuomotorPolicies

-GuidedPolicySearch

传统机器人控制

2LearningHand-EyeCoordinationforRoboticGraspingwithDeepLearningandLarge-ScaleDataCollection

2LearningHand-EyeCoordinationforRoboticGraspingwithDeepLearningandLarge-ScaleDataCollection

・基本思想:

纯暴力尝试,输出成功概率,然后基于网络选择动作,并不使用RL

・缺点:

需要巨量的实验

3

Target-drivenVisualNavigationinIndoorScenesusingDeepReinforcementLearning.

3"

Target-drivenVisualNavigationinIndoorScenesusingDeepReinforcementLearning.

・将DRL第一次用在机器人视觉导航上,彻底颠覆了以往的机器人控制方法。

・使用A3C逬行训练

•采用SiameseNetwork连体网络

4DeepReinforcementLearningforRoboticManipulation

・通过多个机器人异步进行训练,使用异步NAF(另一种连续控制的DRL算法)

4DeepReinforcementLearningforRobotic

Manipulation

・NAF(将DQN算法拓展到连续控制)

action

5DeepVisualForesightforPlanningRobotMotion

・通过神经网络构建机器人动作的预测模型,从而通过预测的方式选择动作,第一次基于Model实现机器人控制

6Sim-to-RealRobotLearningfromPixelswithProgressiveNets

・从仿真迁移到真实,迁移深度增强学三

6Sim-to-RealRobotLearningfromPixelswithProgressiveNets

•采用ProgressiveNeuralNetwork

7ControlofMemory,ActivePerception,andActioninMinecraft

•像训练小白鼠一样需要机器人走迷宫,虽然还只是仿真

7ControlofMemory,ActivePerception,andActioninMinecraft

•改进神经网络结构,增加记忆功能

•使用DQN

4机器人学习的未来

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 电大

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1