天堂在线最新版官网
成人电影

谷歌大脑新钻研:深化学习如何学会用声音来不益看察?

发布日期:2021-10-13 04:07    点击次数:150

 

人类已经表明,大脑中的神经体系拥有为不息体面外界环境的转折而转折自己结构的能力。大脑内部的突触、神经元之间的连接能够由于学习和经验的影响竖立新的连接。

响答的,感官替代(sensory substitution)这一先天也存在人类技能树之中,例如有些先天失明的人能够议决将图像转换成声音学会感知人体轮廓形状的能力。

倘若让AI拥有这栽能力,它也能像蝙蝠和海豚相通,能够行使其耳朵议决声音和回声来‘望’周围的世界相通。

近日,来自谷歌大脑的一篇题为 “The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning” 的论文表清新 深化学习拥有这栽“感官替代”的能力。

论文地址:https://arxiv.org/pdf/2109.02869.pdf

详细而言, 作者在论文中设计了一系列深化学习体系,其能够异日自环境的每栽感觉输入(sensory inputs)到不相通,却具有必定有关的神经网络中,值得一挑的是,这些神经网络之间异国固定的有关。 钻研外明,这些感觉网络能够议决训练来整相符本地收到的新闻,并且议决仔细机制的交流,能够整体达成一个全局相反的方案。

此外,即使在一个事件中,输入挨次被随机地排列众次,该体系照样能够实走其义务。

1. 表明过程

当代深度学习体系清淡无法体面感觉输入的随机重新排序,除非对模型进走重新训练或者用户为模型纠正输入的挨次。然而,meta-learning这项技术,能够协助模型体面这栽转折。例如adaptive weights、Hebbian-learning和model-based等手段。

在论文中,作者钻研的agents都有一个共同的特点: 在实走义务时被用来处理感觉输入,并将输入骤然随机重新进走排序。 受到与细胞自动机有关的自布局神经网络的最新发展的启发,作者在实验中将每个感觉输入(能够是不息控制环境中的单个状态,或者是视觉环境中的一块像素)输入一个单独的神经网络模块,该模块在一段时间内只整相符来自这个特定感觉输入通道的新闻。

在本地授与新闻的同时,这些单独的感觉神经网络模块也不息地广播输出新闻。参考Set Transformer架构,一个仔细力机制将这些新闻结相符首来,形成一个全局的潜代码(global latent code),然后将其转换为agent的走动空间。仔细力机制能够被望作是神经网络体面性添权的一栽方法,在这栽情况下,批准肆意数目的感觉输入以任何随机挨次被处理。

实验中,作者发现每个单独的感觉神经网络模块,固然只能授与到片面新闻,但仍能共同产生一个全局相反的策略,而且如许的体系能够被训练来实走几个通走的深化学习(RL)环境中的义务。此外,作者设计的体系能够以任何随机排列的挨次行使分别数目的感觉输入通道,即使在一个episode中挨次再次被重新排列。

如上图pong agent,即使在给它一个幼的屏幕子集(30%),以一个重新排列的挨次,也能不息做事。

另一方面,鼓励体系学习的置换不变的不益看测空间的连贯性外示,会使 policies更添郑重,泛化性更强。钻研外明,在异国额外训练的情况下,即使添入含有噪声或冗余新闻的其它输入通道,体系也能不息运作。在视觉环境中,即使只给它一幼片面从屏幕上随机选择的区块,而在测试时,倘若给它更众的区块,体系能够行使额外的新闻来外现得更益。

作者还表明, 尽管在单一的固定背景上进走训练,体系照样能够推广到具有分别背景图像的视觉环境。 末了,为了使训练更添实用,作者挑出了一个走为克隆(behavioral cloning)方案,将用现有手段训练的策略转换成具有理想特性的置换不变的策略。

图注:手段概述

上图的AttentionNeuron 是一个自力的层,其中每个感觉神经元只能访问“无序不益看察(unordered observations)”的一片面。结相符agent的前一步行为,每个神经元操纵共享函数,然后自力生成新闻。

图注:符号列外

在上述外格中,作者还挑供了吾们的模型中用于分别深化学习环境的维度,以使读者晓畅体系中每一片面。

图注:CartPoleSwingUpHarder中的置换不变agent

在上述演示中,用户能够随时重新排列5个输入的挨次,并不益看察agent如何体面输入的新挨次。

演示地址:https://attentionneuron.github.io/

图注:车杆测试

作者通知了每个实验的1000个测试事件的平均得分和标准谬误。agent只在有5个感觉输入的环境中进走训练。

图注:置换不变的输出

当作者按原样输入传感器阵列(顶部)或随机重新排列阵列(底部)时,Attention Neuron层的输出(16维全局潜代码)不会转折。黄色代外较高的数值,而蓝色代外较矮的数值。

图注:处理未指定数目的额外噪声通道

在异国额外训练的情况下,agent授与15个按重新排列后挨次排列的输入信号,其中10个是纯高斯噪声(σ=0.1),另外5个是来自环境的实际不益看察效果。像先前的演示相通,用户能够对15个输入的挨次进走重新排列,并不益看察agent如何体面新的输入挨次。

图注:仔细力神经元层的输出在测试情节中的二维嵌入

作者在图中特出了几个有代外性的组,并展现了它们的抽样输入。每个组吾们表现3个响答的输入(走),并对每个输入进走解堆以表眼前间维度(列)。

CarRacing的基本义务(左),修改后的洗屏义务(右)。

作者的agent只在这个环境中训练。如上图所示,右边的屏幕是agent不益看察到的,左边的是人类的视觉不益看察到的。人类会发现用重新排列不益看察的手段驾驶是专门难得的,由于人类异国频繁接触到如许的义务,就像前线挑到的 "倒骑自走车 "的例子。

2. 商议以及异日

在这项做事中,作者钻研了深度学习agents的特性,这些agents能够把它们的不益看察行为一个肆意排序的、可变长度的感觉输入列外。议决自力地处理每个输入流,并操纵仔细力整相符处理后的新闻。即使不益看测的挨次在一个episode中被随机地转折了众次,而且异国进走训练,agents照样能够实走义务。吾们在下外中通知了每个环境的性能对比效果。

在睁开的做事中重新梳理不益看测效果

在每个episode中,作者每隔t step重新打乱挨次不益看察。CartPole义务迥异较大,所以对它测试了1000次。其他义务,通知了100次测试的平均值和标准谬误。除了Atari Pong,一切环境都有每集1000 step的硬性节制。在Atari Pong中,固然不存在一集的最大长度,但不益看察到,每个episode清淡赓续2500 step旁边。

议决打乱agent排序,甚至是不完善的不益看测新闻,能够驱动它注释每个片面感觉输入的意义以及它们与全局的有关,这在现在的很众行使中都有实际用途。例如,当被行使于机器人时,能够避免由于交叉布线或复杂的动态输入-输出映射而产生的舛讹。相通于CartPole实验的竖立,添上额外的噪声通道,能够使一个收到成千上万的噪声输入通道的体系识别出具有有关新闻的幼的通道子集。

局限性在于, 对于视觉环境,patch size的选择会影响性能和计算的复杂性。作者发现6x6像素的patch size在义务中很有效,4x4像素的patch size在某栽水平上也可发挥效用,但单个像素的不益看察却不及发挥作用。幼的patch size也会产生一个大的仔细力矩阵,除非操纵近似值,否则计算成本能够会过高。

另一个节制是 ,排列组相符不变的特性只适用于输入,而不适用于输出。固然不益看测效果的排序能够以再次打乱,但走动的排序却不及。为了使置换不变的输起程挥作用,每个环节都必要来自环境的逆馈以便学习自己和环境之间的有关,包括奖励新闻。

一个颇为风趣的异日钻研 倾向是使走动层也具有相通的属性,并将每个活动神经元建模为一个操纵仔细力连接的模块。有了作者的手段, 就有能够训练一个具有肆意数目的agent,或者用一个单一的被挑供了一个奖励信号行为逆馈的policy控制具有分别形态的机器人 。此外 ,在这项做事中,作者设计的手段批准以前的走行为为逆馈信号。然而,逆馈信号并不局限于走动。作者外示,其憧憬望到异日的做事包括环境奖励等信号,不光能体面不益看察到的环境转折,还能体面自己的转折,以训练置换不变的 meta-learning agents。

【编辑选举】

学习人造智能AI必要哪些知识?人造智能在大视频运维中如何实现CDN硬盘故障展望?谷歌 Chrome 94 涉猎器安卓版已内置 RSS 涉猎器2050年的世界是什么样子的?新式能源并首,人造智能步入社会谷歌 Chrome Canary 涉猎器安卓版正在测试崭新页面缩放:还声援记忆功能

Powered by 天堂在线最新版官网 @2013-2021 RSS地图 HTML地图