精品久久久久久中文字幕,狠狠干夜夜操,高h纯肉无码视频在线观看,日韩欧美成人一区二区三区,日本三级电影精品五区

Aug 10, 2020

深度學(xué)習(xí)資訊|選擇性注意力在強(qiáng)化學(xué)習(xí)中的應(yīng)用


非注意盲視 (Inattentional Blindness) 是一種心理現(xiàn)象:在人們聚焦于某項(xiàng)任務(wù)時(shí),他們會(huì)忽視與之無(wú)關(guān)的細(xì)節(jié),這就是 選擇性注意力 (Selective Attention) 的結(jié)果。

這種選擇性注意力使人能夠?qū)W⒂谕饨绲闹匾畔?,而不?huì)分心于無(wú)關(guān)緊要的細(xì)節(jié)。人們相信,這種選擇性注意力機(jī)制使人能夠?qū)V泛的感官信息濃縮為一種足夠簡(jiǎn)潔的形式,用于未來(lái)的決策。


盡管這看似是一種局限性,但對(duì)于希望模仿生物有機(jī)體的成功和效率的機(jī)器學(xué)習(xí)系統(tǒng)而言,在自然界中觀察到的這種“瓶頸”往往能為設(shè)計(jì)帶來(lái)啟發(fā)。例如,雖然深度強(qiáng)化學(xué)習(xí) (RL) 文獻(xiàn)中提出的大多數(shù)方法均允許智能體 (Agent) 訪問(wèn)整個(gè)視覺(jué)輸入,甚至包括用于預(yù)測(cè)視覺(jué)輸入未來(lái)序列的模塊,但是否能通過(guò)注意力約束 減少 智能體對(duì)視覺(jué)輸入的訪問(wèn),提升智能體的性能?

在我們最近發(fā)布的 GECCO 2020 論文“可自解釋智能體的神經(jīng)進(jìn)化”(AttentionAgent) 中,我們研究了含有自注意力 Bottleneck 的智能體的特性。研究結(jié)果表明,與傳統(tǒng)方法相比,這些模型不僅能夠用傳統(tǒng)模型千分之一的參數(shù)量,基于像素級(jí)別的輸入,來(lái)解決具有挑戰(zhàn)性的視覺(jué)任務(wù),而且得益于其可以“忽略混淆性細(xì)節(jié)”的能力,在面對(duì)未見(jiàn)過(guò)的任務(wù)修改時(shí),模型的泛化能力也更加出色。

此外,通過(guò)觀察智能體的注意力集中在哪些方面,也為決策的產(chǎn)生過(guò)程提供了視覺(jué)上的可解釋性。

具有人工注意力的智能體

盡管有一些工作探討了稀疏性等約束在實(shí)際塑造強(qiáng)化學(xué)習(xí)智能體的能力中所發(fā)揮的作用,但 AttentionAgent 另辟蹊徑,從與非注意盲視有關(guān)的概念中汲取靈感,即當(dāng)大腦參與需要付出努力的任務(wù)時(shí),它的大部分注意力僅集中在與任務(wù)相關(guān)的元素上,暫時(shí)對(duì)其他信號(hào)視而不見(jiàn)。

為了實(shí)現(xiàn)這一點(diǎn),我們將輸入圖像分割成幾個(gè)區(qū)塊,然后依靠修改后的自注意力架構(gòu)來(lái)模擬區(qū)塊之間的投票,從而選出一個(gè)被認(rèn)為重要的子集。在每個(gè)時(shí)間步中選擇相關(guān)的區(qū)塊,并且一旦確定,AttentionAgent 便僅基于這些區(qū)塊進(jìn)行決策,而忽略其余區(qū)塊。

除了從視覺(jué)輸入中提取關(guān)鍵因素之外,能夠在這些因素隨時(shí)間變化時(shí)將它們進(jìn)行關(guān)聯(lián)也同樣至關(guān)重要。例如,棒球比賽中的擊球手必須利用視覺(jué)信號(hào)來(lái)連續(xù)跟蹤棒球的位置,以預(yù)測(cè)能夠擊打到球的位置。AttentionAgent 則會(huì)利用長(zhǎng)短期記憶 (LSTM) 模型,從重要的區(qū)塊中截取信息,并在每個(gè)時(shí)間步生成一個(gè)操作。LSTM 會(huì)跟蹤輸入序列的變化,因此可以利用這些信息來(lái)跟蹤關(guān)鍵因素隨時(shí)間的演變情況。

通常采用反向傳播來(lái)優(yōu)化神經(jīng)網(wǎng)絡(luò)。然而,由于 AttentionAgent 包含用于生成重要區(qū)塊的不可微的運(yùn)算(例如排序和切片),因此將此類(lèi)技術(shù)應(yīng)用于訓(xùn)練并非易事。因此,我們轉(zhuǎn)而采用無(wú)導(dǎo)數(shù)優(yōu)化算法來(lái)克服這個(gè)困難。

我們的方法概述以及 AttentionAgent 中的數(shù)據(jù)處理流程說(shuō)明。上排:輸入轉(zhuǎn)換 - 滑動(dòng)窗口將輸入圖像分割成較小的區(qū)塊,然后將其“展平”以備將來(lái)處理。中間:區(qū)塊選舉 - 修改后的自注意力模塊在區(qū)塊之間進(jìn)行投票,以生成區(qū)塊重要性向量。下排:動(dòng)作生成 - AttentionAgent 挑選最重要的區(qū)塊,提取相應(yīng)的特征,并根據(jù)它們做出決策。

泛化到未見(jiàn)過(guò)的環(huán)境修改

我們證明 AttentionAgent 學(xué)會(huì)了關(guān)注輸入圖像中的不同區(qū)域。重要區(qū)塊的可視化使您可以窺探智能體如何制定決策,從而說(shuō)明大多數(shù)選擇都是有意義的,并且符合人類(lèi)的直覺(jué),是分析和調(diào)試開(kāi)發(fā)中智能體的強(qiáng)大工具。此外,由于智能體學(xué)會(huì)了忽略對(duì)核心任務(wù)不重要的信息,因此可以泛化到環(huán)境進(jìn)行了細(xì)微修改的任務(wù)。

在這里,我們展示了,如果讓智能體的決策控制器僅訪問(wèn)重要區(qū)塊,而忽略場(chǎng)景的其余部分,則可以提高泛化能力,原因就在于智能體受到限制,無(wú)法“看到可能令其混淆的內(nèi)容”。我們的智能體僅在 VizDoom TakeCover 環(huán)境下接受過(guò)生存訓(xùn)練,但在其他未見(jiàn)過(guò)的墻壁較高、地板紋理不同的環(huán)境下,或是在面對(duì)令人分心的標(biāo)志時(shí)也能生存下來(lái)。

DoomTakeCover 泛化:AttentionAgent 在未經(jīng)修改的環(huán)境中訓(xùn)練(左側(cè))。它能夠適應(yīng)環(huán)境的變化,例如更高的墻(中間,左側(cè))、不同的地板紋理(中間,右側(cè))或浮動(dòng)文本(右側(cè))

如果一個(gè)人學(xué)會(huì)在晴天駕駛,他/她也可以將這些技能(在某種程度上)轉(zhuǎn)移到其他駕駛場(chǎng)景,如夜間駕駛、雨天駕駛、駕駛不同的汽車(chē)或在擋風(fēng)玻璃上有鳥(niǎo)糞的情況下駕駛。AttentionAgent 不僅能夠解決 CarRacing-v0,它還可以在未見(jiàn)過(guò)的條件(例如景色更亮或更暗,或者其視覺(jué)被側(cè)欄或背景斑點(diǎn)等偽像修改)下實(shí)現(xiàn)類(lèi)似的性能,而需要的參數(shù)僅相當(dāng)于不能泛化的傳統(tǒng)方法的千分之一。

CarRacing 泛化:無(wú)修改(左側(cè));顏色擾動(dòng)(中間,左側(cè));左側(cè)和右側(cè)的豎線(中間,右側(cè));添加了紅色斑點(diǎn)(右側(cè))

局限性和未來(lái)工作

盡管 AttentionAgent 能夠應(yīng)對(duì)環(huán)境的各種變化,但是這種方法存在局限性,還需要做更多的工作來(lái)進(jìn)一步增強(qiáng)該智能體的泛化能力。例如,AttentionAgent 不能泛化到背景發(fā)生巨大變化的情況。對(duì)于在背景為草坪的原始賽車(chē)環(huán)境中訓(xùn)練的智能體,當(dāng)背景換為令人分心的 YouTube 視頻后,便無(wú)法泛化。我們?cè)诖嘶A(chǔ)上進(jìn)行了進(jìn)一步研究,當(dāng)我們將背景替換為純凈的均勻噪聲時(shí),發(fā)現(xiàn)智能體的注意力模塊出現(xiàn)故障,只注意隨機(jī)噪聲區(qū)塊,而非與道路相關(guān)的區(qū)塊。如果我們一開(kāi)始就在嘈雜的背景環(huán)境中訓(xùn)練智能體,它就能繞賽道行駛,盡管性能很一般。有趣的是,智能體仍然只關(guān)注噪聲而非道路,它似乎已經(jīng)學(xué)會(huì)了根據(jù)屏幕左右兩側(cè)選定區(qū)塊的數(shù)量來(lái)估計(jì)車(chē)道位置,以此來(lái)行駛。

AttentionAgent 無(wú)法泛化到經(jīng)過(guò)大幅修改的環(huán)境。左側(cè):背景突然變成一只貓(Creative Commons 視頻 1)。中間:背景突然變成街機(jī)游戲(Creative Commons 視頻 2)。右側(cè):AttentionAgent 學(xué)會(huì)了通過(guò)避開(kāi)噪聲區(qū)塊在純?cè)肼暠尘跋滦旭?span id="cc8cccc" class="bjh-br">

我們用來(lái)從重要區(qū)塊中提取信息的簡(jiǎn)單方法可能不足以完成更復(fù)雜的任務(wù)。如何學(xué)習(xí)更多有意義的特征,甚至從視覺(jué)輸入中提取符號(hào)信息,將是一個(gè)令人興奮的未來(lái)方向。除了向研究社區(qū)開(kāi)放源代碼外,我們還發(fā)布了 CarRacingExtension,這是一整套涉及各種環(huán)境修改的賽車(chē)任務(wù),是對(duì)有興趣進(jìn)行智能體驗(yàn)化的 ML 研究人員的測(cè)試平臺(tái)和基準(zhǔn)。




聯(lián)系我們



寬泛科技專注為人工智能、邊緣計(jì)算、影視后期、動(dòng)漫設(shè)計(jì)、商務(wù)應(yīng)用等領(lǐng)域,

提供基于人臉識(shí)別、深度學(xué)習(xí)、視覺(jué)計(jì)算、VR/AR/MR、桌面虛擬化、

數(shù)據(jù)存儲(chǔ)及數(shù)據(jù)可視化、視訊會(huì)議等信息化解決方案及服務(wù)。

如果您有合作需求或?qū)氋F建議,歡迎來(lái)信。

郵箱:hezuo@kuanfans.com

合作熱線:(021) 5415 5559

官方網(wǎng)站:www.e27510.cn