久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

DeepMind發布新獎勵機制:讓智能體不再“碰瓷”

人工智能
2019
03/18
14:49
新智元
分享
評論

近日,DeepMind設計了一個新的智能體獎勵機制,避免了不必要的副作用(side effect),對優化智能體所在環境有著重要的意義。

我們先來考慮一個場景:

在強化學習過程中,有一個智能體的任務是把一個盒子從A點搬運到B點,若是它能在較短時間內完成這個任務,那么它就會得到一定獎勵。

但在到達B點的最路徑上有一個花瓶,智能體是沒有任何動機繞著花瓶走的,因為獎勵機制沒有說明任何有關這個花瓶的事情。

由于智能體并不需要打破花瓶才能到達B點,所以在這個場景中,“打破花瓶”就是一個副作用,即破壞智能體所在的環境,這對于實現其目標是沒有必要的。

副作用問題是設計規范問題中的一個例子:設計規范(只獎勵到達B點的智能體)與理想規范(指定設計者對環境中所有事物的偏好,包括花瓶)不同。

理想的規范可能難以表達,特別是在有許多可能的副作用的復雜環境中。

解決這個問題的一個方法是讓智能體學會避開這種副作用(通過人類反饋),例如可以通過獎勵建模。這樣做的一個好處是智能體不需要知道輔佐用的含義是什么,但同時也很難判斷智能體是何時成功學會的避開這種副作用的。

另一個方法是定義一個適用于不同環境的副作用的一般概念。這可以與human-in-the-loop 方法相結合(如獎勵建模),并將提高我們對副作用問題的理解,這有助于我們更廣泛地理解智能體激勵。

如果我們能夠度量智能體對它所在環境的影響程度,我們就可以定義一個影響懲罰(impact penalty),它可以與任何特定于任務的獎勵函數相結合(例如,一個“盡可能快地到達B點”的獎勵)。

為了區分預期效果和副作用,我們可以在獎勵和懲罰之間進行權衡。這就可以讓智能體采取高影響力的行動,從而對它獎勵產生巨大影響,例如:打破雞蛋,以便做煎蛋卷。

影響懲罰包括兩個部分:

一個用作參考點或比較點的環境狀態(稱為基線);用于測量由于智能體的操作而導致當前狀態與基線狀態之間的距離的一種方法(稱為偏差度量)。

例如,對于常用的可逆性準則(reversibility criterion),基線是環境的起始狀態,偏差度量是起始狀態基線的不可達性(unreachability)。這些組件可以單獨選擇。

選擇一個基線

在選擇基線的時候,很容易給智能體引入不良的激勵。

起始狀態基線似乎是一個自然的選擇。但是,與起始狀態的差異可能不是由智能體引起的,因此對智能體進行懲罰會使其有動機干擾其環境或其他智能體。 為了測試這種干擾行為,我們在AI Safety Gridworlds框架中引入了Conveyor Belt Sushi環境。

Conveyor Belt Sushi環境是一個壽司店。它包含一個傳送帶,在每個智能體操作之后,傳送帶向右移動一個方格。傳送帶上有一個壽司盤,當它到達傳送帶的末端時,饑餓的人會吃掉它。其中,干擾行為是智能體在行進過程當中,會把壽司從傳送帶上撞掉。

智能體的任務就是在有或者沒有干擾的情況下,從上方區域抵達下方五角星的目標區域。

為了避免這種失敗模式,基線需要隔離智能體負責的內容。

一種方法是比較一個反事實狀態,如果智能體從初始狀態(不作為基線)開始就沒有做任何事情,那么環境就會處于上面GIF中右側的狀態,并且在Conveyor Belt Sushi環境中,壽司不會成為基線的一部分,因為我們默認“人會吃掉它”。但這就會引入一個不良的行為,即“抵消(offsetting)”。

我們在傳送帶環境的另一種變體——傳送帶花瓶上演示了這種行為。在這個變體中,傳送帶上的物體是一個花瓶,當它到達傳送帶的末端時就會打碎。

智能體的任務是拯救花瓶:從傳送帶上取下花瓶就會得到獎勵。

"抵消行為"是在收到獎勵后把花瓶放回傳送帶上。發生這種情況是因為花瓶在不作為基線的區域停止傳送,所以一旦智能體將花瓶從傳送帶上取下,它將繼續因為與基線的差異而受到懲罰。因此,它有一個動機,通過打破花瓶后收集獎勵并回到基線。

為了避免這種失敗模式,可以將不活動(inaction)的基線修改為先前狀態的分支,而不是起始狀態。這是stepwise inaction基線:如果智能體沒有采取任何行動,只是采取了最后的行動,那么這就是環境的反事實狀態。

選擇偏差度量

一個常用的偏差度量是不可達性(unreachability,UR)度量:從當前狀態到達基線的難度。不可達性的discounted變量考慮到達狀態所需的時間,而不可達性的undiscounted變量只考慮是否可以到達狀態。

不可達性度量的一個問題是,如果智能體采取不可逆的操作(因為基線變得不可達),它就會“最大化”。

除了不可逆轉行為的嚴重程度之外,該智能體還會受到最大的懲罰,例如,該智能體是否打碎了1個花瓶或100個花瓶。這可能導致不安全的行為,正如AI Safety Gridworlds套件中的Box環境所示。

此處,智能體需要盡快抵達目標位置,但是路徑中有一個盒子,它可以被推動,但是不能被拉。通往目標位置的最短路徑需將盒子推到一個角落,這是一個不可恢復的位置。我們所需的行為是讓智能體選擇一條更長的路徑,將框推到右邊。

需要注意的是,GIF中兩條通往目標位置的路徑,都包含一個不可逆的動作。副作用懲罰必須區分這兩條路徑,對較短路徑的懲罰更高——否則智能體沒有動機避免將盒子放在角落。

為了避免這種失敗模式,我們引入了一個相對可達性(RR)度量。對于每個狀態,我們可以與基線狀態做個比較,然后進行相應的懲罰。智能體向右推動盒子會讓某些狀態不可達,但是智能體向下推動盒子所接受的懲罰會更高。

引入另一種偏差度量也可以避免這種失敗模式。可獲得效用(AU)衡量方法考慮一組獎勵函數(通常隨機選擇)。對于每個獎勵函數,它比較智能體從當前狀態開始和從基線開始可以獲得多少獎勵,并根據兩者之間的差異懲罰智能體。相對可達性可以被視為該度量的特殊情況,如果達到某個狀態則獎勵1,否則給出0。

默認情況下,RR度量因可達性降低而懲罰智能體,而AU度量因可達效用的差異而懲罰智能體。

設計選擇的影響

我們比較了三種基線(起始狀態、inaction和stepwise inaction)與三種偏差度量(UR、RR和AU)的所有組合。

我們正在尋找一種在所有環境下都表現良好的設計選擇組合:有效地懲罰盒子環境中的副作用,而不引入壽司和花瓶環境中的不良激勵。

在壽司環境中,帶有起始狀態基線的RR和AU懲罰會產生干擾行為。由于起始狀態永遠不可達,所以UR值總是在其最大值處。因此,它等同于智能體的移動懲罰,并且不會激勵干擾。 與其他基線的處罰可避免對此環境的干擾。

在花瓶環境中,inaction基線的discounted懲罰產生抵消行為。因為把花瓶從傳送帶上取下來是可逆的,所以undiscounted措施不會對它造成懲罰,所以沒有什么可以抵消的。初始狀態或stepwise inaction基準的懲罰不會激勵補償。

在盒子環境中,因為UR度量對大小不敏感,所以它對所有基線都產生副作用。RR和AU的措施激勵正確的行為。

我們注意到干擾和抵消行為是由基線的特定選擇引起的,盡管這些激勵可以通過偏差度量的選擇得到緩解。副作用行為(將方框放在角落)是由偏差度量的選擇引起的,不能通過基線的選擇來減輕。這樣,偏差度量就像基線屬性的過濾器。

總體而言,基線的最佳選擇是stepwise inaction,偏差度量的最佳選擇是RR或AU。

然而,這可能不是這些設計選擇的最終結論,將來可以開發更好的選項或更好的實現。例如,我們當前對inaction的實現相當于關閉智能體。如果我們想象智能體駕駛一輛汽車在一條蜿蜒的道路上行駛,那么在任何時候,關閉智能體的結果都是撞車。

因此,stepwise inaction的基準不會懲罰在車里灑咖啡的行為者,因為它將結果與撞車進行了比較。可以通過更明智地實施無為來解決這個問題,比如遵循這條道路的故障保險政策。然而,這種故障安全很難以一種與環境無關的通用方式定義。

我們還研究了懲罰差異與降低可達性或可實現效用的效果。這不會影響這些環境的結果(除了花瓶環境的inactionn基線的懲罰)。

在這里,把花瓶從傳送帶上拿開增加了可達性和可實現的效用,這是通過差異而不是減少來捕獲的。因此,undiscounted RR與inaction基線的差異懲罰變體會在此環境中產生抵消,而減少懲罰變量則不會。由于stepwise inaction無論如何都是更好的基線,因此這種影響并不顯著。

在設計過程中,選擇“差異”還是“減少”也會影響智能體的可中斷性。

【來源:新智元】

THE END
廣告、內容合作請點擊這里 尋求合作
ai
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

AI機器人,正在發展出“機器人撥打騷擾電話+逃避監管的特殊方法+惡意收集的隱私大數據”這樣一條龍的產業,情況令人觸目驚心。
業界
3月14日消息,深度學習是個涉及高度迭代的過程。在這個過程中,數據科學家需要建立模型,并在GPU驅動的系統上進行測試,直到得到可以投入使用的產品。
業界
在過去一年中,科技公司侵犯消費者個人隱私成為輿論關注焦點,而老牌科技巨頭IBM似乎和這樣的丑聞并無關聯。
業界
3月11日消息,近幾年,隨著人們出游觀念的變化,旅游需求與要求層次的提升,定制游逐漸從小眾市場走到大眾的眼前。
業界
據外媒報道,軟銀首席執行官孫正義(Masayoshi Son)表示,人們應該為人工智能的廣泛應用做好準備,因為它將在30年內改變我們的生活方式。
業界

相關推薦

1
3
久久精品一区二区三区四区_国产91久久久久久久免费_99免费在线视频_亚洲免费成人网

    9000px;">

      久久人人97超碰com| 国产一区亚洲一区| 欧美日本韩国一区二区三区视频 | 日韩伦理免费电影| 日韩欧美亚洲一区二区| 欧美丝袜自拍制服另类| 成人不卡免费av| 国产在线精品一区二区| 久久不见久久见免费视频7| 香蕉成人伊视频在线观看| 亚洲欧洲日产国码二区| 国产精品美女久久久久av爽李琼| 精品国产乱码久久| 精品免费日韩av| 精品国产露脸精彩对白| 久久久精品免费网站| 久久人人爽爽爽人久久久| 久久新电视剧免费观看| 国产亚洲欧美在线| 久久久久亚洲蜜桃| 国产午夜精品一区二区三区嫩草| 久久久久99精品一区| 欧美国产日韩a欧美在线观看| 久久精品一区四区| 国产精品天干天干在观线| 国产精品日日摸夜夜摸av| 亚洲另类色综合网站| 亚洲在线视频一区| 日韩av不卡在线观看| 蜜桃久久av一区| 激情成人综合网| 成人午夜激情片| 日本高清无吗v一区| 欧美精品在线观看播放| 欧美成人三级电影在线| 欧美韩日一区二区三区四区| 自拍偷自拍亚洲精品播放| 亚洲午夜精品一区二区三区他趣| 蜜臀久久久久久久| 国产精品1区2区| 色综合一区二区| 在线综合亚洲欧美在线视频| 久久人人超碰精品| 亚洲激情图片小说视频| 久久99精品久久久久久动态图 | 免费成人在线影院| 国产suv精品一区二区三区| 91蝌蚪porny| 欧美一区国产二区| 中文字幕av一区二区三区免费看| 亚洲欧洲制服丝袜| 另类小说欧美激情| 91蝌蚪porny九色| 精品成人一区二区| 一区二区三区日韩| 国产精品一品视频| 欧美女孩性生活视频| 国产精品久久久久aaaa樱花| 污片在线观看一区二区| 粉嫩aⅴ一区二区三区四区| 欧美二区乱c少妇| 亚洲精品日韩综合观看成人91| 国产一区二区91| 欧美男生操女生| 亚洲制服丝袜av| 色综合视频一区二区三区高清| 精品国产乱码久久久久久牛牛 | 国产高清不卡二三区| 欧洲人成人精品| 欧美国产成人精品| 美美哒免费高清在线观看视频一区二区 | 综合网在线视频| 国产xxx精品视频大全| 欧美电影免费提供在线观看| 亚洲在线视频网站| 99久久国产免费看| 久久精品一二三| 精品影院一区二区久久久| 91精品在线一区二区| 一区二区成人在线视频| 成人av电影免费观看| 久久久久国色av免费看影院| 韩国女主播一区二区三区| 精品久久国产老人久久综合| 免费视频一区二区| 777色狠狠一区二区三区| 洋洋成人永久网站入口| 97久久精品人人做人人爽| 精品国产91九色蝌蚪| 精品亚洲成a人在线观看| 日韩一区二区三区在线视频| 蜜臀av一区二区在线观看| 欧美一级二级三级乱码| 老司机午夜精品| 久久久亚洲高清| 国产精品一区二区三区网站| 国产欧美一区二区三区在线看蜜臀| 国产一区二区三区不卡在线观看| 精品av综合导航| 国产福利一区二区三区视频在线| 久久男人中文字幕资源站| 国产高清久久久| 国产精品区一区二区三| 99精品欧美一区| 一区二区三区日韩在线观看| 717成人午夜免费福利电影| 美女在线一区二区| www激情久久| 成人黄色大片在线观看| 亚洲精品乱码久久久久久久久 | 狠狠色2019综合网| 国产情人综合久久777777| av不卡一区二区三区| 亚洲v中文字幕| 精品日韩一区二区三区免费视频| 五月天丁香久久| 国产亚洲美州欧州综合国 | 精品国产电影一区二区| 国产精品白丝jk黑袜喷水| 亚洲三级在线免费| 69久久夜色精品国产69蝌蚪网| 狠狠色狠狠色合久久伊人| 亚洲免费观看高清在线观看| 日韩一区和二区| eeuss鲁片一区二区三区在线观看 eeuss鲁片一区二区三区在线看 | 香蕉乱码成人久久天堂爱免费| 欧美va天堂va视频va在线| 不卡免费追剧大全电视剧网站| 亚洲aaa精品| 国产日韩欧美一区二区三区综合| 欧美午夜一区二区| 国内精品自线一区二区三区视频| 中文字幕中文字幕一区| 欧美一区二区三区人| 成人va在线观看| 另类小说图片综合网| 一区二区三区在线观看网站| 亚洲精品在线网站| 欧美日韩国产一级片| www.欧美色图| 国产乱码字幕精品高清av| 亚洲国产视频直播| 欧美国产国产综合| 日韩免费视频一区二区| 精品婷婷伊人一区三区三| 成人黄色片在线观看| 国产一区免费电影| 天堂成人国产精品一区| 亚洲免费观看在线视频| 中文字幕亚洲不卡| 中文字幕精品综合| 欧美精品一区二区在线观看| 欧美丰满嫩嫩电影| 欧美日精品一区视频| 色综合中文字幕国产 | 欧美最猛性xxxxx直播| 精品午夜一区二区三区在线观看| 性久久久久久久| 亚洲午夜在线视频| 中文字幕一区二区三区蜜月| 国产片一区二区| www欧美成人18+| 精品国产一区二区三区四区四 | 欧美视频在线观看一区| 成人视屏免费看| 国产91露脸合集magnet| 国产麻豆精品95视频| 国产在线精品一区二区三区不卡| 九九**精品视频免费播放| 美女视频一区二区| 免费观看30秒视频久久| 美国毛片一区二区| 久久精品国产精品亚洲红杏| 久久91精品国产91久久小草| 激情欧美一区二区| 国产精选一区二区三区| 国产91精品欧美| 成人国产免费视频| av激情成人网| 色婷婷香蕉在线一区二区| 91国在线观看| 欧美日韩久久不卡| 欧美一区二区三区视频| 久久亚洲精精品中文字幕早川悠里| 久久先锋影音av鲁色资源| 日本一区二区三区免费乱视频| 国产精品私人影院| 亚洲精品综合在线| 日日摸夜夜添夜夜添国产精品| 老司机免费视频一区二区| 国内不卡的二区三区中文字幕 | 亚洲国产wwwccc36天堂| 五月天网站亚洲| 国内一区二区在线| 91在线观看下载| 欧美日韩一区高清| 国产亚洲一区字幕| 亚洲免费在线视频| 麻豆久久一区二区| 波多野结衣一区二区三区|