一篇深度強化學習勸退文 | 台灣美食網
2018年2月27日—摘要:今天在學校又雙提到了DeepReinforcementLearningThatMatters這篇打響DRL(DeepReinforcementLearning,深度強化學習)勸退第一槍的文章 ...
看完以後很多從自己去年七月入坑以來隱隱約約的困惑都得到了解答。讀完大有如不見此文,萬古如長夜之感。心裏激動,一時難以自抑。知乎上深度強化學習的內容比較少,最好的私以爲是智能單元[1],此外還有許多零散的論文介紹、課程筆記、問答等等,但好像沒人提過這篇文章。這篇文章是我入坑以來看到的深度強化學習方面最好的階段性總結,強烈建議應該作爲深度強化學習的第一課,看完以後大家再慎重考慮到底要不要入坑。
先看一下作者的背景。作者叫 Alex Irpan,現爲谷歌大腦機器人團隊的軟件工程師。他從伯克利拿到的計算機科學本科學位,本科的時候曾經在伯克利人工智能實驗室(Berkeley AI Research (BAIR) Lab)進行本科科研,導師是 DRL 大牛 Pieter Abbeel,他還和 John Schulman 工作過。
這篇文章一上來就指出深度強化學習是個大坑。它的成功案例其實很少,但每個都太有名了,例如用 Deep Q Network(DQN)在 Atari games 上用原始像素圖片作爲狀態達到甚至超越人類專家的表現、通過左右互搏(self-play)等方式在圍棋上碾壓人類、大大降低了谷歌能源中心的能耗等等。造成的結果就是沒有從事過深度強化學習的研究人員對它產生了很大的錯覺,高估了它的能力,低估了它的難度。
強化學習本身是一個非常通用的人工智能範式,在直覺上讓人覺得非常適合用來模擬各種時序決策任務,如語音、文本類任務。當它和深度神經網絡這種只要給我足夠層和足夠多的神經元,可以逼近任何函數的非線性函數近似模型結合在一起感覺要上天啊,無怪乎 DeepMind 經常號稱人工智能=深度學習+強化學習。
然而 Alex 告訴我們別急,讓我們先來審視一些問題:
1.它的樣本利用率非常低。換言之爲了讓模型的表現達到一定高度需要極爲大量的訓練樣本。
2.最終表現很多時候不夠好。在很多任務上用非強化學習甚至非學習的其它方法,如基於模型的控制(model based c...
強化學習 | 台灣美食網
强化学习 | 台灣美食網
[機器學習ML NOTE] Reinforcement Learning 強化學習(DQN ... | 台灣美食網
博客來 | 台灣美食網
強化學習 | 台灣美食網
一篇深度強化學習勸退文 | 台灣美食網
Reinforcement Learning中文版 | 台灣美食網
Reinforcement Learning中文版 | 台灣美食網
桃園市中壢區【RL】店家資訊營業時間
RL是桃園市中壢區的熱門美食,2017金牌好店特色推薦:經典CHEDDAR牛肉堡、Avocat酪梨塔RL為ChefRui&ChefLo的縮寫,兩位主...