RL – 编码无悔 / Intent & Focused

尽管人类离[通用人工智能]的路还很远，但越来越多新技术的出现，让这条路得以不断加速。

What？强化学习设计芯片？

就这几天的事：Google已经开始用强化学习技术来设计芯片了！
如果说用强化学习来玩游戏、下围棋，甚至用来帮助提升互联网广告的点击率、收入，都不是什么新鲜事的话，那么用强化学习来设计芯片，就也太新鲜了吧？但Google就做到了^[1]：

我们提出了一种基于学习的芯片布局方法，这是芯片设计过程中最复杂、最耗时的阶段之一。与之前的方法不同，我们的方法具有从过去的经验中学习并随着时间的推移而改进的能力。特别是随着我们对更多的芯片块进行训练，我们的方法在快速生成以前未见过的芯片块的优化布局方面变得更好。为了实现这些结果，我们将芯片布局作为一个强化学习（RL）问题，并训练一个Agent将芯片网表的节点放置到芯片画布上。为了使我们的RL策略能够泛化到未见过的芯片块，我们将表征学习置于预测布局质量的有监督任务中。通过设计一个能够准确预测各种网表及其布局质量的神经架构，我们能够生成丰富的输入网表的特征嵌入。然后，我们使用这个架构作为我们的策略和价值网络的编码器来实现转移学习。我们的目标是将PPA（功率、性能和面积）降到最低，我们表明，在6个小时内，我们的方法可以在现代加速器网表上生成超越人类或可与之相媲美的芯片布局，而现有的基线需要人类专家在循环中进行，并需要几周的时间。

硬件工程师为之虎躯一颤。

强化学习（Reinforcement Learning，简称RL）是机器学习的一个领域，刚接触的时候，大多数人可能会被它的应用领域领域所吸引，觉得非常有意思，比如用来训练AI玩游戏，用来让机器人学会做某些事情，等等，但是当你越往里看，就会发现跟传统机器学习相比，RL里面的名词简直太多了吧！多到完全可以绕晕人。比如RL里经常会提到的agent，environment，episode（rollout），policy，on-policy，off-policy，state，trajectory，reward，replay buffer，model-based，model-free，MD，TD，PG，AC，等等。强化学习的高手对这些词很熟悉，但对新手来说可能就很痛苦。
在RL领域，on-policy和off-policy是两个非常重要的概念，这两个词，把RL方法分成了两个类别。你可以从网上搜到很多很人提问on-policy的强化学习方法和off-policy的强化学习方法有什么区别，作为一个智商相当平庸的人，鬼知道我当初看了多少教程才认为自己大概搞清楚了它们之间的区别。
所以我在这篇文章里想把自己的肤浅理解分享出来，希望能帮助到少部分人。

[原创] 总有一天，失业不再遥远

[原创] 强化学习里的 on-policy 和 off-policy 的区别