learnhard – 第 7 页 – 编码无悔 / Intent & Focused

[原创] 强化学习框架 rlpyt 源码分析：(3) 相当简洁又十分巧妙的EpsilonGreedy类

2020 年 04 月 28 日2019 年 11 月 22 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

[原创] 强化学习框架 rlpyt 源码分析：(4) 收集训练数据的sampler类

2020 年 04 月 28 日2019 年 11 月 22 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

▶▶ sampler的主要功能
训练强化学习模型需要训练数据，收集训练数据的工作就是由sampler类做的。
收集训练数据，就需要在environment中步进，因此environment的实例化工作也在sampler中完成。

[原创] PyTorch模型的两种保存方法

2020 年 04 月 28 日2019 年 11 月 19 日作者 learnhard

根据PyTorch文档，在把PyTorch模型保存成文件的时候有两种方法，第一种是推荐的：

torch.save(the_model.state_dict(), PATH)

对应地，加载模型这样做：

the_model = TheModelClass(*args, **kwargs)
the_model.load_state_dict(torch.load(PATH))

[原创] PyTorch模型 .pt，.pth，.pkl 的区别

2020 年 04 月 28 日2019 年 11 月 19 日作者 learnhard

我们经常会看到后缀名为 .pt，.pth，.pkl 的PyTorch模型文件，这几种模型文件在格式上有什么区别吗？
其实它们并不是在格式上有区别，而只是后缀上不同而已（仅此而已）。在用 torch.save() 函数保存模型文件的时候，各人有不同的喜好，有些人喜欢用 .pt 后缀，有些人喜欢用 .pth 或 .pkl。用相同的 torch.save() 语句保存出来的模型文件没有什么不同。
在PyTorch官方的文档/代码里，有用 .pt 的，也有用 .pth 的。
据某些文章的说法，一般惯例是使用 .pth，但是官方文档里貌似 .pt 更多，而且官方也不是很在意固定用一种，大家就自便吧。

[原创] 强化学习(Reinforcement Learning)文章合集

2025 年 01 月 19 日2019 年 11 月 17 日作者 learnhard

强化学习是一种机器学习范式，通常用于让机器自主进行决策和学习。以下是一些强化学习的应用：

1. 游戏AI：使用强化学习算法训练游戏AI，在玩家水平越来越高的时候，AI能够逐渐提高自己的技能。

2. 机器人控制：对于一个机器人而言，强化学习可以帮助它在不同的任务下找到最优解决方案，如自主驾驶车辆、无人机控制、工厂物流等。

3. 资源管理：例如电力系统、水资源等，这些领域都需要有效的调度和分配资源，在这些领域应用强化学习可以帮助实现更优秀的效果。

4. 自然语言处理：通过基于强化学习算法训练模型，可以使计算机更好地理解自然语言，并根据上下文做出正确的回答或者翻译。

下面这些文章，是我根据学习总结下来的一些知识，希望能帮助有需要的人。

✍怎么理解DDPG(Deep Deterministic Policy Gradient)里的Deterministic

✍强化学习里的 on-policy 和 off-policy 的区别

✍关于Google的开源强化学习框架Dopamine，不建议上车

✍伯克利人工智能研究所的开源[强化学习框架] rlpyt，让人眼前一亮

[原创] 强化学习框架 rlpyt 源码分析：(2) 掌管训练流程的runner类

2020 年 04 月 28 日2019 年 11 月 17 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

[原创] 强化学习框架 rlpyt 源码分析：(1) 随处可见的Python可变参数

2020 年 04 月 28 日2019 年 11 月 15 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

rlpyt 是BAIR(Berkeley Artificial Intelligence Research，伯克利人工智能研究所)开源的一个强化学习(RL)框架。我之前写了一篇它的简介。如果你想用这个框架来开发自己的强化学习程序（尤其是那些不属于Atari游戏领域的强化学习程序），那么需要对它的源码有一定的了解。本文尝试从 rlpyt 自带的一个实例来分析它的部分源码，希望能帮助到一小部分人。
要先声明一下：rlpyt 的源码比较复杂，想要充分理解全部模块需要下很大的功夫，本系列“源码分析”文章，并没有把 rlpyt 的源码全部分析一遍，而只是分析了它的“冰山一角”，主要目的是让读者能了解它的基本结构及基本运作方式。

[原创] 强化学习框架 rlpyt 源码分析：前言

2020 年 04 月 28 日2019 年 11 月 14 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

[原创] 如何查看一个Python进程在"干什么"： py-spy 来帮忙

2020 年 04 月 28 日2019 年 11 月 12 日作者 learnhard

如果你觉得一个运行中的Python程序有问题，例如它的耗时比你预想的要长很多，那么你可能会想知道它到底在“干什么”，有很多方法可以实现这个目的，但是很多都是需要修改Python代码来配合的，这显然是让人最不爽的方式。
而 py-spy 这个工具提供了一种无侵入的方式来达成这个目的：

py-spy是Python程序的采样分析器。它使你可以直观地看到Python程序花费的时间，而无需重新启动程序或以任何方式修改代码。 py-spy的开销非常低：为了提高速度，它是用Rust编写的，并且它与被分析的Python程序不在同一进程中运行。这意味着py-spy可以安全地用于生产环境的Python代码。

[原创] IntelliJ推出的语法检查插件Grazie，没有现实意义

2020 年 04 月 28 日2019 年 11 月 10 日作者 learnhard

今天看到一篇推送的技术文章，说IntelliJ推出了一个语法检查插件Grazie，但它不是用于检查面向编译器的语法，而是用于检查面向人类的语法，比如引号里的字符串、注释语句里的语法，等等。我认为在当前的环境下，它没有意义——除非在一个有着严格要求(或者非常自律)的团队里，否则这种功能只能用来“折腾自己”，而不可能改善大家整体的代码状况。

[原创] 不要畏惧困难，提笔写作

2020 年 04 月 28 日2019 年 11 月 09 日作者 learnhard

首先我得承认，我原来打算写的很多技术方面的“系列文章”，在写了若干篇之后就没有后文了，一方面是因为忙于工作和生活(毕竟不是富裕人家)，另一方面也是由于总觉得没有积累到一定程度，还不能准确地把想要写的东西表达出来。这我得检讨。

“我要写的这些，是不是太简单了？写出来会不会显得太low？”
“我要写的这个，我不确定对不对，写出来误导别人怎么办？被人取笑怎么办？”
“我这篇文章会不会太短了？就这么点东西好意思发出来吗？”
带着这些想法，我又成功地毙掉了我准备下笔的一个决定。

[原创] 强化学习框架 rlpyt 安装及试跑

2020 年 04 月 28 日2019 年 10 月 30 日作者 learnhard

查看关于 rlpyt 的更多文章请点击这里。

之前我写了一篇强化学习框架 rlpyt 的简介。通常，刚接触一个框架，在安装好它之后，一般都是要先把它的一个最简单的demo跑起来看看会不会有什么问题。所以在本文中继续讲一下安装以及试运行的过程。

[原创] 小心PyCharm的import带来的unresolved reference误导

2020 年 04 月 28 日2019 年 10 月 28 日作者 learnhard

有时候你可能会遇到这样的故事：git clone一个Python的GitHub项目下来，配置好了对应的Anaconda环境，安装好了依赖的package，用PyCharm打开了项目，打开一个.py代码文件，发现PyCharm在文件开头几行就给标注了波浪线，提示unresolved reference XXX。而且，尽管PyCharm提示有错，你却可以运行代码。
“我完全就是按项目要求的版本装的各种依赖包，怎么会找不到这个定义？”你心里可能会很不爽。
这个时候，你要看清楚了，有可能是PyCharm给了你误导，其实你什么都做对了，只是PyCharm显示错了而已。

[原创] 强化学习里的 horizon 是指什么

2020 年 04 月 28 日2019 年 10 月 27 日作者 learnhard

horizon 这个词在各种强化学习教程里出现的频率不算高，但它也是要了解的一个概念。
先查词典：
n. 地平线；视野；眼界；范围