强化学习-学习笔记14 | 策略梯度中的 Baseline

Clivia Du 2023-03-28 原文

本篇笔记记录学习在 策略学习 中使用 Baseline，这样可以降低方差，让收敛更快。

14. 策略学习中的 Baseline

14.1 Baseline 推导

在策略学习中，我们使用策略网络 $\pi(a|s;\theta)$ 控制 agent，
状态价值函数

$V_\pi(s)=\mathbb{E}_{A\sim \pi}[Q_\pi(s,A)]=\sum\limits_{a}\pi(a|s;\theta)\cdot Q_\pi(a,s)$
策略梯度：

$\frac{\partial \ V_\pi(s)}{\partial \ \theta}=\mathbb{E}_{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}\cdot Q_\pi(s,A)]$

在策略梯度算法中引入 Baseline 主要是用于减小方差，从而加速收敛

Baseline 可以是任何独立于动作 A 的数，记为 b。

Baseline的性质：

这个期望是0： $\mathbb{E}_{A\sim\pi}[b\cdot \frac{\partial \ \ln\pi(A|s;\theta)}{\partial\theta}]=0$
- 因为 b 不依赖动作 A ，而该式是对 A 求期望，所以可以把 b 提出来，有：$b\cdot \mathbb{E}_{A\sim\pi}[\frac{\partial \ \ln\pi(A|s;\theta)}{\partial\theta}]$
- 而期望 E 这一项可以展开：$b\sum_a \pi(a|s;\theta)\cdot\frac{\partial\ln_\pi(A|s;\theta)}{\partial\theta}$
  
  这个性质在策略梯度算法用到的的两种形式有提到过。
- 用链式法则展开后面的导数项，即: $\frac{\partial\ln_\pi(A|s;\theta)}{\partial\theta}={\frac{1}{\pi(a|s;\theta)}\cdot \frac{\partial\pi(a|s;\theta)}{\partial\theta}}$
- 这样整个式子为：$b\sum_a \pi(a|s;\theta)\cdot{\frac{1}{\pi(a|s;\theta)}\cdot \frac{\partial\pi(a|s;\theta)}{\partial\theta}}=b\cdot \sum_a\frac{\partial\pi(a|s;\theta)}{\partial\theta}$
- 由于连加是对于 a 进行连加，而内部求导是对于 θ 进行求导，所以求和符号可以和导数符号交换位置：
  
  $b\cdot \frac{\partial\sum_a\pi(a|s;\theta)}{\partial\theta}$
  
  这是数学分析中级数部分的内容。
- 而 $\sum_a\pi(a|s;\theta)=1$，所以有$b\cdot \frac{\partial 1}{\partial \theta}=0$

根据上面这个式子的性质，可以向策略梯度中添加 baseline

策略梯度 with baseline：$$\frac{\partial \ V_\pi(s)}{\partial \ \theta}=\mathbb{E}{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}\cdot Q\pi(s,A)]- \mathbb{E}{A\sim\pi}[b\cdot \frac{\partial \ \ln\pi(A|s;\theta)}{\partial\theta}] \=\mathbb{E}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}\cdot(Q_\pi(s,A)-b)]$$
这样引入b对期望 $\mathbb{E}$ 没有影响，为什么要引入 b 呢？
- 策略梯度算法中使用的并不是严格的上述式子，而是它的蒙特卡洛近似；
- b不影响期望，但是影响蒙特卡洛近似；
- 如果 b 好，接近 $Q_\pi$，那么会让蒙特卡洛近似的方差更小，收敛速度更快。

14.2 策略梯度的蒙特卡洛近似

上面我们得到：$\frac{\partial \ V_\pi(s_t)}{\partial \ \theta}=\mathbb{E}_{A_t\sim\pi}[\frac{\partial ln \pi(A_t|s_t;\theta)}{\partial \theta}\cdot(Q_\pi(s_t,A_t)-b)]$

但直接求期望往往很困难，通常用蒙特卡洛近似期望。

令 $g(A_t)=[\frac{\partial ln \pi(A_t|s_t;\theta)}{\partial \theta}\cdot(Q_\pi(s_t,A_t)-b)]$
根据策略函数 $\pi$ 随机抽样 $a_t$ ，计算 $g(a_t)$，这就是上面期望的蒙特卡洛近似；$g(a_t)=[\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot(Q_\pi(s_t,a_t)-b)]$
$g(a_t)$ 是对策略梯度的无偏估计；

因为：$\mathbb{E}_{A_t\sim\pi}[g(A_t)]=\frac{\partial V_\pi(s_t)}{\partial\theta}$，期望相等。
$g(a_t)$ 是个随机梯度，是对策略梯度 $\mathbb{E}_{A_t\sim\pi}[g(A_t)]$的蒙特卡洛近似
在实际训练策略网络的时候，用随机梯度上升更新参数θ：$\theta \leftarrow \theta+\beta\cdot g(a_t)$
策略梯度是 $g(a_t)$ 的期望，不论 b 是什么，只要与 A 无关，就都不会影响 $g(A_t)$ 的期望。为什么不影响已经在 14.1 中讲过了。
- 但是 b 会影响 $g(a_t)$；
- 如果 b 选取的很好，很接近 $Q_\pi$，那么随机策略梯度$g(a_t)$的方差就会小；

14.3 Baseline的选取

介绍两种常用的 baseline。

a. b=0

第一种就是把 baseline 取0，即与之前相同：$\frac{\partial \ V_\pi(s)}{\partial \ \theta}=\mathbb{E}_{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}\cdot Q_\pi(s,A)]$

b. b= $V_\pi$

另一种就是取 b 为 $V_\pi$，而 $V_\pi$ 只依赖于当前状态 $s_t$，所以可以用来作为 b。并且 $V_\pi$ 很接近 $Q_\pi$，可以降低方差加速收敛。

因为 $V_\pi(s_t)=\mathbb{E}[Q_\pi(s_t,A_t)]$，作为期望，V 很接近 Q。

14.4 Reinforce with Baseline

把 baseline 用于 Reinforce 算法上。

a. 基本概念

折扣回报：$U_t=R_t+\gamma\cdot R_{t+1}+\gamma^2\cdot R_{t+2}+...$
动作价值函数：$Q_\pi(s_t,a_t)=\mathbb{E}[U_t|s_t,a_t].$
状态价值函数：$V_\pi(s_t)=\mathbb{E}_A[Q_\pi(s_t,A)|s_t]$
应用 baseline 的策略梯度：使用的是上面第二种 baseline：

$\frac{\partial \ V_\pi(s_t)}{\partial \ \theta}=\mathbb{E}_{A_t\sim\pi}[g(A_t)]=\mathbb{E}_{A_t\sim\pi}[\frac{\partial ln \pi(A_t|s_t;\theta)}{\partial \theta}\cdot(Q_\pi(s_t,A_t)-V_\pi(s_t))]$
对动作进行抽样，用 $g(a_t)$ 做蒙特卡洛近似，为无偏估计（因为期望==策略梯度）：$a_t\sim\pi(\cdot|s_t;\theta)$

$g(a_t)$ 就叫做随机策略梯度，用随机抽取的动作对应的值来代替期望，是策略梯度的随即近似；这正是蒙特卡洛方法的应用。
- $g(a_t)=[\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot(Q_\pi(s_t,a_t)-b)]$

但上述公式中还是有不确定的项:$Q_\pi \ \ V_\pi$，继续近似：

用观测到的 $u_t$ 近似 $Q_\pi$，因为 $Q_\pi(s_t,a_t)=\mathbb{E}[U_t|s_t,a_t].$这也是一次蒙特卡洛近似。

这也是 Reinforce 算法的关键。
用神经网络-价值网络 $v(s;w)$ 近似 $V_\pi$；

所以最终近似出来的策略梯度 是：

\[\frac{\partial \ V_\pi(s_t)}{\partial \ \theta}\approx g(a_t)\approx\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot(u_t-v(s;w)) \]

当我们知道策略网络$\pi$、折扣回报$u_t$ 以及价值网络$v$，就可以计算这个策略梯度。

我们总计做了3次近似：

用一个抽样动作 $a_t$ 带入 $g(a_t)$ 来近似期望；
用回报 $u_t$ 近似动作价值函数$Q_\pi$；

1、2都是蒙特卡洛近似；
用神经网络近似状态价值函数$V_\pi$

函数近似。

b. 算法过程

我们需要建立一个策略网络和一个价值网络，后者辅助训练前者。

策略网络：

价值网络：

参数共享：

用 Reinforce 算法训练策略网络，用回归方法训练价值网络。

在一次训练中 agent 获得轨迹：$s_1,a_1,r_1,s_2,a_2,r_2,...$
计算 $u_t=\sum_{i=t}^n\gamma^{i-t}r^i$
更新策略网络
1. 得到策略梯度：$\frac{\partial \ V_\pi(s_t)}{\partial \ \theta}\approx\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot(u_t-v(s;w))$
2. 梯度上升，更新参数：$\theta\leftarrow \theta + \beta\cdot\frac{\partial\ln\pi(a_t|s_t;\theta)}{\partial\theta}\cdot(u_t-v(s_t;w))$
  
  记 $u_t-v(s_t;w)$ 为 $-\delta_t$
  
  $\theta\leftarrow \theta - \beta\cdot\frac{\partial\ln\pi(a_t|s_t;\theta)}{\partial\theta}\cdot \delta_t$
更新价值网络

回顾一下价值网络的目标：$V_\pi$ 是 $U_t$ 的期望，训练价值网络是让v接近期望 $V_\pi$
1. 用观测到的 $u_t$ 拟合 v，两者之间的误差记为
  
  prediction error:$\delta_t=v(s_t;w)-u_t$，
2. 求导得策略梯度: $\frac{\partial \delta^2/2}{\partial w}=\delta_t\cdot \frac{\partial v(s_t;w)}{\partial w}$
3. 梯度下降更新参数：$w\leftarrow w-\alpha\cdot\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$
如果轨迹的长度为n，可以对神经网络进行n次更新

14.5 A2C算法

a.基本概念

Advantage Actor Critic. 把 baseline 用于 Actor-Critic 上。

所以需要一个策略网络 actor 和一个价值网络 critic。但与第四篇笔记AC算法有所不同。

策略网络还是 $\pi(a|s;\theta)$，而价值网络是 $v(s;w)$，是对$V_\pi$ 的近似，而不是第四篇笔记中的 $Q_\pi$。

因为 V 不依赖于动作，而 Q 依赖动作和状态，故近似V 的方法可以引入 baseline。
A2C 网络结构：

与 14.4 中的结构相同，区别在于训练方法不同。

b. 训练过程

观察到一个 transition($s_t，a_t,r_t,s_{t+1}$)
计算 TD target：$y_t=r_t+\gamma\cdot v(s_{t+1};w)$
计算 TD error：$\delta_t=v(s_t;w)-y_t$
用策略网络梯度更新策略网络θ：$\theta\leftarrow \theta-\beta\cdot\delta_t\cdot\frac{\partial\ln\pi(a_t|s_t;\theta)}{\partial \theta}$

注意！这里的 $\delta_t$ 是前文中的 “$u_t-v(s_t;w)$ 为 $-\delta_t$”
用TD更新价值网络：$w\leftarrow w-\alpha\cdot\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$

c. 数学推导

A2C的基本过程就在上面，很简洁，下面进行数学推导。

1.价值函数的性质

$Q_\pi$
- TD算法推导时用到过这个式子：$Q_\pi(s_t,a_t)=\mathbb{E}_{S_{t+1},A_{t+1}}[R_t+\gamma\cdot Q_\pi(S_{t+1},A_{t+1})]$
- 随机性来自 $S_{t+1},A_{t+1}$，而对之求期望正好消掉了随机性，可以把对 $A_{t+1}$ 的期望放入括号内，$R_t$ 与 $A_{t+1}$ 无关，则有 定理一：
  
  $Q_\pi(s_t,a_t)= \mathbb{E}_{S_{t+1}}[R_t+\gamma\cdot \mathbb{E}_{A_{t+1}}[Q_\pi(S_{t+1},A_{t+1})]\\=\mathbb{E}_{S_{t+1}}[R_t+\gamma\cdot V_\pi(s_{t+1})]$
- 即：$Q_\pi(s_t,a_t)=\mathbb{E}_{S_{t+1}}[R_t+\gamma\cdot V_\pi(s_{t+1})]$
$V_\pi$
- 根据定义： $V_\pi(s_t)=\mathbb{E}[Q_\pi(s_t,A_t)]$
- 将 Q 用 定理一 替换掉：
  
  \[V_\pi(s_t)=\mathbb{E}_{A_t}\mathbb{E}_{S_{t+1}}[R_t+\gamma\cdot V_\pi(S_{t+1})]\\=\mathbb{E}_{A_t,S_{t+1}}[R_t+\gamma\cdot V_\pi(S_{t+1})] \]
- 这就是 定理二：$V_\pi(s_t)=\mathbb{E}_{A_t,S_{t+1}}[R_t+\gamma\cdot V_\pi(S_{t+1})]$

这样就将 Q 和 V 表示为期望的形式，A2C会用到这两个期望，期望不好求，我们是用蒙特卡洛来近似求期望：

观测到 transition($s_t,a_t,r_t,s_{t+1}$)
$Q_\pi$
- $Q_\pi(s_t,a_t)\approx r_t+\gamma\cdot V_\pi(s_{t+1})$
- 训练策略网络；
$V_\pi$
- $V_\pi(s_t)\approx r_t+\gamma\cdot V_\pi(s_{t+1})$
- 训练价值网络，这也是TD target 的来源；

2. 更新策略网络

即使用 baseline 的策略梯度算法。

$g(a_t)=[\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot(Q_\pi(s_t,a_t)-V_\pi(s_t))]$ 是策略梯度的蒙特卡洛近似。
前面Dueling Network提到过，$Q_\pi-V_\pi$是优势函数 Advantage Function.

这也是 A2C 的名字来源。
Q 和 V 都还不知道，需要做近似，14.5.c.1 中介绍了：
- $Q_\pi(s_t,a_t)\approx r_t+\gamma\cdot V_\pi(s_{t+1})$
- 所以是：$g(a_t)\approx\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot[(r_t+\gamma\cdot V_\pi(s_{t+1}))-V_\pi(s_t)]$
- 对 $V_\pi$ 进行函数近似 $v(s;w)$
- 则得最终：$g(a_t)\approx\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot[(r_t+\gamma\cdot v(s_{t+1;w}))-v(s_{t;w})]$
用上式更新策略网络。
而 $r_t+\gamma\cdot v(s_{t+1;w})$ 正是 TD target $y_t$
梯度上升更新参数：$\theta\leftarrow \theta-\beta\cdot\frac{\partial\ln\pi(a_t|s_t;\theta)}{\partial \theta}\cdot (y_t-v(s_t;w))$

这样的梯度上升更好。

因为以上式子中都有 V，所以需要近似计算 V：

$g(a_t)\approx\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot\underbrace{[(r_t+\gamma\cdot V_\pi(s_{t+1}))-V_\pi(s_t)]}_{evaluation \ made \ by \ the \ critic}$

3. 更新价值网络

采用 TD 算法更新价值网络，根据 14.5.b 有如下式子：

$V_\pi(s_t)\approx r_t+\gamma\cdot V_\pi(s_{t+1})$
对上式得 $V_\pi$ 做函数近似，替换为 $v(s_t;w),v(s_{t+1;w})$；
$v(s_t;w)\approx \underbrace{r_t+\gamma\cdot v(s_{t+1};w)}_{TD \ target \ y_t}$
训练价值网络就是要让 $v(s;w)$ 接近 $y_t$
- TD error: $\delta_t=v(s_t;w)-y_t$
- 梯度: $\frac{\partial\delta^2_t/2}{\partial w}=\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$
- 更新：$w\leftarrow w-\alpha\cdot\delta_t\cdot\frac{\partial v(s_t;w)}{\partial w}$

4. 有关的策略梯度

在A2C 算法中的策略梯度：$g(a_t)\approx\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\cdot[(r_t+\gamma\cdot v(s_{t+1;w}))-v(s_{t;w})]$

会有这么一个问题，后面这一项是由价值网络给出对策略网络选出的动作进行打分，那么为什么这一项中没有动作呢，没有动作怎么给动作打分呢？

注意这两项：
$(r_t+\gamma\cdot v(s_{t+1;w}))$ 是执行完 $a_t$ 后作出的预测
$v(s_t;w)$ 是未执行 $a_t$ 时作出的预测；
两者之差意味着动作 $a_t$ 对于 V 的影响程度
而在AC算法中，价值网络给策略网络的是 q，而在A2C算法中，价值网络给策略网络的就是上两式之差 advantage.

14.6 RwB 与A2C 的对比

两者的神经网络结构完全一样

不同的是价值网络
- RwB 的价值网络只作为 baseline，不评价策略网络，用于降低随机梯度造成的方差；
- A2C 的价值网络时critic，评价策略网络；
RwB 是 A2C 的特殊形式。这一点下面 14.7 后会讲。

14.7 A2C with m-step

单步 A2C 就是上面所讲的内容，具体请见 14.5.b。

而多步A2C就是使用 m 个连续 transition：

$y_t=\sum_{i=0}^{m-1}\gamma^i\cdot r_{t+1}+\gamma^m\cdot v(s_{t+m};w)$
具体参见m-step
剩下的步骤没有任何改变，只是 TD target 改变了。

下面解释 RwB 和 A2C with m-step 的关系：

A2C with m-step 的TD target：$y_t=\sum_{i=0}^{m-1}\gamma^i\cdot r_{t+1}+\gamma^m\cdot v(s_{t+m};w)$
如果使用所有的奖励，上面两项中的第二项（估计）就不存在，而第一项变成了
- $y_t=u_t=\sum_{i=t}^n \gamma^{i-t}\cdot r_i$
- 这就是 Reinforce with baseline.

x. 参考教程

视频课程：深度强化学习（全）_哔哩哔哩_bilibili
视频原地址：https://www.youtube.com/user/wsszju
课件地址：https://github.com/wangshusen/DeepLearning

Baseline 笔记 span inline class 人工智能

有关强化学习-学习笔记14 | 策略梯度中的 Baseline的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只
ruby-on-rails - active_admin 目录中的常量警告重新声明 - 2
我正在使用active_admin，我在Rails3应用程序的应用程序中有一个目录管理，其中包含模型和页面的声明。时不时地我也有一个类，当那个类有一个常量时，就像这样:classFooBAR="bar"end然后，我在每个必须在我的Rails应用程序中重新加载一些代码的请求中收到此警告:/Users/pupeno/helloworld/app/admin/billing.rb:12:warning:alreadyinitializedconstantBAR知道发生了什么以及如何避免这些警告吗？最佳答案在纯Ruby中:classA