OpenAI Gym 经典控制环境介绍——CartPole（倒立摆）

思绪无限 2023-04-16 原文

摘要：OpenAI Gym是一款用于研发和比较强化学习算法的工具包，本文主要介绍Gym仿真环境的功能和工具包的使用方法，并详细介绍其中的经典控制问题中的倒立摆（CartPole-v0/1）问题。最后针对倒立摆问题如何建立控制模型并采用爬山算法优化进行了介绍，并给出了相应的完整python代码示例和解释。要点如下：

1. 前言

自从AlphaGo的横空出世之后，整个工业界都为之振奋，也确定了强化学习在人工智能领域的重要地位，越来越多的人加入到强化学习的研究和学习中。强化学习(Reinforcement learning, RL)是机器学习的一个子领域，在智能控制机器人及分析预测等领域有许多应用。强化学习通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，最终开发出智能体(Agent)做出决策和控制。

OpenAI Gym是一个研究和比较强化学习相关算法的开源工具包，包含了许多经典的仿真环境和各种数据。目前强化学习的研究面临着使用的环境缺乏标准化的问题，这个问题使得很难复制已发表的研究结果以及比较不同论文的结果，个人认为Gym正好为这一问题提供了很好的解决方案。因此非常有必要学习一下Gym这一快捷工具包，经过一段时间对深度强化学习的研究和学习，我这里将前期所学做一个整理和总结。

2. OpenAI Gym仿真环境介绍

Gym是一个研究和开发强化学习相关算法的仿真平台，无需智能体先验知识，并兼容常见的数值运算库如 TensorFlow、Theano等。OpenAI Gym由以下两部分组成：

Gym开源库：测试问题的集合。当你测试强化学习的时候，测试问题就是环境，比如机器人玩游戏，环境的集合就是游戏的画面。这些环境有一个公共的接口，允许用户设计通用的算法。

OpenAI Gym服务：提供一个站点和API（比如经典控制问题：CartPole-v0），允许用户对他们的测试结果进行比较。

简单来说OpenAI Gym提供了许多问题和环境（或游戏）的接口，而用户无需过多了解游戏的内部实现，通过简单地调用就可以用来测试和仿真。接下来以经典控制问题CartPole-v0为例，简单了解一下Gym的特点，以下代码来自OpenAI Gym官方文档

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
    env.render()
    env.step(env.action_space.sample()) # take a random action
env.close()

运行效果如下：

以上代码中可以看出，gym的核心接口是Env。作为统一的环境接口，Env包含下面几个核心方法：

reset(self)：重置环境的状态，返回观察。

step(self, action)：推进一个时间步长，返回observation, reward, done, info。

render(self, mode='human', close=False)：重绘环境的一帧。默认模式一般比较友好，如弹出一个窗口。

close(self)：关闭环境，并清除内存。

以上代码首先导入gym库，第2行创建CartPole-v0环境，并在第3行重置环境状态。在for循环中进行1000个时间步长(timestep)的控制，第5行刷新每个时间步长环境画面，第6行对当前环境状态采取一个随机动作（0或1），最后第7行循环结束后关闭仿真环境。

2.1 观测(Observations)

在上面代码中使用了env.step()函数来对每一步进行仿真，在Gym中，env.step()会返回 4 个参数：

观测 Observation (Object)：当前step执行后，环境的观测(类型为对象)。例如，从相机获取的像素点，机器人各个关节的角度或棋盘游戏当前的状态等；
奖励 Reward (Float): 执行上一步动作(action)后，智能体( agent)获得的奖励(浮点类型)，不同的环境中奖励值变化范围也不相同，但是强化学习的目标就是使得总奖励值最大；
完成 Done (Boolen): 表示是否需要将环境重置 env.reset。大多数情况下，当 Done 为True 时，就表明当前回合(episode)或者试验(tial)结束。例如当机器人摔倒或者掉出台面，就应当终止当前回合进行重置(reset);
信息 Info (Dict): 针对调试过程的诊断信息。在标准的智体仿真评估当中不会使用到这个info，具体用到的时候再说。

总结来说，这就是一个强化学习的基本流程，即"agent-environment loop"，在每个时间点上，智能体（可以认为是你写的算法）选择一个动作（action），环境返回上一次action的观测（Observation）和奖励（Reward），用图表示为

在 Gym 仿真中，每一次回合开始，需要先执行 reset() 函数，返回初始观测信息，然后根据标志位 done 的状态，来决定是否进行下一次回合。所以更恰当的方法是遵守done的标志，同样我们可以参考OpenAI Gym官方文档中的代码如下

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break
env.close()

当done 为真时，控制失败，此阶段episode 结束。可以计算每 episode 的回报就是其坚持的t+1时间，坚持的越久回报越大，在上面算法中，agent 的行为选择是随机的，平均回报为20左右。

2.2 空间（Spaces）

在前面的两个小例子中，每次执行的动作(action)都是从环境动作空间中随机进行选取的，但是这些动作 (action) 是什么?在 Gym 的仿真环境中，有运动空间 action_space 和观测空间observation_space 两个指标，程序中被定义为 Space类型，用于描述有效的运动和观测的格式和范围。下面是一个代码示例：

import gym
env = gym.make('CartPole-v0')
print(env.action_space)
#> Discrete(2)
print(env.observation_space)
#> Box(4,)

从程序运行结果可以看出：

action_space 是一个离散Discrete类型，从discrete.py源码可知，范围是一个{0,1,...,n-1} 长度为 n 的非负整数集合，在CartPole-v0例子中，动作空间表示为{0,1}。
observation_space 是一个Box类型，从box.py源码可知，表示一个 n 维的盒子，所以在上一节打印出来的observation是一个长度为 4 的数组。数组中的每个元素都具有上下界。

print(env.observation_space.high)
print(env.observation_space.low)
[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38]
[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38]

利用运动空间和观测空间的定义和范围，可以将代码写得更加通用。在许多仿真环境中，Box和Discrete是最常见的空间描述，在智体每次执行动作时，都属于这些空间范围内，代码示例为：

from gym import spaces
space = spaces.Discrete(8) 
# Set with 8 elements {0, 1, 2, ..., 7}
x = space.sample()
print(space.contains(x)) 
print(space.n == 8)
True
True

在CartPole-v0栗子中，运动只能选择左和右，分别用{0,1}表示。

2.3 OpenAI Gym中可用的环境

Gym中从简单到复杂，包含了许多经典的仿真环境和各种数据，其中包括：

经典控制和文字游戏：经典的强化学习示例，方便入门；
算法：从例子中学习强化学习的相关算法，在Gym的仿真算法中，由易到难方便新手入坑；
雅达利游戏：利用强化学习来玩雅达利的游戏。Gym中集成了对强化学习有着重要影响的Arcade Learning Environment，并且方便用户安装；
2D和3D的机器人：这个是我一直很感兴趣的一部分，在Gym中控制机器人进行仿真。需要利用第三方的物理引擎如 MuJoCo。

2.4 注册表

Gym是一个包含各种各样强化学习仿真环境的大集合，并且封装成通用的接口暴露给用户，查看所有环境的代码如下

from gym import envs
print(envs.registry.all())
#> [EnvSpec(DoubleDunk-v0), EnvSpec(InvertedDoublePendulum-v0), EnvSpec(BeamRider-v0), EnvSpec(Phoenix-ram-v0), EnvSpec(Asterix-v0), EnvSpec(TimePilot-v0), EnvSpec(Alien-v0), EnvSpec(Robotank-ram-v0), EnvSpec(CartPole-v0), EnvSpec(Berzerk-v0), EnvSpec(Berzerk-ram-v0), EnvSpec(Gopher-ram-v0), ...

Gym支持将用户制作的环境写入到注册表中，需要执行 gym.make()和在启动时注册register，具体可参考这篇博客：gym介绍。同时我们可以通过写入新的注册表实现对环境中的某些参数设置进行修改，例如

form gym.envs.registration import register
register(
    id='CartPole-v2',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=200*4,
    reward_threshold=195.0*4,
)
env = gym.make('CartPole-v2')

2.5 OpenAI Gym评估平台

用户可以记录和上传算法在环境中的表现或者上传自己模型的Gist，生成评估报告，还能录制模型玩游戏的小视频。在每个环境下都有一个排行榜，用来比较大家的模型表现。详细介绍可以参考这篇博文：OpenAI Gym评估平台、OpenAI教程，当然更加准确的表述还是应该参考OpenAI Gym官方文档。

3. CartPole-v0/1原理与功能

在CartPole-v0的环境中，实际参考了论文：AG Barto, RS Sutton and CW Anderson, "Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problem", IEEE Transactions on Systems, Man, and Cybernetics, 1983.中的倒立摆控制问题。

Cart Pole即车杆游戏，游戏模型如下图所示。游戏里面有一个小车，上有竖着一根杆子，每次重置后的初始状态会有所不同。小车需要左右移动来保持杆子竖直，为了保证游戏继续进行需要满足以下两个条件：

杆子倾斜的角度$\theta$不能大于15°
小车移动的位置$x$需保持在一定范围（中间到两边各2.4个单位长度）

动作（action）：

左移（0）
右移（1）

状态变量（state variables）：

$x$：小车在轨道上的位置（position of the cart on the track）
$\theta$：杆子与竖直方向的夹角（angle of the pole with the vertical）
$\dot{x}$：小车速度（cart velocity）
$\dot{\theta }$：角度变化率（rate of change of the angle）

import gym
env = gym.make('CartPole-v0')
observation = env.reset()
print(observation)
#> [-0.00478028 -0.02917182  0.00313288  0.03160127]

以上代码显示了初始状态下的取值，每次调用env.reset( )将重新产生一个初始状态。打印出的observation的四个元素分别表示了小车位置、小车速度、杆子夹角及角变化率。

游戏奖励（reward）：

在gym的Cart Pole环境（env）里面，左移或者右移小车的action之后，env会返回一个+1的reward。其中CartPole-v0中到达200个reward之后，游戏也会结束，而CartPole-v1中则为500。最大奖励（reward）阈值可通过前面介绍的注册表进行修改。

4. 爬山算法解决倒立摆问题

为了能够有效控制倒立摆首先应建立一个控制模型。明显的，这个控制模型的输入应该是当前倒立摆的状态（observation）而输出为对当前状态做出的决策动作（action）。从前面的知识我们了解到决定倒立摆状态的observation是一个四维向量，包含小车位置（$x$）、杆子夹角（$\theta$）、小车速度（$\dot{x}$）及角变化率（$\dot{\theta }$），如果对这个向量求它的加权和，那么就可以根据加权和值的符号来决定采取的动作（action），用sigmoid函数将这个问题转化为二分类问题，从而可以建立一个简单的控制模型。其模型如下图所示：

上图的实际功能与神经网络有几分相似，但比神经网络要简单得多。通过加入四个权值，我们可以通过改变权重值来改变决策（policy），即有加权和$H_{sum}=\omega _{1}x+\omega _{2}\theta +\omega _{3}\dot{x}+\omega _{4}\dot{\theta}+b$，若$H_{sum}$的符号为正判定输出为1，否则为0。为了得到一组较好的权值从而有效控制倒立摆，我们可以采用爬山算法（hill climbing algorithm）进行学习优化。爬山算法是一种启发式方法，是对深度优先搜索的一种改进，它利用反馈信息帮助生成解的决策。

爬山算法的基本思路是每次迭代时给当前取得的最优权重加上一组随机值，如果加上这组值使得有效控制倒立摆的持续时间变长了那么就更新它为最优权重，如果没有得到改善就保持原来的值不变，直到迭代结束。在迭代过程中，模型的参数不断得到优化，最终得到一组最优的权值作为控制模型的解。其代码如下：

# coding: utf8

import numpy as np
import gym
import time

def get_action(weights, observation):# 根据权值对当前状态做出决策
    wxb = np.dot(weights[:4], observation) + weights[4] # 计算加权和
    if wxb >= 0:# 加权和大于0时选取动作1，否则选取0
        return 1
    else:
        return 0

def get_sum_reward_by_weights(env, weights):
# 测试不同权值的控制模型有效控制的持续时间（或奖励）
    observation = env.reset() # 重置初始状态
    sum_reward = 0 # 记录总的奖励
    for t in range(1000):
        # time.sleep(0.01)
        # env.render()
        action = get_action(weights, observation) # 获取当前权值下的决策动作
        observation, reward, done, info = env.step(action)# 执行动作并获取这一动作下的下一时间步长状态
        sum_reward += reward
        # print(sum_reward, action, observation, reward, done, info)
        if done:# 如若游戏结束，返回
            break
    return sum_reward


def get_weights_by_random_guess():
# 选取随机猜测的5个随机权值
    return np.random.rand(5)

def get_weights_by_hill_climbing(best_weights):
# 通过爬山算法选取权值（在当前最好权值上加入随机值）
    return best_weights + np.random.normal(0, 0.1, 5)

def get_best_result(algo="random_guess"):
    env = gym.make("CartPole-v0")
    np.random.seed(10)
    best_reward = 0 # 初始最佳奖励
    best_weights = np.random.rand(5) # 初始权值为随机取值

    for iter in range(10000):# 迭代10000次
        cur_weights = None

        if algo == "hill_climbing": # 选取动作决策的算法 
            # print(best_weights)
            cur_weights = get_weights_by_hill_climbing(best_weights)
        else: # 若为随机猜测算法，则选取随机权值
            cur_weights = get_weights_by_random_guess()
		# 获取当前权值的模型控制的奖励和
        cur_sum_reward = get_sum_reward_by_weights(env, cur_weights)

        # print(cur_sum_reward, cur_weights)
		# 更新当前最优权值
        if cur_sum_reward > best_reward:
            best_reward = cur_sum_reward
            best_weights = cur_weights
		# 达到最佳奖励阈值后结束
        if best_reward >= 200:
            break

    print(iter, best_reward, best_weights)
    return best_reward, best_weights

# 程序从这里开始执行
print(get_best_result("hill_climbing")) # 调用爬山算法寻优并输出结果 

# env = gym.make("CartPole-v0")
# get_sum_reward_by_weights(env, [0.22479665, 0.19806286, 0.76053071, 0.16911084, 0.08833981])

爬山算法本质是一种局部择优的方法，效率高但因为不是全局搜索，所以结果可能不是最优。在这里采用的模型较为简单，如若想要获得更好的学习效果可以考虑更加复杂的模型，如深度神经网络。

5. 结束语

可以看到网上有很多通过深度Q学习算法解决倒立摆问题的文章，DQN确实不失为一种较好的解决方法，不过作为强化学习的基础部分这里就总结这么多了，关于DQN后面也会具体总结介绍。

由于博主能力有限，博文中提及的方法与代码即使经过测试，也难免会有疏漏之处。希望您能热心指出其中的错误，以便下次修改时能以一个更完美更严谨的样子，呈现在大家面前。同时如果有更好的实现方法也请您不吝赐教。

mdash 倒立 font face size Python

有关OpenAI Gym 经典控制环境介绍——CartPole（倒立摆）的更多相关文章

Ruby Readline 在向上箭头上使控制台崩溃 - 2
当我在Rails控制台中按向上或向左箭头时，出现此错误:irb(main):001:0>/Users/me/.rvm/gems/ruby-2.0.0-p247/gems/rb-readline-0.4.2/lib/rbreadline.rb:4269:in`blockin_rl_dispatch_subseq':invalidbytesequenceinUTF-8(ArgumentError)我使用rvm来管理我的ruby安装。我正在使用=>ruby-2.0.0-p247[x86_64]我使用bundle来管理我的gem，并且我有rb-readline(0.4.2)(人们推荐的最少
ruby-on-rails - 带 Spring 锁的 Rails 4 控制台 - 2
我正在使用Ruby2.1.1和Rails4.1.0.rc1。当执行railsc时，它被锁定了。使用Ctrl-C停止，我得到以下错误日志:~/.rvm/gems/ruby-2.1.1/gems/spring-1.1.2/lib/spring/client/run.rb:47:in`gets':Interruptfrom~/.rvm/gems/ruby-2.1.1/gems/spring-1.1.2/lib/spring/client/run.rb:47:in`verify_server_version'from~/.rvm/gems/ruby-2.1.1/gems/spring-1.1.
ruby-on-rails - openshift 上的 rails 控制台 - 2
我将我的Rails应用程序部署到OpenShift，它运行良好，但我无法在生产服务器上运行“Rails控制台”。它给了我这个错误。我该如何解决这个问题？我尝试更新rubygems，但它也给出了权限被拒绝的错误，我也无法做到。railsc错误:Warning:You'reusingRubygems1.8.24withSpring.UpgradetoatleastRubygems2.1.0andrun`gempristine--all`forbetterstartupperformance./opt/rh/ruby193/root/usr/share/rubygems/rubygems
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
Vscode+Cmake配置并运行opencv环境(Windows和Ubuntu大同小异) - 2
之前在培训新生的时候，windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表，但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题)，加之暑假之后对cmake实在是爱不释手，且这样配置确实十分简单(其实都不需要配置)，故斗胆妄言vscode下配置CV之法。其实极为简单，图比较多所以很长。如果你看此文还配不好，你应该思考一下是不是自己的问题。闲话少说，直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么，我不说是谁。CMake是一个开源免费并且跨平台的构建工具，可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来
C51单片机——实现用独立按键控制LED亮灭（调用函数篇） - 2
说在前面这部分我本来是合为一篇来写的，因为目的是一样的，都是通过独立按键来控制LED闪灭本质上是起到开关的作用，即调用函数和中断函数。但是写一篇太累了，我还是决定分为两篇写，这篇是调用函数篇。在本篇中你主要看到这些东西！！！1.调用函数的方法（主要讲语法和格式）2.独立按键如何控制LED亮灭3.程序中的一些细节（软件消抖等）1.调用函数的方法思路还是比较清晰地，就是通过按下按键来控制LED闪灭，即每按下一次，LED取反一次。重要的是，把按键与LED联系在一起。我打算用K1来作为开关，看了一下开发板原理图，K1连接的是单片机的P31口，当按下K1时，P31是与GND相连的，也就是说，当我按下去时
Hive SQL 五大经典面试题 - 2
目录第1题连续问题分析：解法：第2题分组问题分析：解法：第3题间隔连续问题分析：解法：第4题打折日期交叉问题分析：解法：第5题同时在线问题分析：解法：第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析：遇到这类
ruby-on-rails - ruby gem如何在rails环境下工作 - 2
我试图在rails中了解rubygems是如何变得可以自动使用的，而不是在使用required的文件中gem？最佳答案这是通过bundler/setup完成的:http://bundler.io/v1.3/bundler_setup.html.它在您的config/boot.rb文件中是必需的。简而言之，它首先将环境变量设置为指向您的Gemfile:ENV['BUNDLE_GEMFILE']||=File.expand_path('../../Gemfile',__FILE__)然后它通过要求bundler/setup将所有ge