草庐IT

episodes

全部标签

python - 为什么 episode 在 200 个时间步之后完成(Gym 环境 MountainCar)?

当在Python中使用来自OpenAI-gym的MountainCar-v0环境时,done的值将在200个时间步后为真。这是为什么?由于未达到目标状态,因此不应完成该剧集。importgymenv=gym.make('MountainCar-v0')env.reset()for_inrange(300):env.render()res=env.step(env.action_space.sample())print(_)print(res[2])我想运行step方法直到汽车到达标志,然后中断for循环。这可能吗?类似这样的东西:n_episodes=10done=Falseforii
12