Actor-Critic是价值学习和策略学习的结合。Actor是策略网络,用来控制agent运动,可以看做是运动员。Critic是价值网络,用来给动作打分,像是裁判。4.Actor-Critic4.1价值网络与策略网络构建a.原理介绍状态价值函数:$V_\pi(s)=\sum_{{a}}\pi({a}|{s})\cdotQ_\pi({s},{a})$(离散情况,如果是连续的需要换成定积分)V是动作价值函数\(Q_\pi\)的期望,\(\pi({s}|{a})\)策略函数控制agent做运动,\(Q_\pi({s},{a})\)价值函数评价动作好坏。但是上述这两个函数我们都不知道,但是可以分别用
Actor-Critic是价值学习和策略学习的结合。Actor是策略网络,用来控制agent运动,可以看做是运动员。Critic是价值网络,用来给动作打分,像是裁判。4.Actor-Critic4.1价值网络与策略网络构建a.原理介绍状态价值函数:$V_\pi(s)=\sum_{{a}}\pi({a}|{s})\cdotQ_\pi({s},{a})$(离散情况,如果是连续的需要换成定积分)V是动作价值函数\(Q_\pi\)的期望,\(\pi({s}|{a})\)策略函数控制agent做运动,\(Q_\pi({s},{a})\)价值函数评价动作好坏。但是上述这两个函数我们都不知道,但是可以分别用
首先说明一下关于UE4中一些对象的名字前缀吧,虽然这个不是这一关于Actor的内容,但是后续都要用到,所以就先说明白。关于Class类前缀:派生自 Actor 的类前缀为A,比如AController。派生自 Object 的类前缀为U,比如UComponent。派生自 SWidget(SlateUI)的类前缀为S,比如SButton Enums 的前缀为E,比如EFortificationType。Interface 类的前缀通常为I,比如IAbilitySystemInterface。Template 类的前缀为T,比如TArray。其余类的前缀均为字母F,比如FVector。--好了,现
首先说明一下关于UE4中一些对象的名字前缀吧,虽然这个不是这一关于Actor的内容,但是后续都要用到,所以就先说明白。关于Class类前缀:派生自 Actor 的类前缀为A,比如AController。派生自 Object 的类前缀为U,比如UComponent。派生自 SWidget(SlateUI)的类前缀为S,比如SButton Enums 的前缀为E,比如EFortificationType。Interface 类的前缀通常为I,比如IAbilitySystemInterface。Template 类的前缀为T,比如TArray。其余类的前缀均为字母F,比如FVector。--好了,现