1包介绍 torch.distributions包包含可参数化的概率分布和采样函数。这允许构建用于优化的随机计算图和随机梯度估计器。 不可能通过随机样本直接反向传播。但是,有两种主要方法可以创建可以反向传播的代理函数。这些是评分函数估计量scorefunctionestimato似然比估计量likelihoodratioestimatorREINFORCE路径导数估计量pathwisederivativeestimatorREINFORCE通常被视为强化学习中策略梯度方法的基础,路径导数估计器常见于变分自编码器的重新参数化技巧中。 虽然评分函数只需要样
1包介绍 torch.distributions包包含可参数化的概率分布和采样函数。这允许构建用于优化的随机计算图和随机梯度估计器。 不可能通过随机样本直接反向传播。但是,有两种主要方法可以创建可以反向传播的代理函数。这些是评分函数估计量scorefunctionestimato似然比估计量likelihoodratioestimatorREINFORCE路径导数估计量pathwisederivativeestimatorREINFORCE通常被视为强化学习中策略梯度方法的基础,路径导数估计器常见于变分自编码器的重新参数化技巧中。 虽然评分函数只需要样