优化论文模型


loss 为零

  • reward 的定义,不要将每次的reward简单定义为 0 或者 1
  • 增加dropout层
  • 减少深度学习网络的神经元的个数

文章作者: 田山
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 田山 !
  目录