“推进”的结果

深度强化学习通常是怎么解决带约束的优化问题的?

深度强化学习通常是怎么解决带约束的优化问题的?约束条件体现在哪里,是要把有约束的优化问题转化成无约束的吗?违反约束加一个惩罚就行了一个优化问题不可能没有约束。个人理解,对于约束,要么通过奖赏函数来设定...

佚名 2024-04-22 72次浏览



平台注册入口