从模型预测控制到强化学习-5：Q-learning（通透梳理版）

作者: 内燃机与车辆智能控制分类: 校园学习发布时间: 2024-04-23 22:59:18 浏览:3039 次

早上没吃:
最后一张PPT手推Q表过程中，reward的设计是有问题的，因为reward竟然只与status有关，与action无关。如果这样，从0.6出发，action采取-0.2，0，0.2没有区别，都是-0.16

【回复】回复 @内燃机与车辆智能控制 :也可以仿真一下reward=△y=y(xt)-y(xt+1)
【回复】回复 @早上没吃 : 过两天仿真一下。我理解reward本身是相对的，大家都加某个常数，相当于没有加。
【回复】回复 @早上没吃 : 你想用的delta_y是谁减谁呢？
早上没吃:
找抛物线顶点代码中的一回合终止条件是不是有问题？最优点是x=1是未知的，不能直接跟1比较来判定终止。终止条件应该设为Q查Q表发现最优action为0时该回合终止

【回复】最优点是x=1是未知的，不能直接跟1比较来判定终止。终止条件应该设为Q查Q表发现最优action为0时该回合终止 --- 你指出这个点是有道理的，跟1比是欠妥的。
qiu_5:
老师🧑‍🏫，真好，真棒👍，很少有这样负责的老师🧑‍🏫了，致敬🫡。

ClarityVoidAnn:
请问如果系统的状态x维数较多，且系统只有非线性部分未知还适合用qlearning-mpc吗？

【回复】谢谢您。个人认为，如果用表格的形式做Q function的记录，可能会不太方便了。用网络代替表格，应该是更好的选择。最优控制和强化学习，是求解HJB的2种不同的技术路线，当然两者也可以结合。具体哪个更适合，可能还要更具体的问题做更具体的分析。

学习人工智能 bellman方程 MPC 机器学习强化学习 Q-learning

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！