从模型预测控制到强化学习-5:Q-learning(通透梳理版)

作者: 内燃机与车辆智能控制分类: 校园学习 发布时间: 2024-04-23 22:59:18 浏览:3039 次

从模型预测控制到强化学习-5:Q-learning(通透梳理版)

早上没吃:
最后一张PPT手推Q表过程中,reward的设计是有问题的,因为reward竟然只与status有关,与action无关。如果这样,从0.6出发,action采取-0.2,0,0.2没有区别,都是-0.16

【回复】回复 @内燃机与车辆智能控制 :也可以仿真一下reward=△y=y(xt)-y(xt+1)
【回复】回复 @早上没吃 : 过两天仿真一下。我理解reward本身是相对的,大家都加某个常数,相当于没有加。
【回复】回复 @早上没吃 : 你想用的delta_y是谁减谁呢?
早上没吃:
找抛物线顶点代码中的一回合终止条件是不是有问题?最优点是x=1是未知的,不能直接跟1比较来判定终止。终止条件应该设为Q查Q表发现最优action为0时该回合终止

【回复】最优点是x=1是未知的,不能直接跟1比较来判定终止。终止条件应该设为Q查Q表发现最优action为0时该回合终止 --- 你指出这个点是有道理的,跟1比是欠妥的。
qiu_5:
老师🧑‍🏫,真好,真棒👍,很少有这样负责的老师🧑‍🏫了,致敬🫡。

ClarityVoidAnn:
请问如果系统的状态x维数较多,且系统只有非线性部分未知还适合用qlearning-mpc吗?

【回复】谢谢您。个人认为,如果用表格的形式做Q function的记录,可能会不太方便了。用网络代替表格,应该是更好的选择。最优控制和强化学习,是求解HJB的2种不同的技术路线,当然两者也可以结合。具体哪个更适合,可能还要更具体的问题做更具体的分析。

学习 人工智能 bellman方程 MPC 机器学习 强化学习 Q-learning

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

更多相关阅读