从模型预测控制到强化学习-5:Q-learning(通透梳理版)
早上没吃:
最后一张PPT手推Q表过程中,reward的设计是有问题的,因为reward竟然只与status有关,与action无关。如果这样,从0.6出发,action采取-0.2,0,0.2没有区别,都是-0.16
【回复】回复 @内燃机与车辆智能控制 :也可以仿真一下reward=△y=y(xt)-y(xt+1)
【回复】回复 @早上没吃 : 过两天仿真一下。我理解reward本身是相对的,大家都加某个常数,相当于没有加。
【回复】回复 @早上没吃 : 你想用的delta_y是谁减谁呢?
早上没吃:
找抛物线顶点代码中的一回合终止条件是不是有问题?最优点是x=1是未知的,不能直接跟1比较来判定终止。终止条件应该设为Q查Q表发现最优action为0时该回合终止
【回复】最优点是x=1是未知的,不能直接跟1比较来判定终止。终止条件应该设为Q查Q表发现最优action为0时该回合终止 --- 你指出这个点是有道理的,跟1比是欠妥的。
qiu_5:
老师🧑🏫,真好,真棒👍,很少有这样负责的老师🧑🏫了,致敬🫡。
ClarityVoidAnn:
请问如果系统的状态x维数较多,且系统只有非线性部分未知还适合用qlearning-mpc吗?
【回复】谢谢您。个人认为,如果用表格的形式做Q function的记录,可能会不太方便了。用网络代替表格,应该是更好的选择。最优控制和强化学习,是求解HJB的2种不同的技术路线,当然两者也可以结合。具体哪个更适合,可能还要更具体的问题做更具体的分析。
学习 人工智能 bellman方程 MPC 机器学习 强化学习 Q-learning