介绍一下我强化学习的工作:Simple Policy Optimization (SPO)
RealPLABOICaRTi:
我想了半天为什么会被推送 竟然是因为这个overleaf 模板
中二病没有蛀牙:
up之前是不是在智能体群!可惜群没了orz
呃呃呃13:
下次可以总体音量调高点,我音量调顶格了
XZF__:
学到了[吃瓜][吃瓜][吃瓜],厉害啊[星星眼][星星眼][星星眼]
PPO TRPO 策略优化 RLHF 强化学习 深度强化学习 DPO