
蚂蚁与清华开源强化学习框架AReaL-boba,数学推理能力达SOTA水平
3月31日,蚂蚁集团与清华大学联合推出开源强化学习训练框架AReaL-boba,研发团队采用该框架训练出数学推理能力达到业内领先水平(State-of-the-Art,SOTA)的7B推理模型,并以极低成本实现了32B推理大模型的高效复现。...
3月31日,蚂蚁集团与清华大学联合推出开源强化学习训练框架AReaL-boba,研发团队采用该框架训练出数学推理能力达到业内领先水平(State-of-the-Art,SOTA)的7B推理模型,并以极低成本实现了32B推理大模型的高效复现。...