蚂蚁开源 AEnvironment,面向 Agentic RL 的统一环境平台 蚂蚁集团百灵大模型团队正式开源AEnvironment——一个专为AgenticRL时代打造的统一环境平台,秉持“万物皆可为环境(EverythingasEnvironment)”的核心理念。该平台基... 奈飞网 2025-12-18 5 #rl
Xiaomi MiMO 大模型负责人罗福莉:MiMo-V2-Flash 是 AGI 路线图中的第二步 今日上午,在小米2025人车家全生态合作伙伴大会上,XiaomiMiMO大模型团队负责人罗福莉完成加盟小米后的首次公开亮相,并正式推出并开源全新MoE架构大模型——MiMo-V2-Flash。罗福莉随... 奈飞网 2025-12-17 5 #rl #罗福 #mimo
开源强化学习框架 AReaL v0.5.0 发布,新增解耦式 Agentic RL AReaL是一款专注于算法创新、以开发效率与高度灵活性为设计核心的强化学习框架,由蚂蚁集团百灵大模型团队开源推出。它凭借极简化的接口设计与模块化可插拔的扩展机制,显著降低了用户的学习门槛与使用复杂度,... 奈飞网 2025-12-16 6 #rl #强化学习 #机器学习 #框架
从繁杂技巧到极简方案:阿里 ROLL 团队带来 RL4LLM 新实践 本研究由阿里巴巴未来生活实验室与智能引擎事业部联合完成,核心作者刘子贺,刘嘉顺,贺彦程和王维埙等。未来生活实验室专注于大模型、多模态等前沿AI方向,致力于打造基础算法、模型能力及各类AINative应... 奈飞网 2025-12-13 6 #归一化 #rl
Meta 推出 DreamGym 框架,低成本高效训练 AI 代理 Meta公司联合芝加哥大学与加州大学伯克利分校的研究团队推出了一种全新的训练框架——DreamGym,专注于应对在利用强化学习(RL)训练大型语言模型(LLM)代理过程中遇到的高开销、基础设施复杂以及... 奈飞网 2025-11-21 3 #rl #框架