特朗普 AI AI Agent 伊朗预测市场 x402 BTC 牛市币股代币化股票山寨币稳定币

大模型实现小时级自我进化，开源 SkyRL 并发训练栈带来 2.8 倍效率跃升

比推消息，据监测，Trajectory 联合 UC 伯克利 Sky Computing Lab、Anyscale 宣布推出开源多 LoRA 强化学习训练平台 SkyRL，并发布支持大模型持续学习的并发训练架构 Multi-LoRA Training。在传统的大模型微调实验中，为了测试不同的训练策略，开发者必须为每个微调任务单独调度 GPU 节点，在服务器上频繁加载和卸载同一个巨型大模型。例如训练一个拥有 3970 亿参数的巨型大模型，传统模式需要多组算力节点来回载入几百 GB 的权重文件，造成了计算时间与算力资源的极大浪费。Multi-LoRA 架构彻底告别了反复冷启动的困境。系统选择在 GPU 显存中常驻一个在线运行的共享模型底座，并将多个不同的微调实验作为轻量级适配器模块统一管理。在训练阶段，系统通过在 CPU 与 GPU 之间快速换入和换出（Swap-in/Swap-out）各个适配器的状态来串行执行前向与反向传播，省去了重复加载巨型底座模型的冷启动开销。结合推理阶段的并发处理，多任务的整体实验吞吐量得到大幅提升。测试数据显示，在保证大模型性能没有衰退的前提下，端到端实验吞吐量最高提升了 2.81 倍，单节点绝对时间内的吞吐量则提升了约 3.25 倍。目前，训练代码已在 SkyRL 仓库中开源，旨在帮助开发者以极低显存成本让大模型通过实时生产数据完成小时级自我进化。