值得信赖的区块链资讯!
比推数据  |  比推终端  |  比推英文  |  比推 APP  | 

下载比推 APP

值得信赖的区块链资讯!
iPhone
Android

让大模型分工读写:英伟达双塔架构 TwoTower 并联两座 30B 模型,无损换取 2.4 倍提速

比推消息,据监测,英伟达开源离散文本扩散架构 Nemotron-Labs-TwoTower,致力于解决大模型一次只蹦一个词的生成速度瓶颈。以往的文本扩散模型为了追求并行输出,强迫单个网络兼顾单向理解上下文与双向并行纠错,导致模型认知能力大幅衰退。TwoTower 采用双塔解耦设计:一方面完全冻结预训练好的自回归大模型作为只读上下文塔,以保留完整的推理和常识能力;另一方面单独训练一个去噪写字塔,在层级别通过交叉注意力读取上下文信息。写字塔采用置信度去掩码机制,在预测一个块时,优先写下高置信度词,再逐步填补剩余空白,实现由易到难的并行书写。在 30B 级别的混合架构(Mamba-Transformer MoE)模型上,这一设计仅用基线模型预训练 1/12 的数据量(2.1T 词元)进行适配,便保留了 98.7% 的质量,并将实际生成速度提升 2.42 倍,且没有增加多余的显存缓存开销。由于需要在内存中常驻双塔,模型的静态显存占用有所增加,且在极复杂的代码和数学推理中仍有微幅的精度退化。

说明: 比推所有文章只代表作者观点,不构成投资建议

比推快讯

更多 >>

下载比推 APP

24 小时追踪区块链行业资讯、热点头条、事实报道、深度洞察。

邮件订阅

金融科技决策者们都在看的区块链简报与深度分析,「比推」帮你划重点。