美股英伟达黄仁勋芯片美光特朗普 AI AI Agent 伊朗预测市场 x402 BTC

让大模型分工读写：英伟达双塔架构 TwoTower 并联两座 30B 模型，无损换取 2.4 倍提速

比推消息，据监测，英伟达开源离散文本扩散架构 Nemotron-Labs-TwoTower，致力于解决大模型一次只蹦一个词的生成速度瓶颈。以往的文本扩散模型为了追求并行输出，强迫单个网络兼顾单向理解上下文与双向并行纠错，导致模型认知能力大幅衰退。TwoTower 采用双塔解耦设计：一方面完全冻结预训练好的自回归大模型作为只读上下文塔，以保留完整的推理和常识能力；另一方面单独训练一个去噪写字塔，在层级别通过交叉注意力读取上下文信息。写字塔采用置信度去掩码机制，在预测一个块时，优先写下高置信度词，再逐步填补剩余空白，实现由易到难的并行书写。在 30B 级别的混合架构（Mamba-Transformer MoE）模型上，这一设计仅用基线模型预训练 1/12 的数据量（2.1T 词元）进行适配，便保留了 98.7% 的质量，并将实际生成速度提升 2.42 倍，且没有增加多余的显存缓存开销。由于需要在内存中常驻双塔，模型的静态显存占用有所增加，且在极复杂的代码和数学推理中仍有微幅的精度退化。