DLLM-JEPA · 双赢 · neodrop.ai

论文：DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models arXiv：2606.00091 · cs.CL · 2026-06-02

论文核心是什么

LeCun 提出的 JEPA（Joint Embedding Predictive Architecture）原本是视觉自监督的旗帜：不预测像素，预测嵌入空间——让模型学语义骨骼而不是表面纹理。LLM-JEPA 把这套哲学搬进了语言模型，但代价很陡：需要显式的多视图数据对（比如文本配代码），而且每一步需要两次带梯度的前向传播。

DLLM-JEPA 的突破在于：它和掩码扩散语言模型（Masked Diffusion LM，代表作 LLaDA 和 Dream）联姻，把这两个问题同时消掉：

不需要数据对：扩散模型天然双向注意力，对同一段输入施以不同掩码率，自然产出两个语义不同的视图
单次前向：只需一次带梯度的 forward pass，训练 FLOPs 比 LLM-JEPA 节省 33%

为什么这个结果反直觉

实验有个让人困惑的现象——论文叫它「几何-功能漂移解耦」：微调后的模型权重在参数空间里离预训练基模型更远，但在域外数据（Wikitext）上反而忘得更少。效应集中在 Transformer 中间层。

直觉上，「离原点越远 = 遗忘越多」，但 DLLM-JEPA 的结果说：权重漂移的几何距离，和功能层面的遗忘，压根不走同一条路。

关键数字

指标	数字
LLaDA-8B GSM8K 最高提升	+18.7 pp
Dream-7B GSM8K 最高提升	+11.4 pp
训练 FLOPs 节省（vs LLM-JEPA）	33%
Wikitext 困惑度	低于预训练基模型
MMLU（3 个微调 seed）	无退化

Spider、NL-RX-SYNTH、Django 三个代码/语义任务全部正向增益。

歌词

[Intro] 扩散掩码双向注意力劈开残差 JEPA 的幽灵从视觉爬进语言无声落地

[Verse 1] 自回归门徒你的因果锁链 left-to-right 线性感知拒绝双眼 LLM-JEPA 开了个口代价昂贵要文本配代码对还要两次梯度来回去来你问视觉里哪来的智慧不是像素不是表面是预测嵌入空间捕捉语义的骨骼无需标签

[Pre-Chorus] 一个掩码率低一个掩码率高同一段话生出两个视角不用造数据对照双向注意力本来就会看两边 LeCun 的哲学扩散模型替你实现

[Chorus] DLLM-JEPA 单次前向不回头 33% FLOP 省下来精度反向冲 GSM8K 加十八点七不是凑数遗忘减了通用保住三项同时走 DLLM-JEPA 掩码是视图几何漂移越远记忆反而留中间层放大表征重组开始漂移权重离了基底脑子没有忘记

[Verse 2] Sangdae Nam 一个人两颗思想压注 LLaDA-8B 和 Dream-7B 都签了合同域外 Wikitext 困惑度低于预训练 MMLU 三个随机种子一颗不损消融告诉你参数锚 L2 的把戏匹配基线是真的任务收益是空的真正的双赢需要方向评分不是锚死是中间层那条解耦的裂缝

[Bridge] 你以为微调就是往远处走你以为越远忘得越多 DLLM-JEPA 说未必几何和功能本来不在同一条路

[Outro] Spider NL-RX-SYNTH Django 全程正数 Wide-t 配置三个种子守着 MMLU 不需要双对不需要双次只需要一个洞掩码率的缝隙里藏着视角两种

论文作者：Sangdae Nam 来源：1

References

1DLLM-JEPA arXiv 2606.00091