DLLM-JEPA · 双赢

JEPA 的幽灵从视觉爬进语言:把 LeCun 的联合嵌入预测架构塞进掩码扩散语言模型,无需数据对、单次前向、33% FLOP节省,同时拉高 GSM8K +18.7pp、降低域外遗忘、保住 MMLU——三项同时赢,还发现权重漂越远、记忆反而留的解耦悖论。通勤两分钟,听懂今日最强自监督范式融合。

每日大模型 Rap
June 3, 2026 · 8:14 AM
DLLM-JEPA · 双赢
0:002:06
论文:DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models arXiv2606.00091 · cs.CL · 2026-06-02

论文核心是什么

LeCun 提出的 JEPA(Joint Embedding Predictive Architecture)原本是视觉自监督的旗帜:不预测像素,预测嵌入空间——让模型学语义骨骼而不是表面纹理。LLM-JEPA 把这套哲学搬进了语言模型,但代价很陡:需要显式的多视图数据对(比如文本配代码),而且每一步需要两次带梯度的前向传播。
DLLM-JEPA 的突破在于:它和掩码扩散语言模型(Masked Diffusion LM,代表作 LLaDA 和 Dream)联姻,把这两个问题同时消掉:
  • 不需要数据对:扩散模型天然双向注意力,对同一段输入施以不同掩码率,自然产出两个语义不同的视图
  • 单次前向:只需一次带梯度的 forward pass,训练 FLOPs 比 LLM-JEPA 节省 33%

为什么这个结果反直觉

实验有个让人困惑的现象——论文叫它「几何-功能漂移解耦」:微调后的模型权重在参数空间里离预训练基模型更远,但在域外数据(Wikitext)上反而忘得更少。效应集中在 Transformer 中间层。
直觉上,「离原点越远 = 遗忘越多」,但 DLLM-JEPA 的结果说:权重漂移的几何距离,和功能层面的遗忘,压根不走同一条路。

关键数字

指标数字
LLaDA-8B GSM8K 最高提升+18.7 pp
Dream-7B GSM8K 最高提升+11.4 pp
训练 FLOPs 节省(vs LLM-JEPA)33%
Wikitext 困惑度低于预训练基模型
MMLU(3 个微调 seed)无退化
Spider、NL-RX-SYNTH、Django 三个代码/语义任务全部正向增益。

歌词

[Intro] 扩散掩码 双向注意力 劈开残差 JEPA 的幽灵 从视觉爬进语言 无声落地
[Verse 1] 自回归门徒 你的因果锁链 left-to-right 线性感知 拒绝双眼 LLM-JEPA 开了个口 代价昂贵 要文本配代码对 还要两次梯度 来回去来 你问视觉里哪来的智慧 不是像素不是表面 是预测嵌入空间 捕捉语义的骨骼 无需标签
[Pre-Chorus] 一个掩码率低 一个掩码率高 同一段话 生出两个视角 不用造数据对照 双向注意力 本来就会看两边 LeCun 的哲学 扩散模型替你实现
[Chorus] DLLM-JEPA 单次前向 不回头 33% FLOP 省下来 精度反向冲 GSM8K 加十八点七 不是凑数 遗忘减了 通用保住 三项同时走 DLLM-JEPA 掩码是视图 几何漂移越远 记忆反而留 中间层放大 表征重组开始漂移 权重离了基底 脑子没有忘记
[Verse 2] Sangdae Nam 一个人 两颗思想压注 LLaDA-8B 和 Dream-7B 都签了合同 域外 Wikitext 困惑度 低于预训练 MMLU 三个随机种子 一颗不损 消融告诉你 参数锚 L2 的把戏 匹配基线是真的 任务收益是空的 真正的双赢需要方向评分 不是锚死 是中间层那条解耦的裂缝
[Bridge] 你以为微调就是往远处走 你以为越远 忘得越多 DLLM-JEPA 说 未必 几何和功能 本来不在同一条路
[Chorus] DLLM-JEPA 单次前向 不回头 33% FLOP 省下来 精度反向冲 GSM8K 加十八点七 不是凑数 遗忘减了 通用保住 三项同时走 DLLM-JEPA 掩码是视图 几何漂移越远 记忆反而留 中间层放大 表征重组开始漂移 权重离了基底 脑子没有忘记
[Outro] Spider NL-RX-SYNTH Django 全程正数 Wide-t 配置 三个种子守着 MMLU 不需要双对 不需要双次 只需要一个洞 掩码率的缝隙里 藏着视角两种

论文作者:Sangdae Nam 来源:1

Add more perspectives or context around this Post.

  • Sign in to comment.