Daily AI Paper Digest

PaperRadar

每天精选 5–10 篇，让任何人都能读懂 AI 论文

2026年3月15日星期日

🔍217 篇今日论文总量

⭐10 篇精选推荐

📚3 种阅读难度

⏱2 分钟平均阅读时长

今日精选论文

选择全局阅读难度，一键切换所有卡片

2603.12267v1

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Tianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng, Xihui Liu · 2026

★★★★★

阅读模式

视频生成的“自适应压缩”技术。它不再死板地给每一秒视频分配同样的存储空间，而是智能地让简单的风景画少占地，复杂的动作戏多占资源，从而在不牺牲画质的情况下，让 AI 生成视频更快、更省算力。

通用版arXiv ↗

2603.12265v1

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie · 2026

★★★★★

阅读模式

为机器人和 AR 设备量身定制的“流式视觉大脑”。它能将杂乱的视频流实时转化为结构化的数据，帮助机器人在动态环境中认出物体、理解深度并做出准确的行动决策。

通用版arXiv ↗

2603.12262v1

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Yiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai · 2026

★★★★★

阅读模式

实现视频理解“零等待”的推理方案。它让 AI 在视频播放的同时同步思考，而不是等视频看完再想半天。这种设计让 AI 在实时对话分析和超长视频监控中既聪明又反应迅速。

通用版arXiv ↗

2603.12255v1

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Fangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan · 2026

★★★★★

阅读模式

一种具备“实时空间记忆”的模型。它能一边看视频一边更新自己的内部状态，记住走廊的布局、物体的相对方位。相比传统模型，它在处理几十分钟的长视频时内存占用极低，且不会忘记早前的细节。

通用版arXiv ↗

2603.12252v1

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Xuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang · 2026

★★★★★

阅读模式

为画图模型植入“思考过程”。让 AI 在画图或解逻辑题前，先在“脑子”里进行多步内部推理，而不是直接给出答案。这种机制让 AI 能够解决走迷宫、解数独等高难度空间逻辑挑战。

通用版arXiv ↗

2603.12250v1

DVD: Deterministic Video Depth Estimation with Generative Priors

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen · 2026

★★★★★

阅读模式

一种超长视频深度解析技术。它可以为视频中的每一帧画面精准计算物体的远近距离。最厉害的是，它能保证长视频里深度的数值不会忽大忽小，非常适合自动驾驶导航和电影级别的视频后期制作。

通用版arXiv ↗

2603.12145v1

Automatic Generation of High-Performance RL Environments

Seth Karten, Rahul Dev Appapogu, Chi Jin · 2026

★★★★★

阅读模式

这是一个针对 AI 训练环境的自动开发方案。通过自动化工具，开发者可以快速制造出支持成千上万个实例同时运行的游戏或模拟器环境。这大大缩短了训练“游戏高手”AI 所需的环境搭建时间。

通用版arXiv ↗

2603.12038v1

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan · 2026

★★★★★

阅读模式

一种无需重新训练的模型加速技术。它发现 AI 在写一句话的过程中，其“注意力”其实是很固定的，不需要每产生一个字都去翻阅整本“参考书”。通过大部分时间只读一小部分核心缓存（快步），仅在必要时查阅全文（慢步），显著提升了处理长文档和复杂推理的速度。

通用版arXiv ↗

2603.12248v1

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich · 2026

★★★★★

阅读模式

一种新型的 AI 微调方法。传统的训练方式容易让 AI 在实际使用时因为前面的小错导致后面“满盘皆输”，EBFT 通过让 AI 练习“对齐特征”来解决这个问题。它比传统的强化学习训练更简单、更稳健，能显著提升写代码和翻译的准确性。

通用版arXiv ↗

2603.12201v1

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li · 2026

★★★★★

阅读模式

优化 AI “专注力”计算的方案。它发现 AI 模型的每一层其实在“看”哪里这件事上都在“抄作业”。通过只让其中几层费力计算注意力位置，剩下的层直接复用，在保证模型“智商”不掉线的情况下，极大地提高了处理长信息的效率。

通用版arXiv ↗