TraceSafe: A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories
Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang, Yun-Nung Chen · 2026
随着 AI 助手开始自主操作各种软件工具,如何防止它们执行危险指令变得非常重要。这项研究测试了多种 AI 的防御能力,发现能够准确解析复杂数据格式的 AI 往往更安全。
Daily AI Paper Digest
每天精选 5–10 篇,让任何人都能读懂 AI 论文
选择全局阅读难度,一键切换所有卡片
Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang, Yun-Nung Chen · 2026
随着 AI 助手开始自主操作各种软件工具,如何防止它们执行危险指令变得非常重要。这项研究测试了多种 AI 的防御能力,发现能够准确解析复杂数据格式的 AI 往往更安全。
Qiyao Ma, Dechen Gao, Rui Cai, Boqi Zhao, Hanchu Zhou, Junshan Zhang, Zhe Zhao · 2026
每个人对 AI 的好坏评价标准不一,但现有的测试工具很难衡量 AI 是否符合个人口味。这个新工具专门测量 AI 奖励模型是否能真正理解并顺应用户的个性化偏好。
Nathan Lambert, Florian Brand · 2026
这份报告全面审视了目前全球最顶尖的开源 AI 模型是谁在开发以及谁在用。它发现中国开发的 AI 模型在影响力上已经超过了美国,成为全球研究者和创业者的重要基础。
Xiaoyu Li, Andi Han, Jiaojiao Jiang, Junbin Gao · 2026
在训练 AI 时保护用户隐私会大幅降低其性能吗?这项数学研究证明,在采用先进的隐私保护技术时,AI 学习语言的能力受到的影响其实非常微小。
Roberto Vercellino, Jared Willard, Gustavo Campos, Weslley da Silva Pereira, Olivia Hull, Matthew Selensky, Juliane Mueller · 2026
生成式 AI 的运行非常耗电,这对数据中心的电力规划提出了挑战。这项工作通过精确测量 AI 在不同任务下的用电波动,帮助建设者更好地设计电网和能源供应系统。
Vincent Abbott, Gioele Zardini · 2026
深度学习模型通常由零散的代码和图表描述,缺乏严谨的数学定义。这项工作用高级数学语言为 AI 模型建立了一套标准“说明书”,让设计和分析模型变得更加系统化。
Priscilla Kyei Danso, Mohammad Saqib Hasan, Niranjan Balasubramanian, Omar Chowdhury · 2026
让 AI 把普通人说的话转换成严密的逻辑指令是一项挑战。研究发现,目前的 AI 往往只是“模仿”逻辑的格式,而未能真正理解逻辑背后的复杂含义。
Shaowei Liu, Xuanchi Ren, Tianchang Shen, Huan Ling, Saurabh Gupta, Shenlong Wang, Sanja Fidler, Jun Gao · 2026
在生成视频时,想要单独控制镜头移动和物体的特定动作通常很难。这个新系统让用户可以像导演一样,在自由换角度的同时,还能精准控制物体的动作及其引发的后续反应。
Changkun Liu, Jiezhi Yang, Zeman Li, Yuan Deng, Jiancong Guo, Luca Ballan · 2026
在机器人和现实增强应用中,AI 需要在移动过程中实时记住周围的 3D 环境。Mem3R 通过一种特殊的记忆机制,让 AI 在处理长视频流时更精准、更省资源,且不会“健忘”。
Teng Li, Ziyuan Huang, Cong Chen, Yangfu Li, Yuanhuiyi Lyu, Dandan Zheng, Chunhua Shen, Jun Zhang · 2026
为了节省资源,AI 生成图像前需要对图像进行深度压缩,但这往往会导致细节丢失或画面崩溃。这项新技术通过提升图像“令牌”的处理能力,让画面在高度压缩后依然能保持高质量的细节。