Cobb's Lab

KV Cache 压缩 50 倍不掉精度:MIT 的 Attention Matching 做到了

LLM 推理的内存瓶颈,搞过部署的人都知道有多痛。 上下文越长,KV Cache 越大,显存占用直线上升。处理一份长合同、跑一个多轮对话的 coding agent、或者做 RAG 召回后的长文本理解 —— KV Cache 动辄吃掉几个 GB。这不是理论问题,是每天都在烧钱的生产问题。 MIT 最近放出了一篇论文 Attention Matching,把 KV Cache 压缩到原来的...

Preview Image

LLM 的 L 代表 Lying:当我们谈论 AI 生成时,我们在谈论伪造

昨天 Hacker News 上一篇文章冲到了近 600 点,标题够挑衅:“The L in LLM Stands for Lying”。作者 Steven Wittens(acko.net)没有老生常谈地讨论幻觉问题,而是提出了一个更尖锐的视角——LLM 的本质是 伪造机器。 这个角度让我停下来想了一会儿。 伪造,而非创造 Wittens 的核心论点很简单:如果有人模仿梵高的风格画一...

Preview Image

Anthropic 最新研究:AI 对就业市场的影响,可能没你想的那么大

每隔一段时间,就会有人预言”AI 将取代 XX% 的工作岗位”。数字越大,标题越吸引眼球。但 Anthropic 刚发布的一篇研究论文给出了一个更冷静的答案:到目前为止,AI 对就业的实际影响非常有限。 新指标:观察到的暴露度(Observed Exposure) 这项研究最有价值的贡献是提出了一个新的衡量方式。过去的研究大多只看”理论上 AI 能不能做这个任务”,而 Anthropic...