Google TurboQuant：KV Cache 压缩 6 倍，推理加速 8 倍，精度零损失

LLM 推理的瓶颈，早就不是算力了 —— 是内存带宽。 Google Research 昨天发布了 TurboQuant，一个针对 LLM Key-Value Cache 的极限压缩框架。数字很漂亮：内存占用降低 6 倍，推理速度提升最高 8 倍，精度几乎零损失。更关键的是，它是 data-oblivious 的 —— 不需要针对特定数据集校准，开箱即用。 KV Cache：长上下文推理...

2026/03/25 AI, Research

Hypura：让你的 Mac 跑超出内存的大模型

项目地址： github.com/t8/hypura 配图来源：项目 README 32GB 内存的 Mac 能跑 40GB 的模型吗？正常情况下不行。llama.cpp 会因为内存不足直接崩溃，macOS 的 swap 机制会疯狂抖动直到 OOM killer 把进程杀掉。但 Hypura 说可以。它是一个面向 Apple Silicon 的 LLM 推理调度器，通过理解...

2026/03/25 AI, Dev

Stack Overflow 死了，Agent 需要自己的 Stack Overflow

Mozilla AI 团队最近开源了一个项目叫 cq（colloquy 的缩写），定位很直接：Stack Overflow for AI Agents。这个项目的出发点很有意思，也很讽刺。 Stack Overflow 的死亡螺旋数据是残酷的：Stack Overflow 月提问量从 2014 年巅峰的 20 万+，跌到 2025 年 12 月的 3,862 条 —— 回到了 20...

2026/03/25 AI, Dev

当所有人都在聊 AI 的时候，有人开始觉得无聊了

作为 OfoxAI（ofox.ai）的开发者，我每天都在和不同的 AI 模型打交道。所以当我在 Hacker News 上看到一篇 581 分的帖子标题是「Is anybody else bored of talking about AI?」的时候，第一反应不是被冒犯，而是 —— 终于有人说了。锤子综合征原文作者 Jake Saunders 打了个比方：这就像你去木工论坛，结果所有人...

2026/03/25 AI, 杂谈

iPhone 17 Pro 跑 400B 大模型：端侧 AI 的暴力美学

今天 HN 上一条推文炸了：开发者 anemll 演示了 iPhone 17 Pro 直接运行一个 400B 参数的大语言模型，热度 599 分，评论区直接炸开。一年前这事儿还被认为”不可能”。现在它发生了。这到底是怎么做到的关键词：MoE（Mixture of Experts）+ SSD 流式加载。 400B 参数听起来吓人，但这是一个 MoE 架构的模型 —— 并非所有参数...

2026/03/24 AI, Mobile

当 AI Agent 也需要 Stack Overflow：Mozilla 的 cq 项目

Stack Overflow 的月提问量从 2014 年巅峰的 20 万，跌到了 2025 年 12 月的 3,862。17 年，一个轮回，回到了起点。杀死它的，是 LLM。而现在，LLM 自己也遇到了同样的问题。 Agent 的重复劳动困境任何用过 AI 编码 Agent 的人都有过这种体验：Agent 在同一个报错上反复尝试，换着花样犯同样的错。你看着 token 计数飙升，心...

2026/03/24 AI, Dev

中国 AI 大模型调用量连续两周超越美国：OpenRouter 数据背后的真相

一句话总结 OpenRouter 数据显示，截至 3 月 15 日，中国 AI 大模型的周调用量达到 4.69 万亿 Token，连续第二周超越美国。全球调用量排名前三的位置被中国模型包揽。数据说了什么 OpenRouter 是全球最大的 AI 模型 API 聚合平台，汇集了主流大模型提供商，是衡量模型实际使用量的最佳窗口之一。关键数据点：中国大模型周调用量：4.69 ...

2026/03/24 AI, 杂谈

字节跳动开源 DeerFlow 2.0：从深度研究到超级智能体的全面进化

项目地址： github.com/bytedance/deer-flow 官网： deerflow.tech 一句话总结字节跳动把一个深度研究框架重写成了超级智能体运行时——DeerFlow 2.0 内置沙盒、记忆、技能系统和子智能体编排，能处理从几分钟到几小时的复杂任务。2 月 28 日发布当天登顶 GitHub Trending #1。从 Deep Research 到 Su...

2026/03/24 AI, Dev

让 Claude 做移动端 QA：一个人、三个平台、零手动测试（译+解读）

原文出处： Teaching Claude to QA a Mobile App 原作者： Christopher Meiklejohn 配图来源：原文无配图一句话总结一个独立开发者让 Claude 每天早上自动启动 Android 模拟器和 iOS Simulator，遍历 App 的 25 个页面截图，用视觉分析发现 UI 问题，然后自动提交 Bug 报告。Android 花...

2026/03/23 AI, Dev

Rust 社区对 AI 的真实看法：不是拥抱也不是抵制，而是工程师的冷静审视

Rust 项目核心贡献者们最近公开了一份关于 AI 的内部讨论总结。不是某个人的博客观点，而是数十位 Rust 维护者、编译器开发者、标准库作者的真实声音。这份文档的价值在于：它不是”AI 好不好”的二元辩论，而是一群顶级工程师对 AI 工具的冷静评估。 AI 是需要学会使用的工具讨论中最有共识的一点：AI 不是”开箱即用”的魔法，而是需要工程能力来驱动的工具。 Rust 核心团...