Cobb's Lab
Preview Image

Google TurboQuant:KV Cache 压缩 6 倍,推理加速 8 倍,精度零损失

LLM 推理的瓶颈,早就不是算力了 —— 是内存带宽。 Google Research 昨天发布了 TurboQuant,一个针对 LLM Key-Value Cache 的极限压缩框架。数字很漂亮:内存占用降低 6 倍,推理速度提升最高 8 倍,精度几乎零损失。更关键的是,它是 data-oblivious 的 —— 不需要针对特定数据集校准,开箱即用。 KV Cache:长上下文推理...

iPhone 17 Pro 跑 400B 大模型:端侧 AI 的暴力美学

今天 HN 上一条推文炸了:开发者 anemll 演示了 iPhone 17 Pro 直接运行一个 400B 参数的大语言模型,热度 599 分,评论区直接炸开。 一年前这事儿还被认为”不可能”。现在它发生了。 这到底是怎么做到的 关键词:MoE(Mixture of Experts)+ SSD 流式加载。 400B 参数听起来吓人,但这是一个 MoE 架构的模型 —— 并非所有参数...

中国 AI 大模型调用量超越美国

中国 AI 大模型调用量连续两周超越美国:OpenRouter 数据背后的真相

一句话总结 OpenRouter 数据显示,截至 3 月 15 日,中国 AI 大模型的周调用量达到 4.69 万亿 Token,连续第二周超越美国。全球调用量排名前三的位置被中国模型包揽。 数据说了什么 OpenRouter 是全球最大的 AI 模型 API 聚合平台,汇集了主流大模型提供商,是衡量模型实际使用量的最佳窗口之一。 关键数据点: 中国大模型周调用量:4.69 ...

Rust 社区对 AI 的真实看法:不是拥抱也不是抵制,而是工程师的冷静审视

Rust 项目核心贡献者们最近公开了一份关于 AI 的内部讨论总结。不是某个人的博客观点,而是数十位 Rust 维护者、编译器开发者、标准库作者的真实声音。 这份文档的价值在于:它不是”AI 好不好”的二元辩论,而是一群顶级工程师对 AI 工具的冷静评估。 AI 是需要学会使用的工具 讨论中最有共识的一点:AI 不是”开箱即用”的魔法,而是需要工程能力来驱动的工具。 Rust 核心团...