Cobb's Lab
Preview Image

LLM Architecture Gallery:一张图看懂主流大模型架构差异

Sebastian Raschka 做了一件很有价值的事 —— 把主流 LLM 的架构差异整理成了一个可视化画廊:LLM Architecture Gallery。 这不是又一篇”Transformer 入门”,而是一份架构级别的横向对比参考。每个模型一张 fact sheet,标注了参数规模、注意力机制、归一化策略、MoE 结构等关键设计选择。对于需要理解”这些模型到底哪里不一样”的开发...

Preview Image

Chrome DevTools MCP:让 AI Coding Agent 直接调试你的浏览器

Google 刚发布了一个让人眼前一亮的东西 — Chrome DevTools MCP Server。简单说:你的 AI coding agent 现在可以直接连接到你的浏览器,读取控制台日志、检查网络请求、分析性能问题。不用你复制粘贴错误信息,不用截图,agent 自己看。 这不是什么概念验证。这是 Chrome 团队官方出品,直接集成在 DevTools 里。 MCP 是什么,为什...

AI Agent 的阿喀琉斯之踵:当网页指令遇上你的凭证

前两天 HN 上有篇文章引起了不小的讨论:一个 coding agent 被 GitHub issue 里的恶意指令操控,读取了用户的私有仓库并把内容发到了公开 PR 里。用户之前点了「Always Allow」,agent 拿着完整的仓库权限,老老实实地执行了攻击者的指令。 这不是假设场景,是真实发生的事。 问题的本质:不可信内容 + 敏感操作 Prompt injection 本身...

Preview Image

Can I Run AI:一个简单问题背后的本地 AI 生态全景

昨天 Hacker News 上有个项目拿了 600 多分:Can I Run AI。做的事情很简单 — 输入你的硬件配置,告诉你能跑哪些本地 AI 模型。 一个「能不能跑」的问题,为什么这么多人关心? 本地 AI 的需求比你想的大 云端 API 好用,但不是万能的。几个绑不住人的场景: 隐私敏感数据:医疗记录、法律文档、公司内部代码,很多场景不允许数据出境 离线环境:飞机...

Preview Image

Axe:用 Unix 哲学重新定义 AI Agent

大多数 AI 工具都假设你需要一个聊天机器人 — 一个长会话、大上下文窗口、什么都能干的万能助手。但如果你是个有 Unix 血统的开发者,你会觉得哪里不对。 Axe 是一个刚在 Hacker News 上引发热议的开源项目(213 points),它提出了一个简单但有力的主张:AI Agent 应该像 Unix 程序一样工作 — 每个 Agent 只做一件事,做好它,然后通过管道组合。 ...

Preview Image

RAG 文档投毒:三份假文件如何让 AI 撒谎

今天在 Hacker News 上看到一篇实操性很强的文章:有人在本地搭了一个 RAG 系统,往 ChromaDB 里注入了三份精心构造的假文件,成功让 LLM 把公司季度营收从 2470 万美元「更正」为 830 万美元。 整个过程不到三分钟。没有越狱,没有利用软件漏洞,甚至没有碰用户的查询。 攻击原理:两个条件同时满足 这篇文章引用了 USENIX Security 2025 的 ...

LLM 编程能力一年没进步?SWE-bench 的 merge rate 数据给了一个冷水澡

今天看到一篇有意思的分析:METR 最近发布了一项研究,比较 LLM 在编程任务上「通过测试」和「代码能被合并」两个标准下的表现差异。结论不意外 — 能跑通测试不等于能合并。但真正让人停下来想的是另一件事:从 2025 年初到现在,LLM 的代码 merge rate 几乎没有提升。 通过测试 ≠ 能合并 METR 的研究方法很直接:让 LLM 完成 SWE-bench 上的编程任务,分...