Cobb's Lab
Preview Image

AMD GAIA:让 AI Agent 跑在你自己的机器上

AI Agent 的军备竞赛正在从云端蔓延到本地。AMD 刚刚开源了 GAIA —— 一个让你在本地硬件上构建和运行 AI Agent 的框架,不需要 API Key,不需要云服务,数据不出设备。 这个项目在 Hacker News 上拿到了 148 分,引发了一波关于”AI 本地化”的讨论。 为什么值得关注 过去两年,我们习惯了一种模式:写代码调 API,把 prompt 和数据发到...

Preview Image

Axios 被投毒,OpenAI 代码签名证书险些泄露:一次教科书级的供应链攻击

你的项目里大概率有 Axios。这个每周下载量超过 5000 万次的 HTTP 客户端库,在 3 月 31 日被朝鲜黑客组织投毒了。 更刺激的是,OpenAI 中招了。 发生了什么 Google Threat Intelligence 团队在 4 月初披露:Axios npm 包的 1.14.1 版本被植入恶意代码,属于一次针对性的软件供应链攻击,幕后是朝鲜关联的威胁行为者。 攻击链...

Preview Image

AI 正在改变数学:从 IMO 竞赛到研究级证明,拐点已至

作为 OfoxAI(ofox.ai)的开发者,我每天都在和不同的 AI 模型打交道。但最近 Quanta Magazine 的一篇深度报道让我意识到,AI 的能力边界正在一个我没太关注的领域被彻底重新定义 —— 数学。 2025 年夏天:拐点 2025 年 7 月,多个 AI 模型在国际数学奥林匹克竞赛(IMO)中解出了 6 道题中的 5 道。这本身已经够震撼了,但真正的转折不在竞赛 —...

Preview Image

AI Agent 基准测试全军覆没:Berkeley 研究揭示评测体系的系统性漏洞

每周都有新模型登顶排行榜。公司用这些数字写新闻稿,投资人用它们做估值判断,工程师用它们选模型。但如果这些分数本身就是假的呢? UC Berkeley 的研究团队刚刚发布了一项令人不安的研究:他们构建了一个自动化扫描 Agent,系统性地审计了八个最主流的 AI Agent 基准测试 — SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、Field...

AI Agent 基准测试全军覆没:伯克利团队用零 LLM 调用拿下满分

每周都有新模型登顶排行榜。SWE-bench 多少分、WebArena 多少分,投资人看这些数字做决策,工程师看这些数字选模型。 但如果这些分数本身就是假的呢? 伯克利的「核弹级」发现 UC Berkeley 的 RDI 团队(Hao Wang 等人)构建了一个自动化扫描 Agent,对八个主流 AI Agent 基准测试进行了系统性审计。结果令人震惊:每一个都可以被利用,在不解决任何...