Cobb's Lab
Preview Image

AI Agent 两小时攻破麦肯锡:当自主黑客遇上企业 AI 平台

麦肯锡,全球最顶级的咨询公司,43000+ 员工,世界级的安全团队,充足的预算。他们花了两年多打造内部 AI 平台 Lilli — 集成聊天、文档分析、RAG 检索,覆盖十万份内部文档,月处理 50 万次 prompt。 然后一个自主攻击 Agent,在没有任何凭证、没有内部信息、没有人类介入的情况下,两小时拿到了生产数据库的完整读写权限。 这不是科幻。这是上周的事。 一个古老漏洞的现...

Hacker News 正式封杀 AI 评论:一场关于「谁在说话」的战争

作为 OfoxAI(ofox.ai)的开发者,我每天都在和 AI 模型打交道。但今天看到 Hacker News 的这条新规时,还是停下来想了一会儿。 HN 在社区指南中正式加入了一条新规则:禁止发布 AI 生成或 AI 编辑的评论。3000+ 点赞,登上今日第一。这不是一个小社区的小动作 — 这是技术社区的风向标。 到底有多少 AI 评论? 安全研究员 lcamtuf(Michał ...

Preview Image

Amazon 要求资深工程师审核 AI 生成代码:这不是倒退,是清醒

Amazon 最近做了一个引发争议的决定:要求初级和中级工程师提交的 AI 辅助代码变更,必须经过资深工程师审批才能上线。 这个决策的背景是一连串的生产事故。AWS 的 Kiro AI 编码工具在去年底直接「删除并重建了整个环境」,导致服务中断 13 小时。Amazon 零售技术团队的 Sev2 事故频率也在上升。VP Doug Treadwell 甚至把一个通常可选参加的周会改成了强制出...

AI 重写代码就能换协议?Copyleft 的护城河正在被 LLM 拆掉

上周,Python 生态里月下载量 1.3 亿次的字符编码检测库 chardet 发布了 7.0 版本。性能提升 48 倍,支持多核,代码从头重写。但真正引爆社区的不是性能 — 是维护者把协议从 LGPL 改成了 MIT。 他的理由:整个重写过程由 Claude 完成,只提供了 API 接口和测试用例,没有直接参考原有源码。JPlag 检测显示新旧代码相似度低于 1.3%。结论:这是独立新...

Preview Image

Agent Safehouse:本地 AI Agent 的沙箱革命

作为 OfoxAI(ofox.ai)的开发者,我每天都在和不同的 AI 模型打交道。Claude、GPT、Gemini、Kimi — 每个都有自己的脾气。但不管用哪个模型,有一个问题始终让我不安:Agent 的权限边界在哪里? LLM 是概率性的。即使 99% 的情况下它表现完美,那 1% 的”幻觉”也足以造成灾难。当 Agent 能直接访问你的文件系统、SSH 密钥、AWS 凭证时,”M...

SWE-CI:AI Agent 能维护代码吗?从一次性修 Bug 到长期迭代

SWE-bench 大家都不陌生。过去一年,各家模型在这个 benchmark 上疯狂刷分,Claude 修 bug 的能力已经让不少开发者感叹”饭碗不保”。 但我一直有个疑问:修一个 isolated bug 和维护一个真实项目,是一回事吗? 最近 arXiv 上一篇论文 SWE-CI 给出了一个尖锐的回答:不是。 SWE-bench 的盲区 SWE-bench 的范式是经典的”给...

Preview Image

文学编程的复活:AI Agent 时代的代码叙事

Knuth 在 1984 年提出”文学编程”(Literate Programming):代码应该像散文一样可读,程序员写的不是给编译器看的指令,而是给人看的叙事。 好想法。没人用。 原因很简单 — 维护两套叙事(代码 + 散文)的成本太高了。你改了一行代码,还得同步更新解释文字。现实中,注释都懒得写,何况写散文。Jupyter Notebook 算是最接近的实践,但也仅限于数据科学领域...

Verification Debt:AI 写代码越快,你的验证成本越高

作为 OfoxAI(ofox.ai)的工程师,我每天都在用 AI Agent 写代码。Claude、GPT、Gemini 轮着用,生产力确实翻了好几倍。但最近 HN 上一篇讨论让我停下来想了想:我们真的变快了吗? 文章提出了一个概念叫 Verification Debt(验证债务)——AI 生成代码的速度越快,你需要验证这些代码的成本就越高。这不是技术债务,是一种全新的债务类型。 写代码...

Preview Image

Sarvam 105B:印度交出了第一份有竞争力的开源大模型答卷

当我们谈论开源大模型,脑子里跳出来的名字通常是 Meta 的 Llama、Mistral、DeepSeek。这些模型有一个共同点:它们主要服务英文或中文用户。 这周 Sarvam AI 开源了 Sarvam 30B 和 105B 两个模型,HN 上拿到了 165 分,讨论相当热闹。它的核心卖点不是在英文 benchmark 上刷到 SOTA —— 而是这可能是第一个在印度语言上真正有竞争力...