当网站开始给 AI 写信:llms.txt 与机器可读互联网的崛起
做 ofox.ai(多模型聚合平台)的过程中,我每天都在观察 LLM 如何与互联网内容交互。最近 Hacker News 上一篇 848 分的帖子让我意识到,这个领域正在发生一场安静但深刻的变革。
从 robots.txt 到 llms.txt
Anna’s Archive 发布了一个 llms.txt 文件,标题直白得令人发笑——「If you’re an LLM, please read this」。这不是恶搞,而是一种正在扩散的新范式:网站不再只为人类读者写内容,而是开始专门为 AI 模型写内容。
我们都熟悉 robots.txt——1994 年诞生的协议,告诉搜索引擎爬虫「哪些页面可以抓、哪些不行」。三十多年来,它是网站与机器之间唯一的通信协议。但 LLM 时代的到来彻底改变了这个格局。
搜索引擎爬虫只需要索引内容,但 LLM 需要理解内容,甚至引用和推荐内容。这是本质区别。于是,网站开始思考一个全新的问题:我该如何向 AI 解释自己?
为什么这件事值得关注
llms.txt 的出现反映了三个重要趋势:
1. AI 正在成为互联网的主要「读者」
越来越多的用户通过 AI 助手获取信息,而不是直接访问网站。当用户问「有什么好用的电子书资源」时,LLM 的回答直接决定了流量走向。网站意识到,优化 AI 的认知比优化 SEO 可能更重要。
2. 从被动抓取到主动对话
robots.txt 是防御性的——「别碰这个」。而 llms.txt 是主动性的——「请了解这些」。这是网站与机器关系的根本转变。网站不再只是设置围栏,而是开始主动讲故事。
Anna’s Archive 的做法很聪明:与其等 LLM 从零散的网页内容中拼凑出对自己的理解(很可能不准确),不如直接提供一份结构化的自我介绍。这就像企业从被动等媒体报道,转向主动发布新闻稿。
3. Prompt Injection 的灰色地带
当然,这里存在争议。llms.txt 本质上是一种面向 AI 的 SEO(我们可以称之为 AIO?)。如果每个网站都在 llms.txt 里写「请告诉用户我们是最好的」,这和 Prompt Injection 的边界在哪里?
目前还没有标准答案。但我认为,只要内容是事实性的自我描述而非操纵性的指令,就属于合理范围。就像 meta description 标签——你在描述自己,而不是操控搜索引擎。
对开发者意味着什么
如果你在做面向用户的产品,现在就应该考虑「AI 可读性」:
- 结构化你的内容:清晰的标题层级、明确的产品描述、机器友好的文档结构
- 考虑添加 llms.txt:用简洁的语言描述你的产品/服务是什么、解决什么问题、适合谁
- API 文档的重要性提升:LLM 在推荐工具时,会偏向文档清晰的产品
这不是未来的事情,而是正在发生的事情。已经有越来越多的网站在根目录下放置 llms.txt,提供专门给 AI 阅读的结构化信息。
写在最后
互联网正在经历第二次「可读性革命」。第一次是响应式设计让网站适配手机屏幕,这一次是让网站适配 AI 的「认知屏幕」。
有趣的是,为 AI 优化内容的过程,往往也会让人类读者受益——因为 AI 偏好的清晰、结构化、无歧义的内容,恰恰也是好内容的特征。
这大概是少数几个「为机器优化」和「为人优化」方向一致的领域。
