文章

Wolfram Language 要做 LLM 的「基础工具」,这意味着什么?

Wolfram Language 要做 LLM 的「基础工具」,这意味着什么?

Stephen Wolfram 最近发了一篇长文,宣布要把 Wolfram Language 打造成 LLM 系统的「Foundation Tool」。标题很大,但仔细想想,他说的问题确实戳中了当前 LLM 的一个核心痛点。

LLM 擅长什么,不擅长什么

我们每天都在用各种大模型,体感上很清楚:LLM 在理解语义、生成文本、写代码方面很强,但在精确计算结构化知识推理上,表现一直不稳定。

让 GPT 算个稍微复杂的数学题,它可能一本正经地给你一个错误答案。让 Claude 查一个实时数据,它只能告诉你训练数据的截止日期。这不是哪个模型做得不好,而是 LLM 的架构决定了它本质上是一个概率模型,不是计算引擎。

Wolfram 的判断是:LLM 需要一个「基础工具」来补足精确计算和知识查询的短板,而 Wolfram Language 恰好做了 40 年的这件事。

Tool Use 的下一步:从专用到通用

当前 LLM 生态里,Tool Use(工具调用)已经是标配了。无论是 OpenAI 的 Function Calling、Anthropic 的 Tool Use,还是各种 Agent 框架,本质都是让模型在需要时调用外部工具。

但目前大多数工具都是专用的:一个搜索 API、一个代码执行器、一个数据库查询接口。每个工具解决一个具体问题,模型需要学会在什么场景下调用什么工具。

Wolfram 的野心在于,他想提供一个通用计算层。Wolfram Language 覆盖的范围确实很广——从符号计算、数据可视化到知识图谱查询,它不是一个「工具」,更像是一个「计算操作系统」。如果 LLM 能把 Wolfram Language 当成一个统一的计算后端来用,确实能大幅提升精确推理的能力。

实际落地的挑战

想法很好,但落地不容易。几个现实问题:

1. 调用延迟和成本

每次调用 Wolfram 都意味着一次外部请求。在对话场景里,用户对延迟的容忍度很低。如果模型每句话都要先想想「要不要调 Wolfram」,再等结果返回,体验会打折扣。

2. 模型需要学会「什么时候该用」

这是 Tool Use 最难的部分。模型不仅要知道 Wolfram Language 能做什么,还要准确判断当前问题是否需要精确计算。太激进会浪费调用,太保守又回到了「一本正经胡说八道」的老问题。

3. 与现有生态的竞争

Python + NumPy/SciPy 的生态已经非常成熟,代码解释器(Code Interpreter)也能解决很多计算问题。Wolfram Language 的优势是更高层的抽象和内置知识库,但劣势是生态相对封闭,开发者社区小得多。

值得关注的趋势

抛开 Wolfram 自身的商业诉求不谈,这件事反映的趋势是值得关注的:LLM 正在从「什么都自己干」走向「协调多个专业工具」

未来的 AI 系统大概率不会是一个巨大的单体模型,而是一个模型作为「大脑」,调度各种专业工具来完成任务。计算用 Wolfram 或代码解释器,搜索用搜索引擎,绘图用专业工具,各司其职。

这也意味着,选对模型变得更重要了。不同模型在 Tool Use 上的能力差异很大——有的模型擅长判断何时调用工具,有的模型生成的工具参数更准确。实际开发中,通过 ofox.ai 这类多模型聚合平台对比不同模型在工具调用场景下的表现,能更快找到最适合你业务的方案。

写在最后

Wolfram 把自己定位成 LLM 的「基础工具」,这个叙事是否成立还需要时间验证。但他指出的问题——LLM 需要可靠的精确计算能力——是真实存在的。

对开发者来说,与其等待某个「完美工具」出现,不如现在就开始思考:在你的应用场景里,哪些环节需要精确计算?模型的 Tool Use 能力是否够用?这些问题的答案,决定了你构建 AI 应用的架构选择。

本文由作者按照 CC BY 4.0 进行授权