9月13日消息,经过数周的猜测与期待,OpenAI终于推出了其首个“推理模型”o1。这款产品被认为是该公司迄今最强大的人工智能产品之一,其解决问题的能力表现出前所未有的类人思维特质。至少,这是该公司对外的宣传。
不过,和OpenAI以往的研究和产品发布一样,o1目前仍有些“吊胃口”。OpenAI声称,这个模型在处理复杂任务时表现更加出色,但却几乎未透露模型训练的细节。目前,o1仅向付费ChatGPT用户和特定程序员提供有限预览。
OpenAI信心满满地表示,o1在物理、化学和生物等领域已经展示出类似博士生的思维深度。这一进展被认为如此重要,以至于OpenAI决定从现有的GPT-4重新开始,将模型的编号重置为“1”,甚至考虑舍弃已被广泛认可的“GPT”品牌。这一品牌不仅定义了其聊天机器人,还标志着整个生成式人工智能领域的腾飞。
OpenAI今天发布的研究报告和博客文章,展示了许多o1在应对复杂推理任务上的惊人能力。这些任务涵盖高等数学、编程难题、密码解密,甚至包括来自遗传学、经济学和量子物理学领域的专业问题。大量图表显示,o1在公司内部评估中,已显著超越了其顶尖的语言模型GPT-4o,在编程、数学及科学领域表现尤为突出。
这些进步的关键源自对儿童教育的深刻洞察——“三思而后行”。OpenAI称,OpenAI o1在作答前会花费更多时间进行“深思熟虑”,类似于人类的思考过程。公司将这一过程称为“思维链”,这是一个AI研究中的术语,指将问题分解为多个中间步骤的解决策略。这个“思维链”机制使模型能够逐步解决小任务、自我修正并优化解决方案。当用户向o1提出问题时,模型会显示“思考中”,随后展示其推理过程中的一些步骤,如“追溯历史演变”或“整合证据片段”。最终,它会标注思考的时长,例如“思考9秒”,然后给出答案。
尽管o1在生成答案时的完整“思维链”对用户不可见,以简化用户体验,但这也牺牲了部分透明度,使得用户难以了解模型如何得出最终的结论。这同时也是为了保护模型的核心技术不被竞争对手掌握。关于o1的构建细节,OpenAI透露甚少,仅表示其训练基于“全新的优化算法和训练数据集”。
尽管OpenAI的营销力度空前,但o1是否会为ChatGPT带来革命性体验,或仅是对现有模型的渐进式改进,仍不确定。不过,从公司展示的研究成果和我的初步测试来看,o1的输出结果确实更为全面且富有逻辑。这反映了OpenAI对规模效应的信心:更大的AI模型、更多的数据以及更强大的计算能力,将推动AI性能的飞跃。训练时间越长,o1的表现越出色。
然而,长时间的思考也伴随着更高的成本。OpenAI允许程序员支付使用其技术,而o1的每个词输出费用大约是GPT-4o的四倍。生成式AI所需的高性能芯片、电力及冷却系统都极为昂贵。为了满足这些庞大的计算需求,科技公司、能源企业和其他行业预计将投入数万亿美元。这引发了人们的担忧:AI是否会像加密货币或互联网泡沫时代一样,成为新的泡沫。由于o1响应问题所需的时间更长,其消耗的资源也随之增加,这进一步加剧了AI技术何时能盈利的不确定性。
这延长的处理时间,最显著的影响或许并不是技术或财务方面的负担,而是对品牌的重塑。相比过去AI模型中那些晦涩的术语如“转换器”和“扩散”,OpenAI的“推理模型”以及“思维链”听起来更贴近日常语言,带有一种“人类化”的色彩。
这种语言策略并非OpenAI独有。初创公司Anthropic将其主打模型Claude形容为拥有“性格”和“头脑”,谷歌大肆宣传其AI的“推理”能力,AI搜索初创公司Perplexity则宣称其产品“理解你”。OpenAI的博客直接指出,o1“像人类一样思考”,“如同真正的软件工程师一般工作”,并且“具备类似人类的推理能力”。尽管研究负责人强调,OpenAI并不认为其产品等同于人类大脑,但他也承认,o1在某些方面确实比之前的模型显得更“人性化”。
对于一个产品定位尚不清晰的行业来说,“人性化”的表达方式无疑是一种有力的营销手段。智能的定义本来就模糊不清,而语言模型的实际价值也难以确切评估。“GPT”这个名称看似简单,却难以传达任何实际含义。尽管OpenAI的首席研究官鲍勃·麦克格罗(Bob McGrew)认为,OpenAI o1是迈向“更合理命名”的第一步,旨在更清晰地表达其产品,但这些字母和数字组合的微妙差异对普通人来说往往无关紧要。
然而,推销一种能够“像你一样思考”的工具,与科学实验室的术语完全不同,它更像是文学中的概念。这样的描述固然不比其他AI术语更精确,甚至可能更模糊,但也正因此赋予了其独特的魅力。一个声称“像人类思考”的AI模型,为人们留下了想象的空间,让每个用户都能填补其中的空白,构想出一台“像我一样运作”的机器。或许,销售生成式AI的关键就在于此——让客户自己去构筑和填补这其中的“魔法”。(小小)