365文库
登录
注册

中国团队发布的通用型 AI Agent 产品 Manus会成为下一个爆款吗?

2025-03-06 14:51    头条推荐    来源:365文库
下载Word
下载成Word

从benchmark和案例来看,成绩相当不错,但可能离「通用」还差不少。

市面上很多专用Agent,都难以大规模落地,例如软件工程领域的开源多Agent框架MetaGPT,用的人也不算很多;上一个「全球首个Al程序员」Devin,目前也没啥水花。更别说通用的Agent。

而且,说「全球第一款通用AIAgent」,可能有点捧杀,毕竟之前还有AutoGPT,BabyAGI,这些都能算是「通用」的框架,而且还开源。

当然,这里并非否定Manus的成果。从benchmark来看,成绩其实是相当好的。GAIA是衡量通用Al助理能力的一个benchmark,可以看到Manus表现比OpenAl的deepresearch还好出不少。

但Agent智能程度,Agent的架构固然重要,更起着决定性作用的,是LLM的能力上限。在市面上LLM能力没有爆发性增长的情况下,很难出一个真正能力有突破的Agent。

其实说到Agent,很多人会以为,就是通过Prompt创建智能体,但其实一个完整的Agent,是需要能够自主计划,自主使用工具,具有记忆能力,自主行动的。在LilianWeng2023年发布的一篇博客里显示,一个LLM驱动的Agent是架构是这样的。

我猜测Manus在Tools方面做了很多工作,尤其是和搜索,计算,写代码工具,可视化工具,computeruse方面等等,这些tools应该能覆盖80%工作场景的通用任务,再加上MCP+docker,就能做很多事情了。

同时,我也注意到它能够记住一些工作偏好,估计也在longtermmemory方面做了一些创新性的工作。

但GeneralAgent的General,既可以翻译成「通用」,也可以翻译成「宽泛」。事实上,官方demo给出的案例,都是一个相对开放的题目,大模型有很多自主发挥的空间,给定的命题相对宽泛。当然,即使是这样,其实这个Agent也能解放很多人的繁琐工作,毕竟很多人的工作本来就是做图表,ppt等。但要说Manus有什么突破性进展,貌似从demo中没看到。

况且,Agent落地一个最大问题,就是分解步骤越多,token消耗越猛,而且幻觉率会越高。这些问题都是短期内没法解决的。可能哗啦啦的,token花了几十刀,但其工作产出,还是得人类自己去修修补补。

我坚信AI浪潮未来会爆发在中国,但就全球大模型能力而言,还没哪个大模型能够支撑一个足够通用、错误率足够低的Agent。

tj