Manus刷屏,AI Agent的“GPT时刻”来了?
来源:广搜网 日期:2025/3/31 20:14:28 浏览次数: 我要收藏
Manus刷屏,AI Agent的“GPT时刻”来了?
来源:澎湃新闻·澎湃号·湃客
复旦商业知识 复旦商业知识
来自Manus官网
公司创始人肖弘是90后,比此前火爆全球的DeepSeek创始人更年轻。
Manus来了,作为国内首款刷屏的AI Agent(人工智能代理)应用,似乎也迎来了自己的GPT时刻。 当我们见证了从ChatGPT到"副驾驶"工具的普及后,真正能独立思考、规划和执行任务的AI Agent已悄然登场。
AI Agent是一种能够感知环境、进行决策和执行动作的智能实体。智能体像人一样,它有记忆,有逻辑分析能力、任务的拆解能力、问题的拆解能力和最后综合起来统一解决问题的能力。
长期以来,全球的研究人员一直在追求与人类相当、甚至超越人类水平的通用人工智能(Artificial General Intelligence,AGI)。其实早在20世纪50 年代,“智能”的概念就被扩展到了人工实体,这些人工智能实体通常被称为 —— 代理(Agent)。Agent这一概念起源于哲学,是指一种拥有欲望、信念、意图以及采取行动能力的实体。在AI领域,这一术语被赋予了全新的含义——具有自主性、反应性、积极性和社交能力特征的智能实体。AI Agent可以被理解为一个由AI技术加持的,有协调组织能力的数字员工,它变得更聪明了,可以感知周围的环境,有逻辑和计划地解决问题,并且能够独立地思考和完成任务。
不同于仅能被动回答问题的传统AI助手, AI Agent的进展进入了新境界——它会成为一位真正的"数字员工",具备感知环境、逻辑思考和自主行动的能力。据Monica公司官网介绍,通过创新的"Multiple Agent"多代理架构,Manus将规划、执行和验证功能分离,实现了前所未有的任务处理能力。在GAIA基准测试中,它也展示了惊人的技术实力。
来自Manus官网
由肖弘带领的Monica.im团队,将AI Agent从实验室带入了企业实际应用场景。据相关报道,Manus不仅能处理简单查询,还能胜任复杂的多步骤任务——从人力资源筛选到市场数据分析,从代码编写到战略决策支持,都能高效完成。企业管理者们可能会惊讶地发现,原本需要团队数天完成的工作,AI Agent可能只需几小时。
公开资料表明,肖弘毕业于华中科技大学,有连续创业经历。2022年在人工智能浪潮影响下,肖弘创立了“蝴蝶效应”公司,同时推出AI浏览器插件Monica。此次的Manus延续Monica产品思路。Manus一词来自拉丁语,象征“手”,拉丁语中的“Mens et Manus”意为手脑并用。值得关注的是,据相关媒体报道,Monica团队本身并不自研大模型,而是基于业内大模型开发“套壳”产品。在很多人把目光聚焦在OpenAI、DeepSeek等基础大模型进展的时候,Monica团队悄悄地从应用层“另辟蹊径”。
特别值得一提的是,肖弘是90后,比此前火爆全球的DeepSeek创始人80后梁文锋更年轻。
《管理视野》于第38期“趋势”栏目中,就颇具前瞻性地刊登了《AI Agent——智能时代的新数字员工》一文,于此AI Agent热潮风起云涌之际,我们再度呈现此文,夹杂期待与冷静的思辨,见证人工智能浪潮的新一轮精彩。
AI Agent
——智能时代的新数字员工
文/ 徐增林、周潪剑、李筑聪、陈嘉翔
说到AI Agent的发展历程,我们需要回溯下其短暂而精彩的发展史。
2024年3月12日,由多名国际信息学奥林匹克竞赛的金牌选手创办的Cognition Labs迎来了一位神奇的全栈程序员——Devin。这位Devin从前端到后端,无所不能,能独立构建和部署应用程序,找bug修bug样样在行,甚至在深度学习领域也是行家里手,能训练和优化AI模型。在一个忙碌的工作日,Devin正忙着解决一个技术难题。他披着团队创始人Steven Hao的“马甲”,伪装成Steven Hao向客户公司CTO Akshat Bubna提问。
对话一开始,Devin就直奔主题,询问对方公司平台的密钥生命周期问题。Devin表示自己已经查阅了各种文档,包括密钥和环境变量指南、CLI命令参考、API参考以及容器生命周期钩子(hooks)和参数,但仍旧没有找到关于密钥传播时间的明确信息。同时Devin进一步询问,更新的密钥通常需要多长时间才能被应用程序使用,因为这对于他们的运营至关重要,了解这一点将有助于管理他们的部署流程。
AI创业者Raunak Chowdhuri看完整个过程后评价道:“发现问题、创建工单、调整代码,最优秀的开发者就是这样工作的。”永远不知疲倦的AI软件工程师Devin的发布,不仅在科技圈内引起了轰动,更在SWE-bench基准测试中展现出了卓越的性能。Devin能够解决13.86%的问题,而GPT-4仅能处理1.74%的问题,这一成绩显著高于现有的其他模型。
在官方发布的演示视频中,Devin能够通过阅读资料,自主学习新技术。这种自我学习的能力使得Devin能够适应不断变化的技术环境,并使用这些新技术来构建和部署端到端的应用程序。除了学习和应用新技术,Devin还能够自主查找和修复代码库中的Bug,不仅能够帮助维护代码质量,还能够训练和微调自己的AI模型。
在2024年Snowflake峰会开发者日上,人工智能领域的领军人物吴恩达 (Andrew Ng) 发表了题为“AI代理工作流及其推动AI进展的潜力 (How Al Agentic workflows could drive more Al progress than even the next generation of foundation models)”的演讲,他指出:AI Agent工作流将推动人工智能取得巨大进步,甚至可能超过下一代基础模型。
从副驾驶到主驾驶
相比ChatGPT只能被动地回答问题,AI Agent仅需给定一个目标,它就能够针对目标独立思考并做出行动,根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,主动实现目标。随着生成式人工智能基础模型的不断进步,AI Agent在其任务上的自动化程度也逐渐加深。因此如果说此前的AI Agent还只能胜任“副驾驶”,那么随着其自主性的不断进步,在不久的将来会诞生真正的AI“主驾驶”。
2024年,北京智源人工智能研究院、新加坡南洋理工大学和北京大学提出了通用计算机控制(General Computer Control, GCC)项目,目的是希望agent能像人类一样使用屏幕、键盘和鼠标来完成计算机上的所有任务。过去,人工智能研究主要集中在游戏场景中,而GCC则为通用人工智能研究提供了更广泛的应用场景。这一项目的核心是通用计算机控制agent框架Cradle,它使agent能够直接控制键盘、鼠标,并与任何软件交互,无论是开源还是闭源的软件,甚至能够玩如《荒野大镖客2》这样的商业3A游戏。这一技术的实现,表明agent不仅可以在复杂的虚拟环境中执行任务,还可以在实际应用中表现出色,从而为大模型和AI Agent应用的落地与产业化提供了重要支持。
除了对agent处理复杂任务能力的探索,2023年斯坦福大学的人机交互研究小组还创造了一个包含25个agent的AI小镇,用以模拟社会互动。这个AI小镇设有大学、公寓、咖啡馆和书店等基础设施,agent在其中居住并进行日常活动,尽管他们没有意识到自己生活在模拟环境中。这些agent不仅能去工作、闲聊、组织社交活动、结交新朋友,甚至能坠入爱河,每个agent都有独特的个性和背景故事。通过这种社会化模拟,展示了agent在复杂的人类社交环境中的适应能力和行为多样性。
通过以上两个案例,我们可以看到用AI模拟人类社会以及解决复杂任务的能力已经成为了一种研究趋势。agent已经能够在虚拟环境中模拟和执行各种复杂任务,不仅限于游戏和模拟环境,还包括与各种软件的交互和社会化生活。这表明agent具备成为AI员工的潜力,可以在实际工作中承担更多复杂的任务。
清华大学的研究团队尝试了AI员工的一些早期探索,他们打造了一个名为ChatDev的虚拟软件公司,由各种具有不同角色的Agent运作,包括CEO(首席执行官)、CPO(首席产品官)、CTO(首席技术官)、程序员、代码审查员、测试员和艺术设计师等。这些Agent组成了一个多代理组织结构, 这家虚拟公司被设定了一个使命是"通过编程革新数字世界"。
ChatDev内部的Agent通过参与专门的功能研讨会进行协作, 从需求分析,设计、编码、测试和到最终的文档编写,依次完成软件开发各个阶段的任务。在“公司”中,每个bot分别扮演CEO、程序员、设计师等不同角色,涵盖了游戏研发涉及的所有岗位。
安全可信的数字劳力还有多远?
没等到Devin和人类程序员开始争抢饭碗,剧情却突然转向了。尽管在Cognition官网发布的长达1分50秒的演示视频里,Devin只需一句指令,就能端到端地处理整个开发项目,但YouTube博主卡尔却站出来质疑,认为这些宣传并不完全真实。
卡尔指出,Devin在操作过程中看似修复了许多问题,但这些问题很多都是Devin的“自导自演”。在视频的2.936秒处,屏幕左上角显示“他们搜索过这个任务”,这意味着演示视频中的任务并非随机,而是演示者选择的,甚至还有“自己现写bug然后当场修复”的操作。卡尔还指出,Devin声称能解决任何任务,但演示中解决的问题并不是问题中要解决的那一个,简直是在做无用功。有时,Devin看似在修复bug,但这些bug毫无意义,因为真正的人类程序员根本不会犯那种错误。还有些时候,Devin在做没有意义的事情,把简单的问题复杂化。更让人无奈的是,Devin修改代码的真实水平也令人失望。在演示视频中,Devin花费了足足6个小时才完成任务,而博主卡尔仅用了半个多小时就完成了相同的任务。看来要想AI agent成为靠谱的数字员工,企业还需要等待一段时间。
于此同时我们也要前瞻到这样的趋势,尽管这个案例里的Devin存在被虚假炒作和过度包装的嫌疑,其作为程序员的能力被夸大了,但不能否认从AI辅助编程到AI独立编程的新发展趋势。AI程序员的存在确实可以协助人们独立完成简单的开发工作,甚至可以脱离真正程序员的帮助,减少大量不需要创新的重复劳动。然而,对于公司而言,无论是人类程序员还是AI程序员,最重要的是最终写出来的代码是否安全可信。
Devin的背后实际上是以大语言模型(LLM)驱动的,而LLM目前仍存在幻觉和数据污染等问题。这些问题同样影响了Devin的表现。事实上,不仅是AI 程序员,其他岗位的AI员工距离企业商业运作中真想要雇佣的安全可信的数字劳力都还有不小的距离。
为了加速实现这个目标,近期来自复旦大学的技术团队开发了一个名为AI2Apps的一站式AI员工开发与端侧服务平台,将Devin的开发模式复刻到了任何岗位的AI员工上。团队自研了一套基于浏览器的Agent操作系统,提供全套的开发人员工具,包括终端、文件管理、Agent调试、代码编辑器和浏览器沙盒环境等,让开发者能在“建筑师Agent”的主导下完成任何岗位AI员工团队的构建与组合。经过AI2Apps的端侧部署后,AI员工可以通过浏览器在各种用户设备中既“无所不能”又“有所不为”,模拟人类员工办公的同时又避免了直接操控用户设备。
这条路,还是充满乐观前景的,相信之后会有更多AI Agent现象级产品涌现。
企业新质生产力
AI Agent可以被视为智能时代的一种新质生产力,它与人类劳动力的关系类似于电子货币与现实货币的关系。
Agent可以和传统的组织管理办法相结合,将复杂问题分解成更小的子问题,优化现有工作流程,提升整体业务的反应速度和处理能力。Agent还可以是工程化思想的切实工具,用来对抗个体工作的不确定性。Agent不仅可以用工程化的思想提高群体的工作均值,还能实现行业know-how的具象化。Agent能够分析和处理大量企业私有文档和资料,将隐含在其中的专业知识和行业know-how进行数字化和系统化。通过不断标注和反馈,专家的个人知识可以丰富和完善知识库,形成知识闭环,使系统能够持续学习并提升性能。总之,AI Agent的出现将深深改变未来人机交互的方式,使得专业知识能够被更轻松复制与传承。
此外,AI Agent可以很好地应用在企业场景中,可以部署在边缘设备上——即仅在本地处理和分析数据,而无需将数据上传到云端的大模型。这种方式不仅减少了数据传输的延迟,还有效保护了企业的各种敏感信息和独家私密数据。
可以预见,随着AI Agent研究的不断发展,Agent和人类的合作将越来越广泛,人类的合作网络也将升级为一个人类与AI Agent的自动化合作体系,人类社会的生产结构可能将会出现变革。未来的某一天,我们人类将不再局限于简单的重复性劳动,而是通过与AI的协同合作,从事更高层次的创新工作,从而开拓一个美丽新世界。
徐增林是复旦大学人工智能创新与产业研究院教授,周潪剑、李筑聪、陈嘉翔是复旦大学人工智能创新与产业研究院在读博士。
编辑丨宋朝阳 谭相宜
排版丨刘蕊绮
审校丨宋朝阳