一文读懂:AI Agents究竟是什么?
大模型的下半场,迎接寒武纪的Agent大爆发。
5.4亿至3.6亿年前,海洋生物破发,相比于以前的单细胞或简单多细胞生物,三叶虫、海绵和脊索动物等更高层次的智能诞生了。类似寒武纪生命大爆发,BabyGPT、AutoGPT、Generative Agents等实验性产品相继出新。
从进化的角度来看,生命体的发展主要通过单元增强和组织增强两种方式实现。这两种增强方式相辅相成,使生命具备了更多样复杂的表达形式。
【资料图】
如同Agent——我们希望它是在任何系统中能够独立思考并与环境交互的智能体。
现在它已经有了一颗足够智商的“大脑”,如何让Agent像人一样思考和执行——只要给定任何一个目标,它就能自动解决各种问题。是进一步提高智商,增强智能体的“自身”单元;还是借助外部模块,强化“组织”能力?
虽然今天的Agent尚无法完成通用任务,也难以如多细胞之间的社会化分工,形成动态稳定体。但在个体Agent的局部模块上,如HuggingGPT,已展示了其使用工具的能力,包括Plug-in成为实际落地的重要里程碑,在大模型的下半场,将是Agent寒武纪落地爆发的时刻。
此刻Agent的落地瓶颈在哪里?它能否从专用抵达通用?多模态会为Agent带来什么?未来格局怎样演进?
就像地球上诞生的第一个细胞一样,即使目前的Agent尚无法替代我们在实际工作中的角色,但一切的一切都源于这第一个细胞,它是智能体进化的起点。
即使对Agent的落地再迷茫,也要继续“涌现”。
因为Agent的成败将是决定这一场GPT革命是否是新一代工业革命的关键。
以下将以结构化的思维来思考,Agent何去何从。
一、AI Agent究竟是什么?
几天前,拥有25个Agent的AI小镇正式开源,“西部世界”AI Town随之构筑,AI Agents之间的互动,将演绎出整个文明的演化进程。
OpenAI联合创始人Andrej Karpathy也高呼:“AI Agent代表着一个疯狂的未来。”
什么是Agent?Agent一词起源于拉丁语中的Agere,意思是“to do”。在LLM语境下,Agent可以理解为某种能自主理解、规划决策、执行复杂任务的智能体。
Agent并非ChatGPT升级版,它不仅告诉你“如何做”,更会帮你去做。如果CoPilot是副驾驶,那么Agent就是主驾驶。
一个精简的Agent决策流程,用函数表达式:
Agent:P(感知)—> P(规划)—>A(行动)
类似人类“做事情”的过程,Agent的核心功能,可以归纳为三个步骤的循环:感知、规划和行动。
感知是指Agent从环境中收集信息并从中提取相关知识的能力,规划是指Agent为了某一目标而作出的决策过程,行动是指基于环境和规划做出的动作。
其中,Policy是Agent做出Action的核心决策,而行动又通过观察成为进一步Perception的前提和基础,形成自主的闭环学习过程。
这一过程就像马克思主义的“实践论”:“认识从实践开始,经过实践得到了理论的认识,再回到实践中去。”Agent也在知行合一中进化。
一个更完整的Agent,一定是与环境充分交互的,它包括两部分——一是Agent的部分,二是环境的部分。此刻的Agent就如同物理世界中的“人类”,物理世界就是人类的“外部环境”。
可以想象,人类与外部环境交互的过程:我们基于对这个世界的全部感知,推导出其隐藏的状态,并结合自己的记忆和对世界的知识理解,进而做出Planning、决策和行动;而行动又会反作用于环境,给我们新的反馈,人类结合对反馈的观察,继而再做决策,以此循环往复。
最直观的公式:
Agent = LLM+Planning+Feedback+Tool use
其中,在做 Planning 的过程中,除了基于现在的状态,还有要记忆、经验,一些对过往的反思和总结,同时还有世界知识。
对比今天的ChatGPT,它其实并非Agent,而是一个通用的世界知识,即用来做 Planning 的知识源,它没有基于具体的环境状态,也没有Memory,Experience和Reflection。
当然,ChatGPT基于自身的知识可以做逻辑推理和一定的规划,也可以加向量数据库解决推理问题,加 Reflection 让过程更丰富,如此看来,可将ChatGPT这个端到端的黑盒子变得显性化一点儿——其实符号就是一个非常显性的系统,基于此可以定向纠错,定向提升。
对于Feedback,Agent基于Action得到正向的或试错的反馈、阶段性结果或奖励。Feedback有多种形式,如果将与我们聊天的ChatGPT视为一个Agent,我们在文本框中敲入的回复就是一种Feedback,只不过是一种文本形式的Feedback,此时我们对于ChatGPT来说,就是一种环境。RLHF也是一种环境,一种极度简单的环境。
“人类之所以是人类,因为他会使用工具。 ”
作为智能体, Agent 也可以借助外部工具扩展功能,使其能够处理更加复杂的任务。比如LLM使用天气API来获取天气预报信息。如果不调用外部工具,Action和Feedback也可以直接通过学习Policy,应对环境。
可见Agent是真正主动释放LLM潜能的关键。LLM作为核心,Agent为LLM提供了行动的主观能动性。
今天的LLM要怎么落地?LLM作为一个智商引擎,其他周边工具均可作为Prompt,未来是否会是一个端到端的系统?如果周边的工具不够,是否会有一个更通用的适配框架?
二、Agent落地的瓶颈,是因为“智商”不够?
Agent本身用到两部分能力,一部分是由LLM作为其“智商”或“大脑”的部分,另一部分是基于LLM,其外部需要有一个控制器,由它去完成各种Prompt,如通过检索增强Memory,从环境获得Feedback,怎样做Reflection等。
Agent既需要大脑,也需要外部支撑。
针对目前Agent在实际落地中的阻碍,其原因是LLM自身的“智商”不够,还是其外部的系统化程度不够?
如果外部系统化程度不够的话,它将是一个长期待解决的问题。如果只是智商不够的问题,当GPT-4成为GPT-5,有了更高的智商,即可弥补之前的问题。
那么到底Agent的主要瓶颈在哪里?
真正理解这个问题的症结,可以先做错误归因。即在实际的错误中,清晰地归因到底是LLM本身的问题,还是Prompt的方式不对。
比如向语音助手询问“天气怎么样?”,这个问题本身就存在歧义——指的是哪里的天气?是哪一天的天气?具体想要知道天气中的哪些信息?这些都不是LLM本身所能解决的问题,它需要调用外部的工具系统。
如果仅归因“智商”的话,LLM只需理解“天气怎么样”,如果有具体的上下文——如“下个月上海的天气怎么样”,LLM基于此是否能推断出准确的信息,这是“智商”问题;但具体调用什么工具,执行的参数本身是否准确,这些并非归因于“智商”。
三、未来是否能实现一个更加通用的Agent外部框架?
很多人将 LLM 作为 Agent 的实现方式,这太简单粗暴了。比如,仅为Agent设定一个目标,定义一些基本的条件约束之后,就期待它能完成自我规划、分解任务、自我提示,甚至调用外部的工具,并给出答案的全部过程。然而,LLM本身并不是这样训练的,必然不具备这种能力,但这并非归因于“智商”问题。
从Agent落地的角度来说,仍需要外部的逻辑框架。
虽然目前有许多类别的Agent,但大多很粗浅,不够通用。即使是最简单的Agent应用,语音助手或智能外呼系统,其复杂性以及如何引入环境Feedback等问题,都未得到有效解决。
因此,除了对错误进行更细致的分析外,我们应该研究的一个问题是:除了LLM本身足够通用之外,是否会实现一个通用的外部逻辑框架,来解决Agent真正落地的问题?
如果我们无法找到外部通用的逻辑框架,那么现在这场所谓的AGI革命可能只是一个泡沫,一个巨大无比的泡沫,它其实可能与上一代NLP并无本质区别。
现阶段Agent的落地,不只是“智商”问题,还需要如何借助外部工具从专用抵达通用——而这是更重要的问题。
四、Agent如何能有通用的适配环境?是否需要一个learnable的环境小模型?
把LLM放进一个虚拟世界会怎么样?
在游戏《我的世界》中,英伟达开发最新方法Voyager,以15.3倍速点亮科技树,同时获得的独特物品是此前的3.3倍,探索范围是2.3倍。原因归功于GPT-4对游戏规则的深入理解和丰富的知识储备,它来源于预训练过程,而非后续的增强学习。
从这个视角来看,在优化Agent的过程中,除了关注Feedback,还应该考虑模型如何感知环境。那么通用大脑与环境模型之间的关系如何,怎么配合?Agent如何从专用抵达通用?
Agent目前还鲜少有很好且通用的落地效果,大多是解决特定场景的特定问题——将LLM作为一个通用大脑,通过Prompt设计为不同的角色,以完成专用的任务,而非普适性的应用。
这其中的一个关键问题,即Feedback将成为Agent落地实现的一大制约因素,这一点在Tool use中体现得尤为明显。对于一些如查询天气等简单问题,只需设计恰当的Prompt即可,但对于复杂的Tools应用,其成功概率会大大降低。
简单粗暴地用LLM做出Agent,是天方夜谭。
这种做法一方面忽视了Feedback的重要性,另一方面,即使LLM得到Feedback,凭借它的“智商”也可能并不完全理解所有的环境或Feedback,更难基于此调整自身行为。
想要真正成功落地Agent,是给予Agent一个更通用的适配环境,一种可能的解决方案是创建一个专门用于理解和适配环境的小模型,以此和LLM交互。
由于最强大脑的“智商”部分——LLM因为规模太大是很难针对具体Agent进行重训的,而小模型是可以适应环境变化、多次训练的。在这个场景中,我们可将LLM看作大脑,而小模型就像小脑,作为中间层专门处理环境Feedback,与GPT-4交互。
那么,Agent从专用到通用的实现路径会是什么?
假设Agent最终将落地于100种不同的环境,在目前连最简单的外部应用都难以实现的前提下,最终能否抽象出一个框架模型来解决所有外部通用性问题?
先将某一场景下的Agent做到极致——足够稳定且鲁棒,再逐步将它变成通用框架,也许这是实现通用Agent的路径之一。
五、多模态在Agent的发展中有多重要?
现在的GPT-4,是将所有的内容都转化成文本语言,然后人类去Prompt它。首先,转化过程可能会丢失信息或产生错误,从而导致结果出现偏差。
GPT的下一个版本,如果它能实现多模态在理解层面的超强能力,那它会不会在一定程度上缓解今天Agent的不可靠以及信息丢失与偏差的问题?多模态与Agent的关系将是什么样的?
如果LLM不需要在真实世界中交互,而只是在虚拟世界中执行特定任务,那么多模态对于完成任务的帮助也许并不大。但如果LLM需要与真实世界交互,那么多模态无疑非常重要。
多模态只能解决Agent感知上的问题,而无法解决认知的问题。
在很多情况下,如智能客服场景,用户可能会通过多种方式提供信息,多模态具有很好的感知价值,但在解决一些逻辑、推理等核心问题,还差距尚远。
多模态是必然趋势,未来的大模型必然是多模态的大模型,未来的Agent也一定是多模态世界中的Agent。
当在进行基于文本的Agent的开发时,当多模态的分水岭时刻到来,这些Agent是在原有基于文本的基础上继续发展,进一步融入多模态特性?还是需要彻底改变原有开发Agent的理念和架构,以适应未来的多模态世界?
Agent的开发并不需要全部推倒重来,但一旦Agent拥有了多模态能力,它将会与现有模型截然不同。比如GPT的下一代版本,它可能会包含一些更加强大的图像等多模态理解功能。我们不必急于立即构建这样的模型,也可以选择先调用这样的模块,即最好将多模态理解功能内置在模型中。
半年后,我们将会看到多模态大模型的到来。而多模态Agent的到来,可能会比我们想象中更快。
首先,许多大公司都在储备军火一般地研发多模态。这种量变的积累非常容易引发质变,可能很快就会有实际的产品被推出。其次,人们期待的Agent是如同人类一般的助手,他不仅能说话,还能看到、听到、感知到。理论上,一个优秀的Agent应该能实现多感官、多模态的交互,Perception、Policy都需要多模态。
随着RT-2的发布,一种新的视觉语言动作模型VLA,它将多模态大模型塞进机械臂,实现了实体机器人版ChatGPT。
从趋势上看,未来的Agent一定是多模态的。Agent要成功,多模态也一定是必要的。
在多模态交互方面,数字人也提供了一个很好的示例,它展示了调用外部工具的优势。当大模型调用数字人时,因为形象都已提前设定,我们就无需担心它会突然生成某个政治人物的形象或声音,甚至包括他的幻觉。
尽管美其名曰“生成式AI”,其“生成”部分,最好调用外部工具,以保证其确定性,规避大模型的幻觉。
比如,在多模态交互中,如果想要LLM扮演特朗普,并直接生成一支祝贺视频,那么很可能存在风险。如果LLM仅生成脚本,然后调用既定的数字人和声音接口合成视频,这样更安全可控。
六、多Agent真的会成功吗?
现在的 Agent 还是山顶洞人,但多AI Agents互动会改变一切。
在灵感来自模拟人生游戏的 Generative Agents 实验中,其每个角色都分别由一个 AI Agent 控制,它们在沙盒环境中生活和互动,充分体现了将反馈和环境信息转化为行动的过程,实现 AI Agents 的“社交”。
其中在规划和反应的环节,AI Agents 会充分考虑彼此之间的关系,以及一个 Agent 对另一个 Agent 的观察和反馈,来采取下一步动作。
这个有趣的模拟随之引发了一些戏剧化的社会现象,比如“谣言”的扩散、关系记忆等,在实验中经常出现两个 AI Agents 在聊天中延续他们之前的话题、办Party、呼朋唤友等社交活动。
显然,Agent 的真正落地,一定是建立在对环境的感知、动态学习,以及不断更新之上的。
七、Agent最先在什么场景落地?
早在今年2月,一些在线教育公司开始频频活跃在大模型的讨论上。“我们的行业,如果再不行动的话就会第一个被颠覆”,在大部分公司还未感受到大模型的冲击时,一家头部在线教育公司的人先做出预判和隐忧。
而哪些行业会最先被Agent颠覆,哪些行业不会那么快?
大模型的能力众所周知,但“智商”只是Agent落地的一部分。即使OpenAI宣称AGI已经来了,如果你对行业一无所知,也很难做出实际的应用。
就像一位斯坦福的博士,如果不懂一家公司的行业和产品属性,那么工作初期的难度也会很大。所以,我们需要更深入地讨论哪些行业更适合Agent落地。
比如可以完全在线化、数字化的在线教育行业,尤其在过去的三年疫情期间,许多线下行业都遭受打击,而在线行业却因为数字化的优势得以较快发展,它也会最先被Agent颠覆。相比而言,机器人或传统行业,反而在短时间内较难被颠覆。
目前无论是中国还是美国,新的共识正在逐渐形成:第一是Agent需要调用外部工具,第二是调用工具的方式就是输出代码——由LLM大脑输出一种可执行的代码,像是一个语义分析器,由它理解每句话的含义,然后将其转换成一种机器指令,再去调用外部的工具来执行或生成答案。
尽管现在的 Function Call 形式还有待改进,但是这种调用工具的方式是非常必要的,是解决幻觉问题的最彻底的手段。
八、Agent的未来发展格局是百花齐放,还是Winners take all?
未来大模型的竞争格局日渐明朗,必然几家独大,或基于开源。
而未来一两年内,Agent的市场格局将会如何,会形成同等的势态么?
由于Agent并非能实现通用,Agent并非一家独大,而是将形成一个非常长尾的供应商格局。市场上将会有很多Agent,每一个 Agent 都由不同的公司运营。
如同上一代NLP,很多AI公司都提供智能客服或自动外呼服务,但每一家公司只能服务少数的客户,无法形成规模效应。基于今天对Agent的技术判断,与上一代并无太大区别。
虽然LLM的语义理解是通用的,但是我们之前讨论过的Agent的环境、领域结合并不通用,这会导致市场非常分散,没有强者越强的公司出现。
当然,Agent也分为深度和浅度两种类型。
我们希望做通用的Agent。在中国的市场环境下,如果做一个与企业深度结合的Agent,最终将成为“外包”,因为它需要私有化部署,集成到企业工作流里。很多公司都会去争抢保险公司、银行、汽车领域的大客户。这将与上一代AI公司的结局非常相似,边际成本很难降低,且没有通用性。
未来是Agent的世界,在今天的Agent进程下,依然重复昨天AI的故事,私有化部署将面临挑战。
标签:
- 一文读懂:AI Agents究竟是什么?
- 一分钟学会看k线图?
- 最新!涟水机场改扩建规划方案出炉!
- 考入武汉高校的新疆学子,在家收到特殊礼物
- 中指快评丨江西南昌出台楼市新政 实行阶段性购房补贴 推行货币化和“房票”安置方式
- 高温天车门意外被锁!车钥匙和1岁孩子被困车内,南京江北铁骑队员果断破窗
- 马斯克:我将要参加美国总统选举,特朗普:我做你的最佳搭档!
- 藤县人大常委会到藤县法院调研环境资源审判工作
- 数读中国 | 海上风起绿电来 我国海上风电建设再上新台阶
- 赶紧删除这些App,江苏近期已有176人被骗
- 深交所对和佳退及相关人员予以处分
- 朝鲜发出核战争警告
- 华新环保:2023年半年度净利润约6256万元,同比下降8.11%
- 中国宝安:股东富安公司减持计划期限已届满 减持股份593.46万股
- 注意!德赛西威将于9月1日召开股东大会
- A股又现百亿女富豪
- 2023宜昌当阳市最新优质民宿推荐
- 中国恒大突然宣布:会议延期!恒大地产被立案
- 腾讯高管:基础大模型将在下半年升级
- 8月18日午间评论
- 泰安高铁站近九成是按摩椅?部分旅客席地而坐!官方出手:不得超总量20%
- 威力传动:拟50亿元投建风电增速器智慧工厂项目
- 河北等16个受灾地区保险机构已赔付25.4亿元
- 一高铁站近9成是按摩椅?铁路部门整改规范:多功能候车座椅数量不得超过全部候车座椅的20%
- 陆贽论人才给我们的启示 陆贽论人才
- 9999千足金今日价格表(2023年8月18日)
- 以前干过很长时间医疗代表,没想到真有打击的一天
- 快讯 | 十八洞村65名村民从家门口直飞北京首都
- 湖南日报头版|第二届湖南旅发大会筹备工作有序推进
- 多部门联动,聚焦小区“停车难”问题
- 避开游戏发售热潮,《心灵杀手2》将会跳票到10月27日发售
- 工信部:推动出台《关于促进网络安全保险规范健康发展的意见》
- 最高检、国家林草局建立协作机制,以法治合力保护林草资源
- 稳健医疗将于9月5日召开股东大会
- 普源精电:新一代旗舰高端数字示波器搭载“仙女座”自研核心技术平台 拥有全部自主核心知识产权
- 太空中也能“望闻问切”!中国空间站收获多项航天医学阶段性应用成果
- 董勇(关于董勇简述)
- 安疆(关于安疆简述)
- 蓝山咖啡 中山一路(关于蓝山咖啡 中山一路简述)
- 沈阳人注意!延时运营!最晚延至24时!
- 天富能源:上半年净利润2.43亿元 同比扭亏
- 大英博物馆部分黄金珠宝馆藏被盗
- 为共建清洁美丽世界作出更大贡献——习近平总书记在首个全国生态日之际作出的重要指示激励干部群众奋力推进生态文明建设
- 社评:韩国清楚它蹚的这滩浑水意味着什么吗
- 汽车发电机坏了有什么症状(12伏汽车发电机多少瓦?)
- 游泳馆回应两名女性闯入男更衣室给小孩换衣服:在整改,发现此情况可及时反馈
- 重疾保险那家好该怎么判断?投保方式有哪些?
- 延庆昌赤路新线全线通车
- 预算75万 福建省疾控中心采购荧光定量PCR仪等实验室设备
- 中国天气网8月16日重点天气预报
- 兰州大学管理学院排名 兰州大学管理学院
- 辽宁省考资格审查准备什么 辽宁省省考资格审查
- 始兴面膜能不能给皮肤补水?
- 福寿园(01448.HK)公布中期业绩:营收增68.2%至15.25亿元,纯利同比飙升78.0%,拟派中期息每股9.06港仙
- 北上资金连续抛售权重股 游资封板中银绒业
- 玉米行业市场前景分析:余粮见底玉米价格刷新高位 下旬供需紧张缓解或难再涨
- 雪莲果的出产地在哪里?有什么营养?(雪莲果产地在哪里)
- 新手必看的使命召唤现代战争3下载购买教程
- 盖棺论定了 《自然》发文称韩国LK-99不是超导体:杂质影响的
- 5家金融机构同日被罚!
- 包装商上海艾录上半年业绩下降,二季度企稳回升
- 危险!游客头发突然竖起变“海胆”?专家:不能跑
- 小米MIX Fold 3 续航能力变差了怎么解决
- 红色历史、非遗体验……广州日报这个“主题课堂”开课啦
- 普陀区发布支持元宇宙企业科创政策包“元十条”
- 苹果iPhone出货量首次超过美国 美版iPhone13只卖1099元
- dnf称号右下角怎么还有个小的(dnf称号右下角)
- 车评头条:2013款现代圣达菲Sport 2.0T测评(中)
- 8月18日山东地区氢氟酸市场价格上涨
- 吊顶剖面图怎么画(剖面图怎么画)
- 对LK-99的最后一击?德国团队公布晶体样品结果:不超导
- 消息称vivo OriginOS 4.0暂定10月登场,将内置大模型
- 金杨股份:8月17日融资买入2557.88万元,融资融券余额4112.43万元
- 咸宁市多部门联合开展“九小场所”消防安全专项整治行动
- 工商银行伊犁分行多措并举推进丝绸之路经济带核心区建设
- 阿迪达斯业绩回暖,依旧挡不住被国产替代
- 等等党有福了 下半年三款7座新车来袭 款款都很能打
- 新智认知:2023年上半年持续企稳回升,净利润同比增长125%
- 中国创新投资(01217)发布中期业绩,股东应占溢利713.6万港元,同比增长222.6%
- 督促企业真合规真整改 碧江检察院联合第三方监督评估组织实地考察涉案企业
- AI能取代你的工作吗?50%受访美国人:能!
- 电缆线掉落悬挂半空,交警变身“人力电线杆”
- 优质资源“下沉” 社区医院“扎根”
- 云南大姚:绿美交通促生态环境美
- Epic喜加一:《黑书》《渡渡鸟峰》免费领取
- 满打满算,NBA这75年来,统治过时代的仅5人,库里和詹姆斯差了点
- 百千万 新突破!茂名争当市域发展县域振兴排头兵
- 甘堰土家族乡:人大代表走进屋场会 听民声察民情聚民心
- 幻昼钢琴谱光遇 幻昼钢琴谱
- 上海长宁区在港举办推介会 拓展招商引资“朋友圈”
- 关于游泳的那些事,你都知道吗?
- 蓝鞋子(关于蓝鞋子简述)
- 蓝马甲志愿者服务队(关于蓝马甲志愿者服务队简述)
- 凯淳股份:8月17日融资买入1117.99万元,融资融券余额4981.93万元
- 同飞股份:8月17日融资买入210.03万元,融资融券余额4235.84万元
- 湖北首批“姐妹共建·幸福家园”样板点揭晓
- 贵州:省政府财政部门应当会同相关部门探索数据资产入表新模式
- 华昌化工:截至2023年8月10日,股东人数为66377
- 不是王濛、张继科,央视爆料最新进度,球迷终于等到了!
- 董博(关于董博简述)