RAG+Agent在实际业务落地案例分享+项目推荐
大模型架构的经典分层,即:应用层、工具层、模型层 & AI Infra:
应用层 - 大模型应用:主要以 RAG&AI Agent 初代的模式透出,主要的落地场景包括内部数据分析 - GBI 即生成式 BI、研发辅助提效 - 生成式 Code、面向外部用户和小二的知识库问答 - 如 ChatPDF;* 工具层 - 应用构建能力:主要介绍如何高效快速去构建自己场景的大模型应用(重点在 AI Agent 的构建),有应用构建工具 - LangChain, Agent 开发框架如:MetaGPT,MaaS 平台如 ModelScop-Agent&Agents for Amazon Bedrock 等;
模型及基建层 - 大模型优化加速:核心在模型推理加速上的探索,未来以应对有限算力情况下,大模型应用规模化投产的性能和安全性诉求,目前也是业界争相要探索突破的重点;

AI Agent 是当前业界在大模型应用方面主要研究的方向,虽然大语言模型的能力足够强大,但它依旧是被动的响应用户的指令,并且生成的效果取决于使用者如何使用它。AI Agent(智能代理)则不同,它是一个自动化的程序,它具备自主规划和执行的能力,它也被视为通往 AGI(通用人工智能)的钥匙。
1. AI Agent 1.1. AI Agent 的定义AI Agent 是人工智能代理(Artificial Intelligence Agent)的概念,它是一种能够感知环境、进行决策和执行动作的智能实体,通常基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。一个更完整的 Agent,一定是与环境充分交互的,它包括两部分——一是 Agent 的部分,二是环境的部分。此刻的 Agent 就如同物理世界中的「人类」,物理世界就是人类的「外部环境」。

在 LLM 赋能的自主 agent 系统中 (LLM Agent),LLM 充当 agent 大脑的角色,并与若干关键组件协作 。

规划(planning)
子目标分解:agent 将大任务拆分为更小的可管理的子目标,使得可以有效处理复杂任务。
反思与完善:agent 对历史动作可以自我批评和自我反思,从错误中学习并在后续步骤里完善,从而改善最终结果的质量。
记忆(Memory)
短期记忆:上下文学习即是利用模型的短期记忆学习。
长期记忆:为 agent 提供保留和召回长期信息的能力,通常利用外部向量存储和检索实现。
工具使用(tool use)
对模型权重丢失的信息,agent 学习调用外部 API 获取额外信息,包括当前信息、代码执行能力、专有信息源的访问等。
行动(Action)
行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。
1.3. 人机协同模式基于大模型的 Agent 不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。生成式 AI 的智能革命演化至今,从人机协同呈现了三种模式:

嵌入模式:用户通过语言交流与 AI 合作,使用提示词设定目标,AI 协助完成任务,比如用户使用生成式 AI 创作小说、音乐作品、3D 内容等。在这种模式下,AI 执行命令,人类是决策者和指挥者。
副驾驶模式:人类和 AI 是合作伙伴,共同参与工作流程。AI 提供建议、协助完成工作,比如在软件开发中为程序员编写代码、检测错误或优化性能。AI 是知识丰富的合作伙伴,而非简单的工具。
智能体模式:人类设定目标和提供资源,AI 独立承担大部分工作,人类监督进程和评估结果。AI 体现了自主性和适应性,接近独立行动者,人类扮演监督者和评估者的角色。 智能体模式比嵌入模式和副驾驶模式更高效,可能成为未来人机协同的主要模式。在智能体的人机协同模式下,每个普通个体都有可能成为超级个体,拥有自己的 AI 团队和自动化任务工作流。他们可以与其他超级个体建立更智能化、自动化的协作关系。现在业内已经有一些一人公司和超级个体在积极探索这一模式。
2. AI Agent 应用当前,AI Agent 已是公认大语言模型落地的有效方式之一,它让更多人看清了大语言模型创业的方向,以及 LLM、Agent 与已有的行业技术融合应用的前景。目前大语言模型的 Agent,在代码生成、数据分析、通用问题解答、科学研究等多个领域内,都有一众开源或闭源项目,可见其火爆程度。

Agent 和 RAG 是入局容易、但后期同样水很深的领域。目前看绝大多数团队都选择自研,并没有形成主流的技术栈和生态。知识库召回是大家关注的核心技术点,丰富的多路召回能力有能显著提升效果。应用场景方面,从本次会议中获取到的场景是:AI 赋能大数据分析、AI 赋能智能营销、AI 赋能智能办公等。关于 multi-agents,目前业界普遍认可是未来的大趋势,但由于 agent 方向还处于早期阶段,能够落地的方案目前还比较少,大部分场景通过 Flow 和单 agent 去解决。关于开源。目前 Agent 和 RAG 的方向非常火热,一旦有个好用的开源框架或者工具出来就会得到不错的关注度,比如 RAGFlow。但国内能做开源的公司还是比较少,行业需要更好的开源环境和氛围催生行业发展。会议中大部分分享的内容都是从算法工程师的角度出发去优化效果,目前能关注到 Agent 和 RAG 相关基础设施的同行还比较少。原因应该是目前大家都还处于调试算法和效果阶段,还看不到太多生产化和规模化落地的需求。但我发现多个演讲中也提到了目前 Agent 存在的问题之一是执行效率。我们相信以 Agent 为中心的 AI 应用范式一定会颠覆传统的互联网应用。随着行业的发展,Agent 会从一个服务型应用转变成一个计算型应用。Ray 团队会持续探索分布式计算引擎在 AI 应用方向的融合计算能力,打造新一代的高效的 AI 基础设施,为解决 AI 应用落地中的分布式、生产化和规模化等问题找到通用的解决方案。