开云体育(中国)官方网站代替东说念主类完成各式任务-开云集团「中国」Kaiyun·官方网站

栏目分类开云体育(中国)官方网站代替东说念主类完成各式任务-开云集团「中国」Kaiyun·官方网站

你的位置:开云集团「中国」Kaiyun·官方网站 > 新闻动态 >

开云体育(中国)官方网站代替东说念主类完成各式任务-开云集团「中国」Kaiyun·官方网站

发布日期:2025-07-16 06:58    点击次数:141

开云体育(中国)官方网站代替东说念主类完成各式任务-开云集团「中国」Kaiyun·官方网站

AIxiv专栏是机器之心发布学术、时候内容的栏目。昔日数年,机器之心AIxiv专栏领受报说念了2000多篇内容,袒护各人各大高校与企业的顶级执行室,灵验促进了学术相似与传播。如若您有优秀的责任念念要共享,接待投稿或者推断报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近期,OpenAI CEO Sam Altman 晓示,2025 年将推出名为 “Operator” 的诬捏职工主见,AI 代理将梗概自主实行任务,如写代码、预订旅行等,成为企业中的 “数字共事”。

在 OpenAI 发布 “Operator” 之前,清华、复旦和斯坦福的扣问者荟萃提议了名为 “Eko” 的 Agent 竖立框架,旨在让竖立者通过简约的代码和当然谈话,快速构建可用于分娩的 “诬捏职工”。这种框架使得 AI 代理梗概遴选用户的电脑和浏览器,代替东说念主类完成各式任务,为责任历程提供自动化接济。

张开剩余90%

论文标题: Eko: Build Production-ready Agentic Workflow with Natural Language 技俩主页: https://eko.fellou.ai 技俩地址:https://github.com/FellouAI/eko Docs:https://eko.fellou.ai/docs

中枢时候改造:

1. 夹杂智能体默示:提议了 “Mixed Agentic representation”,通过无缝联接抒发高级次联想的当然谈话(Natural Language)与竖立者低档次完了的方法谈话(Programming Language)。

2. 跨平台 Agent 框架:提议环境感知架构,完了吞并套框架和编程谈话,同期接济浏览器使用、电脑使用、行动浏览器插件使用。

3. 分娩级干扰机制:现存 Agent 框架多数强调自治性(Autonomous),即无需东说念主类干扰,而 Eko 框架提供了显性的分娩级干扰机制,确保智能体责任流不错随时被中断和调遣,从而保险东说念主类对分娩级智能体责任流的灵验监管和治理。

Eko:纠正分娩级智能体竖立的框架

让咱们用实质的例子来感受一下这个 Agent 框架的竖立难度:只需要一句话,就不错让 Eko 生成一个全 Agent 帮你作念股票分析。这不等于妥妥的分娩力器具吗!确实目田双手!

“在雅虎财经上网罗纳斯达克的最新数据,包括主要股票的价钱变化、市值、往复量,分析数据并生成可视化讲演。” “ 刻下登录页面自动化测试: 1. 正确的账户和密码是:admin / 666666 2. 请立时组合用户名和密码进行测试,以考证登录考证是否平淡责任,举例:用户名不成为空、密码不成为空、用户名不正确、密码不正确 3. 终末,尝试使用正确的账户和密码登录,考证登录是否到手 4. 生成测试讲演并导出” 计帐刻下目次下大于 1MB 的通盘文献

环境感知架构(Environment-Aware Architecture)

主要场景

i)浏览器使用:主要专注于通过图形用户界面(GUI)来操作网页和浏览器中的元素,常见的完了格式包括截图和网页索求时候。

ii)电脑使用:与浏览器不同,Node.js 自动化则主要面向敕令行界面(CLI)操作和文献系统经管,改日还会引入 GUI 感知才调。

架构先容

Eko 的跨平台竖立是通过其 环境感知架构(Environment-Aware Architecture)完了的,这一架构由三个重要档次组成:通用中枢(Universal Core)、环境特定器具(Environment-Specific Tools) 和 环境桥接(Environment Bridge)。

1. 通用中枢:这一层提供了与环境无关的基本功能,如责任流经管、器具注册经管、LLM(大谈话模子)集成和钩子系统。

2. 环境特定器具:每种环境(如浏览器膨胀、Web 环境、Node.js 环境)齐提供了优化的器具集。

3. 环境桥接:这一层认真环境的检测、器具注册、资源经管和安全戒指,确保不同平台之间梗概到手互动和通讯。

安全性和拜访戒指:Eko 针对不同环境实施了合乎的安全顺序。浏览器膨胀和 Web 环境齐弃取了严格的权限戒指和 API 密钥经管,而 Node.js 环境则允许更庸俗的系统级拜访,基于用户权限进行文献操作和敕令实行,在需要时会在实行前肯求用户说明。

自动器具注册:通过 loadTools () 等器具,Eko 自动注册适用于刻下环境的器具,这使得竖立者不错在多个环境中无缝地切换,并确保器具的正确加载。

档次化议论(Hierachical planning)

咱们提议档次化感知框架,将任务的拆解分为两层,包括 Planning layer 和 Execution layer。其中 Planning layer 认真将用户的需求(当然谈话或代码谈话默示)和现存器具集拆解成一个有边界特定谈话(Domain-specific language)默示的任务图(Task graph)。任务图是一个有向无环图,态状了子任务之间的依赖联系。该任务图由 LLM 一次性合成。在 Execution layer 中,凭据每个任务调用 LLM 来合成具体的实行行动和器具调用。

多步合并优化:当 Eko 检测到两次实行齐是对 LLM 的调用时,会触发框架的自动合并机制,将两次调用的 system prompt 自动整合,合并成一次调用。从而加速推理速率。

视觉 - 交互身分荟萃感知(Visual-Interactive Element Perception)

视觉 - 交互身分荟萃感知框架(VIEP)是一种新颖的浏览器感知处置有谋划,通过将视觉识别与元素高下文信息联接,权臣培育了在复杂网页中的任务精度和驱散。它通过索求网页中的交互元素(如 A11y 树),并将其映射到边界特定谈话(DSL),生成高效的伪 HTML 代码,简化了元素的表征。不同于传统的 A11y + Screen shot 有谋划,VIEP 在视觉信号方面,引入了 Set-of-Mark,确保每个元素的视觉象征符与伪 HTML 中的象征符逐一双应,培育了元素识别的精度。为了优化性能,截图辩别率被压缩至原始的 60%,同期画质压缩至 50%,减少了资源花费,同期保握了满盈的识别质地。

与传统的 HTML 默示比拟,VIEP 通过简化交互元素和生成紧凑的伪 HTML 结构,幸免了径直处理浩大 HTML 内容的支拨。举例,Google 首页的 HTML 从 22 万字符减少至仅 1,058 个字符,大幅提高了处理速率和准确度。

VIEP 不仅优化了性能,裁减了资本,还培育了跨环境稳健性,确保自动化操作在不同浏览器和操作系统中踏实运行。

分娩级的可干扰机制

在构建 AI 驱动的自动化系统时,竖立者常常需要监控任务的实行情况,随时调遣行动,或在必要时进行干扰。固然 “钩子” 是软件竖立中的常见认识,但在 Eko 中,它们承担了特有的扮装 —— 在 AI 自动化和东说念主工监督之间架起了一座桥梁。简便来说,你不错在 Workflow 实行前后插入我方的逻辑,比如考证输入、处理驱散、以致重试失败的任务。代码如下:

JavaScript

await eko.execute (workflow, {

hooks: {

beforeToolUse: async (tool, context, input) => {

console.log (`准备实行器具:${tool.name},输入参数:`, input);

return input;

},

afterToolUse: async (tool, context, result) => {

console.log (`器具实行完成:${tool.name},输出驱散:`, result);

return result;

}

}

});

Eko 提供三种不同层级的钩子,每个层级齐具有特有的作用:

1. 责任流钩子(Workflow Hooks)

这些钩子位于责任流的最表层,用于举座戒指和监控自动化历程的启动和收尾。举例,你不错在责任流入手之前进行资源运行化,或在责任流收尾后进行计帐和处理最终驱散。

2. 子任务钩子(Subtask Hooks)

这些钩子位于责任流的中间层,允许你在每个子任务入手前和收尾后进行监控和处理。举例,你不错在每个子任务前记载日记,或在职务完成后对中间驱散进行处理。

3. 器具钩子(Tool Hooks)

这是最细粒度的钩子,允许你在每个器具实行前后进行考证和修改。举例,你不错在器具实行前考证输入参数,或在器具实行后处理复返驱散。

钩子不错匡助竖立者及时优化责任流,提高自动化系统的精度和驱散。举例,在实行某些任务时,竖立者不错通过钩子对输入数据进行考证,留神造作信息传入系统;或在职务完成后,处理和回荡驱散,以便更好地控制输出。钩子还能匡助竖立者网罗实行数据,进行性能分析,识别瓶颈并优化自动化历程。

除了惯例的监控和调试功能,Eko 的钩子系统还接济变嫌造的使用场景。举例,在一些重要任求实行时,钩子不错暂停责任流并恭候东说念主工审批;在 AI 决策出现问题时,竖立者不错通过钩子进行东说念主工干扰或袒护 AI 的判断,确保业务历程的顺畅。

预计

无论你是 AI 竖立者也曾自动化使用者,Eko 为你提供了更天真、高效的器具,匡助你将诬捏职工部署到实质分娩环境中,培育责任驱散和质地。立即关怀 Eko,让 AI 自动化为你的分娩力加速!

作家先容

陆逸文,清华大学博士生,扣问兴致为具身智能平台和智能体。

罗卓伟,FellouAI 首席工程行家,当今从事东说念主工智能推断边界责任。

马骁腾,清华大学自动化系博士后,博士毕业于清华大学。主要扣问兴致为强化学习和智能体。

陈家棋,复旦大学硕士生,斯坦福大学拜访学生学者。主要扣问边界为谋划机视觉和智能体。

发布于:北京市