大模型知识库扒皮库
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
-
+
首页
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_1510680.3992894704755404.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_2674980.6179452817523718.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_1345590.4875521830244406.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_3574930.8859148256605163.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_1348320.9855486669617577.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_3591820.74386136468729.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_1567000.3440659589858679.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_3585990.9248170058868258.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_1554250.3391399497862433.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_3502590.3713113939947452.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_2624430.12005113678566481.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_3462400.015691804284286293.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_2605790.8819157082199641.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_4545920.26280901996780337.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_2513440.3588819439400025.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_4485470.6886508556084975.jpeg) arXiv论文 Agent 人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_2570240.1536990029001135.jpeg) HuggingAI 2024-03-16 23:10 为了探索通用计算机控制的可能性,我们以《[荒野大镖客2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A22 "荒野大镖客2")》为例,设计并研发了一个多模态智能体进行深度探究。通过该游戏作为案例研究,旨在揭示多模态智能体在复杂环境下的控制能力与适应性。 虽然现有大型模型及尖端工具支撑的基础智能体在特定任务和场景中表现出色,但在面对迥异场景时,由于观察与行动的巨大差异,它们往往难以适应。为此,本研究提出了通用计算机控制(GCC)设定,致力于构建一种能以类似人机交互方式,仅凭计算机屏幕图像(甚至结合音频)输入就能执行各种计算机任务、输出精准键盘和鼠标操作的基础智能体。实现GCC的关键难题主要包括四点:一是处理多模态观测信息进行决策;二是确保键盘鼠标操作的精准控制;三是具备长时记忆与推理能力;四是拥有高效的探索学习和自我提升机制。因此,我们创新设计了一个名为“摇篮”的智能体框架,它包含了六大核心模块:信息采集以提取多模态信息;自我反悔回顾过往经验;任务推理选取最优下一步;技能精选针对具体任务生成和更新所需技能;动作策划制定精确的键盘鼠标操作指令;记忆系统存储和检索以往经历及已掌握技能。为了验证“摇篮”的泛化性和自我完善性,我们将其应用于复杂AAA级游戏《[荒野大镖客:救赎2](https://wx.zsxq.com/mweb/views/weread/search.html?keyword=%E8%8D%92%E9%87%8E%E5%A4%A7%E9%95%96%E5%AE%A2%EF%BC%9A%E6%95%91%E8%B5%8E2 "荒野大镖客:救赎2")》中,标志着向极具挑战性的GCC目标迈出了试探性的第一步。据我们了解,这项工作首开先河,让基于LMM的智能体能在几乎不依赖预先知识和资源的情况下,在复杂AAA游戏中跟随主线剧情并顺利完成实际任务。项目网址为[https://baai-agents.github.io/Cradle/](https://baai-agents.github.io/Cradle/ "https://baai-agents.github.io/Cradle/")。 原文链接:[https://arxiv.org/abs/2403.03186](https://arxiv.org/abs/2403.03186 "https://arxiv.org/abs/2403.03186") #arXiv论文# #Agent# #人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231304_4570510.1169265770611011.jpeg) arXiv论文 Agent 人工智能
yg9538
2024年3月30日 23:13
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码