知识星球 | 深度连接铁杆粉丝，运营高品质社群，知识变现的工具

来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_2764400.010007681038753713.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_4340400.6970865049472149.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_2832470.0537392219657864.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_4463310.8089405812617014.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_2930610.32112310187626936.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_4477900.14937369836643322.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_2981840.1514947216733773.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_4537520.7618302581905636.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_3010030.010539204999534313.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_4428530.3460789348096921.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_3388670.8089076201366081.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_5362990.20322036955837053.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_3744110.2860100308247031.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_5787290.5466774042115311.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_3631770.8324793881130258.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_5766120.5169582454212186.jpeg)

arXiv论文

Agent

视频理解

计算机视觉来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_3782260.21380520372527123.jpeg)

HuggingAI

2024-03-18 13:20

VideoAgent 是一项通过运用大型语言模型作为智能代理，实现对长格式视频内容深度理解的技术方案。 面对长视频理解这一计算机视觉领域的重大难题，我们模仿人类对此类信息的认知方式，重点关注跨模态、长时序的交互式推理与规划能力。为此，我们创新提出了一种名为VideoAgent的智能代理系统，其核心是一个大型语言模型，能循环识别并汇总关键信息以解答问题；同时，利用视觉-语言基础模型作为辅助工具，实现视觉信息的翻译与检索。经过在颇具挑战性的EgoSchema和NExT-QA基准上的严格评估，VideoAgent仅凭借平均每段视频片段8.4帧和8.2帧的数据，就取得了54.1%和71.3%的出色零样本准确率。这些成绩不仅体现了我们方法相较于现有最先进方法的高效与精准优势，也有力彰显了基于代理的方法在推动长视频理解深入发展方面的巨大潜力。 原文链接:[\[2403.10517\] VideoAgent: Long-form Video Understan...](https://arxiv.org/abs/2403.10517 "[2403.10517] VideoAgent: Long-form Video Understan...") #arXiv论文# #Agent# #视频理解# #计算机视觉#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_231315_5833940.6928468676431783.jpeg)

arXiv论文

Agent

视频理解

计算机视觉