大模型知识库扒皮库
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
-
+
首页
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球  HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部  arXiv论文 Agent 文档处理 多模态人工智能
yg9538
2024年3月30日 23:06
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码