大模型知识库扒皮库
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
-
+
首页
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6441550.09416350747340596.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8443860.12859880776352217.jpeg) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6524240.5909754174240657.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8784940.8947910915616932.jpeg) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6647210.5558241623620216.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8843310.43043439206103895.jpeg) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6676410.6935680098672802.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8874460.9722493731865514.jpeg) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7203710.3718913734243532.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_9531920.13495213937728712.jpeg) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7626640.36447200134437374.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230644_0108240.7445136293827797.jpeg) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7651580.5057677207946499.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://images.zsxq.com/Fl4dDdtOhF2pTTzPQv_Gr-o3UYZv?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:dlB26Vglzw6vtSwmWzxIo4w2H8E=) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7584580.14611111608068916.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://images.zsxq.com/Fl4dDdtOhF2pTTzPQv_Gr-o3UYZv?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:dlB26Vglzw6vtSwmWzxIo4w2H8E=) arXiv论文 Agent 文档处理 多模态人工智能来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230644_1039120.13018823737960727.jpeg) HuggingAI 2024-03-16 22:50 TextMonkey——一款突破性 OCR 限制的大型多模态模型,致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级:运用零初始化的Shifted Window Attention技术,确保高分辨率输入下的窗口间连通性,从而稳住早期训练阶段;我们推测图像中可能存在冗余令牌,并引入基于相似度的筛选机制,有效精简令牌数量的同时提升模型效能。而且,TextMonkey拓展了对文本定位、语义锚定的支持,并将位置信息嵌入模型输出,大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是,TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中,我们的方法显著提高了各项任务的表现,分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长,尤其是在OCR Bench上得分高达561,一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台([GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R..."))上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能# 展开全部 ![](https://images.zsxq.com/Fl4dDdtOhF2pTTzPQv_Gr-o3UYZv?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:dlB26Vglzw6vtSwmWzxIo4w2H8E=) arXiv论文 Agent 文档处理 多模态人工智能
yg9538
2024年3月30日 23:06
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码