知识星球 | 深度连接铁杆粉丝，运营高品质社群，知识变现的工具

来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6441550.09416350747340596.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8443860.12859880776352217.jpeg)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6524240.5909754174240657.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8784940.8947910915616932.jpeg)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6647210.5558241623620216.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8843310.43043439206103895.jpeg)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_6676410.6935680098672802.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_8874460.9722493731865514.jpeg)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7203710.3718913734243532.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_9531920.13495213937728712.jpeg)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7626640.36447200134437374.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230644_0108240.7445136293827797.jpeg)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7651580.5057677207946499.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://images.zsxq.com/Fl4dDdtOhF2pTTzPQv_Gr-o3UYZv?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:dlB26Vglzw6vtSwmWzxIo4w2H8E=)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230643_7584580.14611111608068916.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://images.zsxq.com/Fl4dDdtOhF2pTTzPQv_Gr-o3UYZv?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:dlB26Vglzw6vtSwmWzxIo4w2H8E=)

arXiv论文

Agent

文档处理

多模态人工智能来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230644_1039120.13018823737960727.jpeg)

HuggingAI

2024-03-16 22:50

TextMonkey——一款突破性 OCR 限制的大型多模态模型，致力于深入理解和解析各类文档内容。 我们推出的TextMonkey是一款针对文档问题回答、场景文本分析等文本核心任务量身打造的大型多模态模型。我们在多个层面对模型进行升级：运用零初始化的Shifted Window Attention技术，确保高分辨率输入下的窗口间连通性，从而稳住早期训练阶段；我们推测图像中可能存在冗余令牌，并引入基于相似度的筛选机制，有效精简令牌数量的同时提升模型效能。而且，TextMonkey拓展了对文本定位、语义锚定的支持，并将位置信息嵌入模型输出，大大增强了模型的可解释性和降低了虚幻生成的风险。更值得一提的是，TextMonkey还可通过微调来习得理解和执行点击截图指令的能力。在一系列基准测试中，我们的方法显著提高了各项任务的表现，分别在Scene Text-Centric VQA、Document Oriented VQA和KIE任务上取得了5.2%、6.9%和2.8%的增长，尤其是在OCR Bench上得分高达561，一举超越先前开源的所有大规模多模态文档理解模型。相关代码即将在GitHub平台（[GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...](https://github.com/Yuliang-Liu/Monkey "GitHub - Yuliang-Liu/Monkey: Monkey (LMM): Image R...")）上公布。 原文链接:[https://arxiv.org/abs/2403.04473](https://arxiv.org/abs/2403.04473 "https://arxiv.org/abs/2403.04473") #arXiv论文# #Agent# #文档处理# #多模态人工智能#

展开全部

![](https://images.zsxq.com/Fl4dDdtOhF2pTTzPQv_Gr-o3UYZv?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:dlB26Vglzw6vtSwmWzxIo4w2H8E=)

arXiv论文

Agent

文档处理

多模态人工智能