大模型知识库扒皮库
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
-
+
首页
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_8561290.5350518149742848.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_9794420.05682284071271193.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_8794370.8492112203931351.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230706_0102340.30640385758163047.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_8708130.4339381873074546.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230706_0432740.4375083969721829.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_8572770.33453962541294513.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230706_0320320.7670611144627262.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_8722800.03379971800833115.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230706_0470600.8512634440684045.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_9183450.5016906222408729.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230706_0843590.8316199523975485.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_9586290.7261671816805113.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230706_0804900.6444154416918488.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_9658160.7573264108221142.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230706_1350330.583644116843393.jpeg) arXiv论文 LLM应用 多模态来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230705_9624920.21235964068135216.jpeg) HuggingAI 2024-03-22 06:10 通过“基于图表的推理”技术,我们致力于将大型语言模型(LLMs)的能力迁移至视觉语言模型(VLMs),实现跨模态能力的转化与共享。 VLMs 在解决多模态任务时表现出越来越强的实力,但小型 VLMs 的推理能力尤其受限,而 LLMs 则在这方面持续进步。我们创新性地提出了一个技术方案,将 LLMs 的卓越能力迁移到 VLMs 中。在最新的 ChartQA 测试中,当该技术应用于 PaLI3-5B VLM 模型时,取得了顶尖水平的表现,并且在 PlotQA 和 FigureQA 上同样大幅提升成绩。我们首先借助 \\citet{liu2023deplot} 改进的图表转表格预训练任务优化了图表表示。随后,我们构建了一个比原训练集大 20 倍的新数据集。为了增强模型的一般推理能力和处理数值操作的能力,我们依据图表的表格形式生成推理路径。最终,运用 \\citet{hsieh2023distilling} 提出的多任务损失函数对模型进行细致调整。我们的 ChartPaLI-5B 变体无需依赖上游 OCR 系统,便能击败体积大十倍的 PaLIX-55B 等模型,且保持与 PaLI3-5B 基线一致的推理速度。更令人惊喜的是,在使用 \\citet{chen2023program} 提出的简易思维程序提示优化理由后,我们的模型成功超越了最新发布的 Gemini Ultra 和 GPT-4V。 原文链接:[\[2403.12596\] Chart-based Reasoning: Transferring C...](https://arxiv.org/abs/2403.12596 "[2403.12596] Chart-based Reasoning: Transferring C...") #arXiv论文# #LLM应用# #多模态# 展开全部 ![](https://images.zsxq.com/FnZFkKtLOi9sLfz-Spo9kz3XW21g?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:-ymejKHlrDQGoz3LU88-C4OO7PQ=) arXiv论文 LLM应用 多模态
yg9538
2024年3月30日 23:07
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码