大模型知识库扒皮库
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
-
+
首页
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_5462320.042358176953425475.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_6703110.11889875801859795.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_5395160.9652767642054049.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_7212160.06804002799398412.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_5439730.7308998604276971.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_7383230.34876696534795704.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_5537380.20645832652863672.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_7632060.42964362054186966.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_5483580.40409856633716723.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_7141840.7180646826621647.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_6382620.2978158310844162.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_8465950.5103893871690188.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_6361170.2481337906614679.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_8468540.47525215464878323.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_6418940.8532533714088445.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_8524750.0935202555889465.jpeg) arXiv论文 LLM理论 视觉语言模型 多模态学习来自:大语言模型论文跟踪进入星球 ![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230941_6695130.15852650220235076.jpeg) HuggingAI 2024-03-29 07:30 Mini-Gemini:深度挖掘多模态视觉语言模型的潜在能力 本研究提出了Mini-Gemini,一个简洁高效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。面对VLMs与GPT-4、Gemini等高级模型之间的性能差距,我们通过深入挖掘VLMs的潜力,从高分辨率视觉标记、优质数据和VLM引导生成三个维度,探索提升性能和实现灵活工作流程的可能性。为优化视觉标记,我们设计了一种额外的视觉编码器,能在不增加标记数量的前提下,实现高分辨率的精细调整。此外,我们还构建了一个高质量数据集,旨在提升图像理解的精确度和基于推理的生成能力,从而拓展VLMs的应用范围。Mini-Gemini不仅进一步释放了VLMs的潜力,还为现有框架注入了图像理解、推理和生成的综合能力。该框架兼容2B至34B规模的密集和MoE大型语言模型(LLMs),并在多项零样本基准测试中展现出卓越性能,表现甚至超越了一些成熟的私有模型。相关代码和模型已在[GitHub - dvlab-research/MiniGemini: Official imple...](https://github.com/dvlab-research/MiniGemini "GitHub - dvlab-research/MiniGemini: Official imple...")上公开。 原文链接:[\[2403.18814\] Mini-Gemini: Mining the Potential of ...](https://arxiv.org/abs/2403.18814 "[2403.18814] Mini-Gemini: Mining the Potential of ...") #arXiv论文# #LLM理论# #视觉语言模型# #多模态学习# 展开全部 ![](https://images.zsxq.com/FrG1h8IaBO5Fxqw_JUTUsOjTOt5o?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:c9nSOLb5Xy7cRH1XsEsBFkRPIbU=) arXiv论文 LLM理论 视觉语言模型 多模态学习
yg9538
2024年3月30日 23:09
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码