大模型知识库扒皮库
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
-
+
首页
知识星球 | 深度连接铁杆粉丝,运营高品质社群,知识变现的工具
多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#多项选择题是否真的有助于评估大型语言模型的能力? 多项选择题(MCQs)在评估大型语言模型(LLMs)时广受欢迎,因其简便高效。但人们质疑MCQs是否真能准确衡量LLMs在知识密集型任务中的长篇幅生成能力。我们通过在中英文两个问答数据集上对九个LLM进行评估,深入探讨了MCQs的适用性。研究发现,LLMs对双语MCQs的答案顺序颇为敏感,尤其偏好首位答案。我们进一步比较了MCQs和长篇幅生成问题(LFGQs)的直接输出、标记逻辑和嵌入,揭示了两者在相同问题上答案的相关性较低。我们还提出了两种评估LLM输出一致性和信心的方法,这些方法也适用于其他QA评估标准。值得注意的是,我们的研究对“高一致性等同于高准确性”这一观点提出了质疑。此外,我们发现MCQs在预期校准误差方面不如LFGQs可靠。MCQs与LFGQs之间的不匹配不仅体现在评估表现上,还体现在嵌入空间的差异上。相关代码和模型可在 [GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...](https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs "GitHub - Meetyou-AI-Lab/Can-MC-Evaluate-LLMs: Can ...") 获取。 原文链接:[\[2403.17752\] Can multiple-choice questions really ...](https://arxiv.org/abs/2403.17752 "[2403.17752] Can multiple-choice questions really ...") #arXiv论文# #LLM应用# #问答系统# #语言模型评估#
yg9538
2024年3月30日 23:02
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码