知识星球 | 深度连接铁杆粉丝，运营高品质社群，知识变现的工具

来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_6669300.32884159127198354.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_8141710.8051705452539549.jpeg)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_6793390.1514873253778184.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_8196890.41657973878868093.jpeg)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_6773120.47317622063741216.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_8394450.0551049419334626.jpeg)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_6639180.47481102002176157.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_8694480.3745247467162276.jpeg)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_7407460.714541490673028.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://images.zsxq.com/Fj2lrhu1h8_W6IQL-xxS_0uGKB38?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:ar5uTpXqqZgasYXboaNCzEFyfNg=)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_7475300.0038849782316523473.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://images.zsxq.com/Fj2lrhu1h8_W6IQL-xxS_0uGKB38?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:ar5uTpXqqZgasYXboaNCzEFyfNg=)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_7628340.6912748644396668.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://images.zsxq.com/Fj2lrhu1h8_W6IQL-xxS_0uGKB38?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:ar5uTpXqqZgasYXboaNCzEFyfNg=)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_6725080.8732228398133314.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://images.zsxq.com/Fj2lrhu1h8_W6IQL-xxS_0uGKB38?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:ar5uTpXqqZgasYXboaNCzEFyfNg=)

arXiv论文

LLM应用

人工智能安全来自：大语言模型论文跟踪进入星球

![](https://yg9538.kmgy.top/img/2024/03/30/2024-03-30_230908_7693190.5933344346967923.jpeg)

HuggingAI

2024-03-28 00:10

针对作为裁判的大型语言模型（LLM），采用基于优化的提示注入攻击策略。 LLM-as-a-Judge，作为一种创新方案，能够运用大型语言模型（LLMs）来评定文本信息。研究显示，LLMs在替代传统人工评估方面有着非凡的表现。然而，这些系统能否抵御提示注入攻击，尚未有定论。本研究提出了JudgeDeceiver，这是一种专为LLM-as-a-Judge设计的新型优化驱动提示攻击方法。该方法精确设定了攻击LLM-as-a-Judge决策过程的优化目标，并运用算法高效地自动化生成对抗性序列，实现了对模型评估的精准和有效操控。相较于手工制作的提示攻击，JudgeDeceiver展现出更卓越的效果，对LLM判断系统现行的安全防护提出了严峻挑战。通过大量实验，我们证明了JudgeDeceiver在不同情境下改变决策结果的能力，揭示了LLM-as-a-Judge系统在面对优化驱动的提示攻击时的潜在弱点。 原文链接:[\[2403.17710\] Optimization-based Prompt Injection A...](https://arxiv.org/abs/2403.17710 "[2403.17710] Optimization-based Prompt Injection A...") #arXiv论文# #LLM应用# #人工智能安全#

展开全部

![](https://images.zsxq.com/Fj2lrhu1h8_W6IQL-xxS_0uGKB38?imageMogr2/auto-orient/thumbnail/750x/format/jpg/blur/1x0/quality/75&e=1714492799&s=jtvmyvvymvvttyv&token=kIxbL07-8jAj8w1n4s9zv64FuZZNEATmlU_Vm6zD:ar5uTpXqqZgasYXboaNCzEFyfNg=)

arXiv论文

LLM应用

人工智能安全