2024工作周期安排
2024项目整体规划
沐曦测试(已完成)
沐曦性能测试研究
沐曦Benchmark相关测试
沐曦模型适配表
2024-02-26沐曦沟通报告
智能打标
数据打标服务Json样例
智能打标寒武纪大模型思路
业务层优先级排序
智能打标流程图
打标API接口文档
图像内容识别
其他
申报项目文本段落
研发链相关资料文档
国产GPU虚拟化培训介绍
大模型比赛
相关资料
智能填单_填单 启动命令
2024私人规划
ChatGPT API账号记录
公众号相关资料
基于 Docker 的深度学习环境:入门篇
ollama
Ollama
ReFT
ReFT AI论文笔记
ReFT概要
分布式对齐搜索 DAS
不是每个人都开始使用 ReFT 吗?
ReFT 微调Llama3
ReFT 算法详解
-
+
首页
不是每个人都开始使用 ReFT 吗?
# 不是每个人都开始使用 ReFT 吗? 斯坦福大学于 2024 年 5 月发表了论文 [ReFT:语言模型的表示微调](https://arxiv.org/abs/2404.03592),该论文立即显示出其巨大的潜力。2024 年 7 月,[Oxen.ai 展示了一个](https://www.oxen.ai/blog/fine-tuning-llama-3-in-14-minutes-using-reft)实验,在 14 分钟内在单个 Nvidia A10 GPU 上微调 Llama3 (8B),进一步展示了这项技术的强大功能。 与专注于修改模型权重或输入的 SOTA PEFT 方法不同,ReFT 技术基于先前提出的[分布式交换干预 (DII)](https://proceedings.mlr.press/v236/geiger24a.html) 方法。DII 方法首先将深度学习模型的嵌入投影到较低维度的子空间,然后干扰子空间以进行微调。 在下文中,我们将首先向读者介绍 SOTA 微调 PEFT 算法,例如 LoRA、提示优化和前缀优化;然后我们将讨论原始的 DII 方法,以提供更好的理解背景;最后,我们将讨论 ReFT 技术并介绍论文的结果。 ![img](https://yg9538.kmgy.top/20241209161409449.jpeg) 图片来源: https://pxhere.com/en/photo/1377005 ## PEFT — 参数高效微调技术 Hugging Face 有一个[博客,详细介绍了用于微调 LLM 的不同 PEFT 技术](https://huggingface.co/blog/peft)。在这里,我们快速回顾一下这些技术。 **LoRA** 于 2021 年提出,由于其简单性和泛化能力,它已成为微调 LLM 和扩散模型(例如,[时变 LoRA)](https://openreview.net/forum?id=SgODU2mx9T)的最成功技术之一。这个想法很简单:LoRA 技术不是微调每一层的原始权重参数,而是添加两个低秩矩阵,并且只微调低秩矩阵。在整个网络的微调过程中,可训练参数可以减少到 0.3% 以下,这大大加快了学习过程并最大限度地减少了 GPU 内存。 ![img](https://yg9538.kmgy.top/20241209161409394.png) LoRA 模型更新。图片来源: https://arxiv.org/pdf/2106.09685 **Prompt Tuning** 技术没有改变预训练模型的内层,而是建议使用 “*soft prompts*”,这是一种可学习的特定于任务的 prompt 嵌入作为前缀。给定混合任务批处理提示,该模型可以有效地执行多任务预测,而无需额外的特定于任务的模型复制(与下面左子图中的模型调优相反)。 ![img](https://yg9538.kmgy.top/20241209161409590.png) 提示优化 vs 经典模型微调。图片来源: https://arxiv.org/pdf/2104.08691 为了在规模上(例如,超过 10B 参数)为提示优化模型提供通用性,**前缀调整 (P-Tuning v2)** 提议在不同层为可训练的提示嵌入添加前缀,从而允许在各种规模上学习特定于任务的信息。 ![img](https://yg9538.kmgy.top/20241209161409400.png) P-tuning v2 的多尺度提示。图片来源:https://arxiv.org/pdf/2110.07602 在所有这些 PEFT 技术中,LoRA 因其稳健性和效率而在微调 LLM 中使用最广泛。本文提供了详细的实证[分析。](https://arxiv.org/pdf/2304.14999) ## 分布式交换干预 (DII) 因果抽象是一个强大的人工智能框架,它使用因果模型(**高级**模型)和神经网络模型(或**低级**模型)之间的干预来诱导对齐估计。如果两个模型之间存在一致性,我们就知道因果模型和 NN 之间的潜在机制是相同的。通过干预发现潜在对齐的方法称为交换干预 (II),在本[讲座视频](https://www.youtube.com/watch?v=6pwpOOj33aw)中直观地进行了解释。 然而,经典的因果抽象使用蛮力来搜索模型状态的所有可能对齐方式,这不太理想。**分布式交换干预 (DII)** 系统首先通过一系列**正交投影**将高级和低级模型投影到子空间,然后使用某些旋转操作生成干预模型。可以[在这里](https://cs231n.stanford.edu/2024/papers/interchange-interventions-on-vision-models.pdf)找到一个关于视觉模型的有趣干预实验。 更具体地说,DII 可以写成: ![img](https://yg9538.kmgy.top/20241209161409120.png) 方程源:https://arxiv.org/pdf/2404.03592 其中 R 是具有正交行的低秩矩阵,表示正交投影;**B** 和 **S** 是模型从两个不同的输入编码的两种不同的表示形式;干预将发生在低秩空间上,例如,包含 **Rs** 和 **Rb** 的空间;投影矩阵 **R** 将通过**分布式对齐搜索 (DAS)** 进一步学习,它针对“[*干预后将使预期反事实输出的概率最大化的子空间*](https://arxiv.org/pdf/2404.03592)”进行优化。 ## ReFT — 表示微调 因此,ReFT 技术可以看作是模型在较低维空间中的隐藏表示的干预,如下所示,其中 \phi 是干预,直接应用于 L 层和位置 P 的隐藏表示: ![img](https://yg9538.kmgy.top/20241209161409389.png) 高水平的 ReFT 干预。图片来源: https://arxiv.org/pdf/2404.03592 具体来说,本文进一步提出了一种**低秩线性子空间引用 (LoReFT),**它进一步引入了一个学习到的投影源: ![img](https://yg9538.kmgy.top/20241209161410747.png) 方程源:https://arxiv.org/pdf/2404.03592 其中 **h** 是隐藏的表示,(**Rs = Wh + b**) 是学习的受保护源,它在 **R** 跨越的投影低维空间中*编辑*表示 h。现在,我们可以在下面的原始深度神经网络层中说明 LoReFT。 ![img](https://yg9538.kmgy.top/20241209161410948.png) 图片来源: https://arxiv.org/pdf/2404.03592 **在 LLM 上微调**时,LM 的参数保持冻结,而只有投影 **\phi={R, W, b}** 的参数被训练。 ## **实验** 原始论文展示了将 LoReFT(以及 ReFT 系列中的其他技术)与完全微调 (FT)、LoRA、前缀调整等进行比较的实验,基于四种类型的基准:常识推理、算术推理、指令跟随和自然语言理解。我们可以看到,与 LoRA 相比,ReFT 技术进一步降低了至少 90% 的参数,同时大幅提高了性能。 ![img](https://yg9538.kmgy.top/20241209161411656.png) 图片来源: https://arxiv.org/pdf/2404.03592 ## 讨论 为什么 ReFT 如此迷人?首先,该技术在各种基准上提供了令人信服的结果,即 Llama 家族模型的性能优于 SOTA 微调方法。其次,该技术深深植根于因果抽象算法,这为模型解释提供了进一步的基础,特别是从隐藏表示的角度来看。正如原始论文中提到的,ReFT 表明“*分布在一组神经元上的线性子空间可以实现对大量任务的广义控制*”,这可能会进一步帮助我们更好地理解大型语言模型。
yg9538
2024年12月9日 16:16
439
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码