人工智能

简介
目录大纲
最新文档
文集下载

【Attention(4)】【QKV的自注意力机制】主要思路（笔记）

自注意力 Self-Attention 查询 - 键值对注意力模型 Query-Key-Value，QKV 目的 summary 参考自注意力 Self-Attention 考虑当前针对输入序列的编码方式，如果我们需要将输入序列转化为一个定长的序列，此时卷积和循环神经网络均是较好的选择，但是注意到以上两种均只是一种局部编码的方式（循环神经网络本身由于长程依赖问题 / 梯度消失，...……

yg9538 - 2023年11月24日 20:13

FlashAttention2详解（性能比FlashAttention提升200%）

地址：arxiv.org/pdf/2307.08691.pdf 作者：普林斯顿；斯坦福最新FlashDecoding++ FlashAttention-V1和V3版本详解：摘要在过去几年中，如何扩展Transformer使之能够处理更长的序列一直是一个重要问题，因为这能提高Transformer语言建模性能和高分辨率图像理解能力，以及解锁代码、音频和视频生成等新应用。然而增加序...……

yg9538 - 2023年11月24日 20:09

FlashAttention图解（如何加速Attention）

最新FlashDecoding++ FlashAttention V2和V3版本详解： Motivation 当输入序列（sequence length）较长时，Transformer的计算过程缓慢且耗费内存，这是因为self-attention的time和memory complexity会随着sequence length的增加成二次增长。标准Attention的中间结果\math...……

yg9538 - 2023年11月24日 20:07

注意力机制到底在做什么，Q/K/V怎么来的？一文读懂Attention注意力机制

本文同时发布于我的个人网站，公式图片显示效果更好，欢迎访问：https://lulaoshi.info/machine-learning/attention/transformer-attention.html Transformer[^1]论文中使用了注意力Attention机制，注意力Attention机制的最核心的公式为：这个公式中的Q、K和V分别代表Query、Key和Valu...……

yg9538 - 2023年11月24日 20:07

遍地开花的 Attention，你真的懂吗？

阿里妹导读：曾被 paper 中各种各样的 Attentioin 搞得晕晕乎乎，尽管零零散散地整理过一些关于Attention 的笔记，重点和线索依然比较凌乱。今天，阿里巴巴工程师楠易，将 Attentioin 的知识系统性地梳理、回顾、总结，不求深刻，但求浅显，希望能帮助对 Attention 有疑惑的同学。前言 Attention 自2015年被提出后，在 NLP 领域，图像领域遍地开...……

yg9538 - 2023年11月24日 20:07

文集作者未开放此文集的任何格式下载！

人工智能

【Attention(4)】【QKV的自注意力机制】 主要思路（笔记）

FlashAttention2详解（性能比FlashAttention提升200%）

FlashAttention图解（如何加速Attention）

注意力机制到底在做什么，Q/K/V怎么来的？一文读懂Attention注意力机制

遍地开花的 Attention，你真的懂吗？

【Attention(4)】【QKV的自注意力机制】主要思路（笔记）