被忽略的起点？Karpathy揭秘最初的注意力论文被

时间：2024-12-11 17:33 作者：[db:作者]

多少个小时前，有名 AI 研讨者、OpenAI 开创成员之一 Andrej Karpathy 宣布了一篇备受存眷的长推文，此中分享了留神力机制背地一些或者少有人知的故事。此中最值得留神的一个故事是真正初次提出留神力机制的论文实在是 Dzmitry Bahdanau、Kyunghyun Cho 跟 Yoshua Bengio 的《Neural Machine Translation by Jointly Learning to Align and Translate》，这比《Attention is All you Need》还早 3 年，但很显然，这篇论文并不播种后者那般的存眷。 Karpathy 长推文的不完全截图现实上，这个故事来自 Dzmitry Bahdanau 发给 Karpathy 的一封邮件。Bahdanau 是 ServiceNow Research 的研讨迷信家跟研讨担任人以及麦吉尔年夜学兼职教学。他在发给 Karpathy 的这封邮件平分享了本人发明留神力机制的路程以及 Attention 这个术语的由来——实在来自 Yoshua Bengio。别的，他也提到了 Alex Graves 的 NMT 论文跟 Jason Weston 的影象收集（Memory Networks）论文各自自力发明相似机制的故事。Karpathy 推文宣布后反应热闹，短时光内就已有超越 20 万浏览量，良多读者都被这个留神力背地的故事吸引。有读者在看过这个故过后收回感慨：2013-2017 年间的深度进修宇宙中有良多暗藏的好汉。也有人分享本人对留神力机制的见解。Hyperbolic Labs 开创人跟 CTO Yuchen Jin 更是玩笑说《Attention Is All You Need》的另一项主要奉献是将前面的 AI 论文题目带歪了：「吸引留神力的题目才是 All You Need」。留神力机制的背地故事上面咱们就来看看 Karpathy 的推文毕竟说了什么：「attention」算子——也就是提出了 Transformer 的《Attention is All you Need》中的谁人留神力，背地的（实在）开辟跟灵感故事。来自卑约 2 年前与作者 @DBahdanau 的团体电子邮件通讯，在此宣布（经允许）。此前多少天，网下流传着一些对于其开辟进程的假消息。Attention 是一种杰出的（数据依附型）加权均匀运算。它是一种情势的全局池化、归约、通讯。它是一种从多个节点（token、图块等）聚合相干信息的方式。它富有表示力、功效强盛、存在充足的并行性，而且能够高效优化。乃至多层感知器（MLP）现实上也能够大抵重写为数据自力型权重上的 Attention（第一层权重是查问，第二层权重是值，键就是输入，softmax 变为元素级，删除了标准化）。简略来说，留神力十分棒，是神经收集架构计划中的严重冲破。《Attention is All You Need》取得的…… 呃…… 留神力差未几是 3 年前真正提出 Attention 的论文的 100 倍，即 Dzmitry Bahdanau、Kyunghyun Cho 跟 Yoshua Bengio 的论文《Neural Machine Translation by Jointly Learning to Align and Translate》。在我看来，这始终有点出乎意料。望文生义，《Attention is All You Need》的中心奉献是提出：Transformer 神经收集就是删除留神力之外的所有，而后基础上就是将其重叠在带有 MLP（依据上述内容，这也能够大抵被视为留神力）的 ResNet 中。但我确切以为这篇 Transformer 论文有本人奇特的代价，由于它一次性增加了别的很多令人赞叹的主意，包含地位编码、缩放式留神力、多头留神力、各向同性的简略计划等。在我看来，直到明天（大概 7 年从前了），Transformer 基础上还坚持着 2017 年的情势，只有绝对较少的渺小修正，兴许除了应用更好的地位编码计划（RoPE 等）。总之，我先把完全邮件贴鄙人面，此中也表示了这个运算一开端被称为 Attention 的起因 —— 它源自对源句子中词的存眷（attending）并同时以次序方法输出翻译成果的词，而且之后 Yoshua Bengio 在 RNNSearch 中将其引入成了一个术语（感激天主？:D）。同样风趣的是，该计划的灵感来自人类的认知进程/战略，即按次序往返存眷一些数据。最后，从开展提高的实质来看，这个故事相称风趣——相似的主意跟表述「早就曾经在氛围中回荡」，特殊要提到事先 Alex Graves（NMT）跟 Jason Weston（影象收集）的任务。感谢你的故事 @DBahdanau ！之后，Karpathy 还做了一些弥补：ChatGPT 以及绝年夜少数古代 AI 模子都是巨型 Transformer。「以是 LLM 的中心神奇之处来自于重复利用留神力，一遍又一各处存眷输入的 token，以猜测下一个 token 是什么。」Dzmitry Bahdanau 的原始邮件内容Karpathy 也一并分享了 Dzmitry Bahdanau 的原始邮件内容：嗨，Andrej，很愉快告知你 8 年前产生的故事！我在雅各布年夜学 Herbert Jaeger 的领导下实现硕士课程的第一年后，作为练习生离开了 Yoshua 的试验室。我告知 Yoshua 我很愿意做任何事件。Yoshua 让我参加呆板翻译名目，与 Kyunghyun Cho 跟团队一同任务。我事先十分猜忌将词序列塞入向量的主意。但我也十分想取得博士学位。以是我撸起袖子，开端做我善于的事件——编写代码、修复过错等等。在某个时间，我表示得很懂得我做的货色了，Yoshua 约请我攻读博士学位（2014 年是一个很好的机会，表示得很懂得就曾经充足了——美妙的旧时间！）。我十分愉快，我以为能够开端享用兴趣并施展发明力了。以是我开端思考怎样防止编码器跟解码器 RNN 之间的瓶颈。我的第一个主意是构建一个带有两个「光标」的模子，一个在源序列中挪动（由一个 BiRNN 编码），另一个在目的序列中挪动。应用静态计划（dynamic programming）能够将光标轨迹边沿化。KyungHyun Cho 以为这相称于 Alex Graves 的 RNN Transducer 模子。之后，我可能还读了 Graves 的手写辨认论文。不外，这种方式看起来不合适呆板翻译。在我练习的残余 5 周内，上述应用光标的方式很难实现。以是我实验了一种更简略的方式——两个光标同时同步挪动（现实上是硬编码的对角留神力）。这种方式有点后果，但方式不敷优雅。以是有一天，我想到假如能让解码器 RNN 学会在源序列中搜寻放置光标的地位就好了。这几多遭到我中学时进修英语时的翻译训练的启示。翻译时，你的眼光会在源序列跟目的序列之间往返挪动。我将这种软性搜寻表现为 softmax，而后对 BiRNN 状况停止加权均匀。它的后果很好，从第一次实验，到厥后奋发民气。我将这个架构称为 RNNSearch，咱们急于宣布一篇 arXiv 论文，由于咱们晓得谷歌的 Ilya 跟共事当先于咱们，他们有宏大的 8 GPU LSTM 模子（而 RNN Search 仍在 1 GPU 上运转）。厥后发明，这个名字并欠好。直到最后多少次过论文时，Yoshua 才将更好的名字（attention）增加到论文论断中。一个半月后，咱们看到了 Alex Graves 的 NMT 论文。这确切是完整雷同的主意，只管他提出它的念头完整差别。在咱们的情形下，是由于须要而发生了这个发现。在他的情形下，我想应当是将神经跟标记 AI 衔接起来的大志吧？Jason Weston 及其共事的影象收集论文也采取了相似的机制。我不远看法想到留神力能够在较低的层级应用，以作为表征进修的中心运算。然而当我看到 Transformer 论文时，我破即向试验室共事断言 RNN 已逝世。回到你最初的成绩：在蒙特利尔 Yoshua 的试验室发现的「可微分跟数据依附加权均匀」自力于神经图灵机、影象收集以及 90 年月（乃至 70 年月）的一些相干认知迷信论文。这是 Yoshua 引导推进试验室停止雄心壮志的研讨的成果，KyungHyun Cho 在运转一个年夜型呆板翻译名目方面领有高明的技巧，该名目由低级博士生跟练习生构成；最后，我本人的发明力跟编码技巧在多年的竞争性编程中失掉了磨难。但我以为这个主意很快就会被发明。就算我、Alex Graves 跟这个故事中的其余脚色事先不研讨深度进修也是如斯，留神力就是深度进修中实现机动空间衔接的天然方法。等候 GPU 充足快，让人们有能源当真看待深度进修研讨，这是一个不言而喻的主意。自从我认识到这一点以来，我在 AI 范畴的志向就是启动像呆板翻译名目如许的杰出的利用名目。比拟于那些研讨所谓的「真正」AI 的花哨实践，精良的研发任务能够为基本技巧的提高做出更年夜奉献。就这些！我十分想更多懂得对于你的教导 AI 名目的信息（我从 Harm de Vries 那边听到了一些传言；)）。祝好，Dima相干论文最后，上面梳理了后面说起的相干论文，以辅助感兴致的读者做进一步的技巧摸索。Neural Machine Translation by Jointly Learning to Align and Translate，未失掉应有存眷的留神力论文作者：Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio链接：https://arxiv.org/abs/1409.0473Attention is All You Need，有名的 Transformer 论文作者：Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin链接：https://arxiv.org/abs/1706.03762Neural Turing Machines，此中多少乎同时提出了相似的 soft pooling 运算作者：Alex Graves, Greg Wayne, Ivo Danihelka链接：https://arxiv.org/abs/1410.5401Generating Sequences With Recurrent Neural Networks，研讨了应用 LTSM 轮回神经收集天生存在长程构造的庞杂序列，很有首创性作者：Alex Graves链接：https://arxiv.org/abs/1308.0850Memory Networks，影象收集作者：Jason Weston, Sumit Chopra, Antoine Bordes链接：https://arxiv.org/abs/1410.3916Sequence to Sequence Learning with Neural Networks，文中提到确当时在谷歌的 Ilya 等人的论文作者：Ilya Sutskever, Oriol Vinyals, Quoc V. Le链接：https://arxiv.org/abs/1409.3215]article_adlist-->参考链接https://x.com/karpathy/status/1864023344435380613https://x.com/karpathy/status/1864030016457375916]article_adlist-->2024亚马逊云科技 re:lnvent 《拉斯维加斯有约》直击现场——Swami Sivasubramanian 博士主题报告中文解读]article_adlist-->第一时光深度解读亚马逊云科技2024年re:Invent 年度嘉会！懂得亚马逊云科技自成一家的翻新实际与文明跟全系列前沿处理计划、怎样开辟翻新并引领寰球云盘算的全方位开展、怎样重构基本架构并打造全新休会，摸索怎样依靠强盛的数据基本为客户打造翻新的、差别化的处理计划。凝听客户谈话人分享实在案例，懂得怎样应用数据支撑包含天生式 AI 在内的种种利用场景，进而打造唯一无二的客户休会。分享亚马逊云科技及其配合搭档为客户带来的踊跃变更，赋能其重塑贸易形式、获得不凡成绩。这不只是一场深刻懂得前沿技巧、数据利用跟翻新实际的嘉会，更是一个不容错过的交换平台。等待你的参加！© THE END 转载请接洽本大众号取得受权投稿或追求报道：[email protected]]article_adlist--> 　　申明：新浪网独家稿件，未经受权制止转载。 -->

上一篇：紫光展锐车规级5G座舱芯片平台A7870上车
下一篇：没有了