焦点

听我说,Transformer它便是个反对于向量机

字号+ 作者:东海碧灵网 来源:百科 2025-03-11 11:38:14 我要评论(0)

机械之心报道编纂:蛋酱、小舟SVM is all you need,反对于向量机永不外时。Transformer 是一个反对于向量机SVM)一种新型实际在学界激发了人们的品评辩说。上周末,一篇来自宾夕

机械之心报道

编纂 :蛋酱、听我说小舟

SVM is 个反all you need,反对于向量机永不外时 。对于

Transformer 是向量一个反对于向量机(SVM)一种新型实际在学界激发了人们的品评辩说。

上周末 ,听我说一篇来自宾夕法尼亚大学、个反加州大学河滨分校的对于论文试图钻研大模子根基 Transformer 妄想的道理,其在留意力层的向量优化多少多与将最优输入 token 与非最优 token 并吞的硬领土 SVM 下场之间建树了方式等价。

在 hackernews 上作者展现 ,听我说这种实际处置了 SVM 将每一个输入序列中的个反「好」标志与「坏」token 并吞的下场 。该 SVM 作为一个功能优异的对于 token 抉择器,与传统为输入调配 0-1 标签的向量 SVM 本性上差距。

这种实际也讲明了留意力若何经由 softmax 引起浓密性:落在 SVM 抉择规画领土过错一侧的听我说「坏」token 被 softmax 函数抑制,而「好」token 是个反那些最终具备非零 softmax 多少率的 token 。还值患上一提的对于是,这个 SVM 源于 softmax 的指数性子 。

论文上传到 arXiv 下面之后 ,人们纷纭宣告意见,有人展现:AI 钻研的倾向真是螺旋回升,岂非又要绕回去了  ?

绕了一圈,反对于向量机仍是不过时。

自典型论文《Attention is All You Need》问世以来 ,Transformer 架构已经为做作语言处置(NLP)规模带来了革命性妨碍 。Transformer 中的留意力层接受一系列输入 token X ,并经由合计 

评估 token 之间的相关性,其中 (K, Q) 是可磨炼的 key-query 参数 ,最终实用捉拿短途依赖关连 。

如今,一篇名为《Transformers as Support Vector Machines》的新论文在自留意力的优化多少多以及 hard-margin SVM 下场之间建树了一种方式等价 ,运用 token 对于的外积线性约束将最优输入 token 与非最优 token 并吞。

论文链接:https://arxiv.org/pdf/2308.16898.pdf

这种方式等价建树在 Davoud Ataee Tarzanagh 等人的论文《Max-Margin Token Selection in Attention Mechanism》的根基上,它可能形貌经由梯度着落妨碍优化的 1 层 transformer 的隐式倾向(implicit bias) :

 (1) 优化由 (K, Q) 参数化的留意力层 ,经由消逝正则化(vanishing regularization),收敛到一种 SVM 处置妄想,其中最小化组合参数 

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 44分惨案诞生!湖人淘汰鹈鹕!詹姆斯迎里程碑,浓眉16分15板四川14岁少年满脸纹身被父亲驱逐家门,找不到工作,如今怎样了

    44分惨案诞生!湖人淘汰鹈鹕!詹姆斯迎里程碑,浓眉16分15板四川14岁少年满脸纹身被父亲驱逐家门,找不到工作,如今怎样了

    2025-03-11 11:04

  • 76人品评辩说一次付清哈登薪水 送他去CBA联赛打球 恩比德起抉择熏染

    76人品评辩说一次付清哈登薪水 送他去CBA联赛打球 恩比德起抉择熏染

    2025-03-11 10:56

  • 2-0取胜!中国男足复仇10人越南!武磊压哨破门,场面差但赢了球

    2-0取胜!中国男足复仇10人越南!武磊压哨破门,场面差但赢了球

    2025-03-11 10:16

  • 国足未来最强归化:24岁华裔新星或来中超,身价仅次于武磊!女子出轨同村小伙,老公抓包现场:衣服上污物也不擦,光脚蹲地上

    国足未来最强归化:24岁华裔新星或来中超,身价仅次于武磊!女子出轨同村小伙,老公抓包现场:衣服上污物也不擦,光脚蹲地上

    2025-03-11 10:08

网友点评