为什么我还是无法理解transformer?
- 作者:admin
- 发表时间:2025-06-25 07:55:11
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
最新文章
-
有没有什么好看的古言***推荐?
-
《武林外传》里最让你心酸的画面是什么?
-
奥迪暂停全面电动化***,不再设定停售燃油车时间表,此前沃尔沃、奔驰也调整全面电动化***,如何解读?
-
为什么电影工业中很少使用Premiere剪辑?
-
谷歌云服务宕机导致 OpenAI、Shopify 等服务中断,此次宕机的具体技术原因是什么?
-
儿子抑郁四年左右了,他的未来该怎么办?
-
有一个乌克兰的朋友问我,中国人凭什么能享受和平,我该怎么说?
-
做客孩子临走时带走几只玩具,我的孩子抗拒并一直哭,要怎么开导?
-
今天面试第五家公司被拒,面试官说我你技术没问题,但35岁要25k,不如招2个应届生,我该如何应对?
-
为什么 macOS 并不差,可市场总敌不过 Windows?