快讯：一文带你入门Transformer_驱动网

让我们初学一下Transformer，它确实相对难以理解，下面让我们开始吧！朋友们．Don"t worry about it

前提

在这里我们用x表示文本位置→输入

用T_x表示文本长度

用y表示输出的文本位置

用T_y表示输出的文本长度

目前这里有一个文本

X: Harry Potter and hermione granger invented a new spell这里我们用one-hot独热矩阵，每一个文本都会对应于1个one － hot，但是我们一个输入文本就要有一个 one-hot,这样就会造成大量的参数，于是提出了RNN接下来我们学习RNN

RNN模型

(资料图片仅供参考)

这里的Wax､ Waa､ Wya都是参数，就和我们之前学神经网络的W是一个意思下面我们来学习网络的前向传播

向前传播

这里的g是激活函数，b是偏置，我们对式子进行简化，是不是看到式子的时候前面的模型就明白怎么运转的了

反向传播的时候，框架会自动为你实现

上面的模型都是针对T_x=T_y的，当然面对不同的情况会有不同的模型

我们看一下第一个模型

One to many RNN moudle

Cats average 15 hours of sleep a day.

接下来我们讨论RNNs梯度消失的问题。

RNNs梯度消失

如果碰到梯度爆炸的问题就是出现了 Nan,就只用使用gradient clipping.

The cat, which ate already... was full｡我们如何确保让机器认识cat是单数，就是依赖问题,尽管现在依赖问题依旧就没有解决

GRU

这是一个简单的模型，方便理解，这里有两个门，因此我们也称GRU为2门控

LSTM

这里有3个门，因此我们称LSTM为3门控

BRNN

这里是非常重要的，这里没听的话，后面的注意力模型是不容易看懂的！这并不是正，逆传播，而是正反同时开始在时间t输出的y可以同时被过去和未来所影响，对于复杂的问题我们会使用到深度RNNs｡下面我们来看一下注意力模型。

注意力模型

这是注意力的计算公式，我们可以把其想像成一个小的网络

接下来我们学习transformer网络，，最有效前的模型。（其实就是注意力模型+ CNN）

Transformer

自注意力模型

我们将其softmax改变一下

多头注意力机制

其实就是对自注意力机制进行一个for循环

当然每一个通道都有一组参数

Transformer

我们定义一个深度为4的向量

到此我们的Transformer就整理完了，当然这也在不断的完善，随学随记！

努力不一定有回报，但是一定有收获！

推荐内容

快讯：一文带你入门Transformer

2022-12-27
AcWing. 1165.单词环

2022-12-27
全球即时看！[数据结构]单向链表的翻转(C语言)

2022-12-27
全球播报:FreeSWITCH编译加载新模块

2022-12-27
python学习： fire库的使用教程

2022-12-27
window10/window11不能登录微软账户等

2022-12-27
焦点速递！cmd命令curl的简单使用以及通过ip查所对应地址的方法

2022-12-27
环球今亮点！Gateway

2022-12-27
焦点热议:AcWing361. 观光奶牛

2022-12-27
即时：10 种超好用的 MyBatis 写法，同事都说好用！

2022-12-27
焦点！【记录贴】项目经理的进阶日常：靠年终总结获得了核心项目的机会

2022-12-27
Atcoder Grand Contest AGC 060 D Same Descent Set 题解 (容斥，多项式)

2022-12-27
Java基本数据类型

2022-12-27
环球焦点！易基因｜深度综述：癌症中RNA修饰机制的遗传和表观遗传失调（m6A+m1A+m5C+ψ）

2022-12-27
第五章 --------------------加载和编译XAML

2022-12-27
天天短讯！Netty中8大组件详解（EventLoop、Channel、ChannelFuture、Future、 Promise、Handler 、 Pipe

2022-12-27
全球热点！贯穿汽车用户全生命周期，火山引擎数智平台能帮车企做这些事！

2022-12-27
全球播报:当项目经理看世界杯决赛时…

2022-12-27
在Windows中利用WSL2安装禅道17.7

2022-12-27
天天讯息：从发现SQL注入到ssh连接

2022-12-27
学习下Redis内存模型

2022-12-27
世界热门:Dubbo 可扩展性设计

2022-12-27
Web前端--HTML+Canvas+Js实现3D魔方小游戏

2022-12-27
世界观点：微信Native支付(扫码支付)商户配置

2022-12-27
【快播报】教程干货！JNPF快速搭建库存管理与财务管理板块

2022-12-27
【环球快播报】【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论

2022-12-27
Python爬虫实战，requests+tqdm模块，爬取漫画之家漫画数据（附源码）

2022-12-27
当前速看：Ubuntu下的NVIDIA显卡【驱动&CUDA 安装与卸载】

2022-12-27
滚动：在虚幻引擎中使用蓝图实现简单的对话

2022-12-26
天天热资讯！虚假新闻检测（MAC）《Hierarchical Multi-head Attentive Network for Evidence-aware F

2022-12-26
天天讯息：Atcoder Beginner Contest ABC 283 Ex Popcount Sum 题解 (类欧几里得算法)

2022-12-26
短讯！JMeter

2022-12-26
第四章 --------------------XAML名称空间

2022-12-26
天天消息！AcWing. 1146 新的开始

2022-12-26
记录--vue.config.js 的完整配置（超详细）！

2022-12-26
Kubernetes监控手册04-监控Kube-Proxy

2022-12-26
天天微头条丨Zabbix技术分享——snmp异常排查指南

2022-12-26
对不起，你做的 A/B 实验都是错的——火山引擎 DataTester 科普

2022-12-26
当前消息！与时代共命运：数智时代的到来意味着什么？

2022-12-26
AcWing1144. 连接格点

2022-12-26
全球速递！项目播报 | 方正璞华×连森电子，打造电子材料行业PLM系统的新标杆！

2022-12-26
今日快看!Python爬虫学习：Cookie 和 Session 的区别是什么？

2022-12-26
环球短讯！Python模块学习，模块是，什么

2022-12-26
全球观速讯丨飞项三招教你用协同工具杜绝远程办公“摸鱼”

2022-12-26
XYplorer使用教程

2022-12-26
【播资讯】Jaeger&ElasticSearch存储链路追踪数据

2022-12-26
环球聚焦：开源漏洞数量增长33%！企业安全债务不堪重负丨行业数据

2022-12-26
天天百事通！【年终总结】求职面试一定要扬长避短

2022-12-26
全球看热讯：AcWing244.谜一样的牛

2022-12-26
天天新动态：AcWing291.蒙德里安的梦想题解

2022-12-26