5401 篇
13911 篇
478084 篇
16320 篇
11773 篇
3942 篇
6548 篇
1254 篇
75673 篇
37947 篇
12175 篇
1667 篇
2870 篇
3423 篇
641 篇
1241 篇
1980 篇
4924 篇
3888 篇
5493 篇
引入门控机制的Transformer模型探究-学界纵横系列之三
在时序依赖的任务中(如 RL),基于 RNN 的模型性能和稳定性优于 Transformer 架构。然而,Transformer 中的自注意力机制能够长时间跨度上有效整合信息并扩展到大量数据。为了提升时序依赖任务场景中的模型表现,在 Transformer-XL 基础上提出的 Gated Transformer-XL(GTrXL),该模型架构在稳定和性能上持平甚至赶超 LSTM 模型。