Transformer

注意力機制作用被高估了？來自蘋果等機構新研究

TAG: 注意力模型矩陣 Transformer 效能2023-02-01

模型效能越好，越依賴注意力機制不過，即使是預訓練Transformer模型之間，效能表現也不完全一樣[…]

閱讀全文

一篇Survey整明白「Transformer+強化學習」的來龍去脈

TAG: Transformer RL 學習離線架構2023-01-21

最近，離線RL由於其利用離線大規模資料集的能力而受到關注，相關研究結果也表明，Transformer架構可以直接作為序列決策的模型，並可推廣到多個任務和領域[…]

閱讀全文

Meta推出Token Merging，不靠剪枝靠合併

TAG: token 剪枝 ViT Transformer2023-01-14

然而，token剪枝有幾個問題，其中最主要的，是由於修剪token會產生資訊損失，因此，人們對ViT模型token的剪枝數量是有限的，為了減少資訊損失，只能對不重要的token進行修剪[…]

閱讀全文

量化投資策略：Transformer演算法選股

TAG: Transformer 模型 attention 回撤夏普2022-11-28

我們還根據模型的預測結果構建了滬深300成份內選股和中證500成份內選股策略，透過年化收益率、夏普比率、最大回撤等指標綜合評價策略效果[…]

閱讀全文

CVPR 2022｜提高小資料集利用效率，復旦等提出分層級聯ViT網路

TAG: patch tokens Transformer token Shot2022-07-16

為了緩解這一問題，提高小資料集下資料的利用效率，來自復旦大學、上海市智慧資訊處理重點實驗室和香港大學的研究者提出了一種基於 DINO ［2］知識蒸餾架構的分層級聯 Transformer （HCTransformer）網路，透過譜聚類 […]

閱讀全文

從感知機到Transformer，一文概述深度學習簡史

TAG: Transformer 模型感知機影象架構2022-05-30

S191 Introduction to Deep Learning》LSTM 處理長序列的能力使其成為適合各種序列任務的神經網路架構，例如文字分類、情感分析、語音識別、影象標題生成和機器翻譯[…]

閱讀全文

LSTM還沒“死”！

TAG: LSTM 序列 Transformer 模型 TCN2022-03-29

TFT 是一種用於時間序列的多層純深度學習模型，該模型具有LSTM 編碼器-解碼器以及提供有可解釋預測的全新注意力機制[…]

閱讀全文

This post is all you need（基於Transformer的翻譯模型）

TAG: 模型序列 Transformer 程式碼語料2021-12-06

一個為原始序列的字典：一個為目標序列的字典：此時，我們就需要定義一個類，並在類的初始化過程中根據訓練語料完成字典的構建，程式碼如下：第3步：轉換為Token序列在得到構建的字典後，便可以透過如下函式來將訓練集、驗證集和測試集轉換成Token[…]

閱讀全文

This post is all you need（基於Transformer的對聯生成模型）

TAG: 模型序列 Transformer 程式碼 token2021-12-03

在完成上述過程後，我們將得到一個類的例項化物件，即：此時，我們就需要定義一個類，並在類的初始化過程中根據訓練語料完成字典的構建，程式碼如下：第3步：轉換為Token序列在得到構建的字典後，便可以透過如下函式來將訓練集和測試集轉換成Token[…]

閱讀全文

機器學習模型也要追求碳中和，效能不應成為唯一標準｜專訪

TAG: 模型資料中心能耗訓練 Transformer2021-09-08

最後該團隊強調，如果從事大計算量模型的機器學習社群能在訓練效率和碳足跡方面進行比較，而非只關注準確性方面，那麼最高效的資料中心和硬體可能會得到更多的使用和推廣[…]

閱讀全文

支援Transformer全流程訓練加速，最高加速3倍！位元組跳動LightSeq上新

TAG: LightSeq 訓練 Transformer 模型加速2021-06-26

首先，你需要安裝 Fairseq 以及必要的第三方庫，然後用如下命令安裝 LightSeq 加速庫：接著就可以透過 LightSeq 提供的啟動器，靈活地指定使用 LightSeq 最佳化版本的 Transformer 模型、引數最佳化器和[…]

閱讀全文

谷歌提出“卷積＋注意力”新模型，超越ResNet最強變體！

TAG: 卷積模型 Transformer 注意泛化2021-06-25

一個結合深度卷積和自注意的理想模型需要具備以上3個特性，而研究人員的實現方法很簡單：在Softmax歸一化前或後，將全域性靜態卷積核與自適應注意矩陣求和[…]

閱讀全文

3行程式碼就能視覺化Transformer的奧義 | 開源

TAG: Transformer RASP 序列輸入計算2021-06-22

當然，你也可以將RASP認為是一種Transformer結構的計算方法：將Transformer網路的技術細節抽象而出，使其支援符號化程式，然後“編譯”到Transformer硬體上，再定義一系列的注意力和多層感知器操作[…]

閱讀全文

7 Papers & Radios |快手開源鬥地主AI，微軟提出DyHead、打破COCO記錄

TAG: Transformer 論文 PDF Learning 鬥地主2021-06-21

目錄OoD-Bench： Benchmarking and Understanding Out-of-Distribution Generalization Datasets and AlgorithmsDecision Transform[…]

閱讀全文

7 Papers & Radios | 邱錫鵬Transformer變體論文綜述；AI六小時內設計一款晶片

TAG: 卷積論文 attention Transformer 模型2021-06-17

目錄：Scaling Local Self-Attention for Parameter Efficient Visual BackbonesX-volution： On the Unification of Convolution an[…]

閱讀全文

華為與清華自動化系學者合作，為輸入影象配置了一個新的transformer

TAG: DVT Transformer tokens ViT 模型2021-06-05

基於此，研究團隊提出了一種新型的動態ViT（DVT ）框架，目標是自動配置在每個影象上調節的tokens數量，從而實現高計算效率[…]

閱讀全文

華為與清華自動化系學者合作，為輸入影象配置了一個新的transformer

TAG: DVT Transformer tokens ViT 模型2021-06-05

基於此，研究團隊提出了一種新型的動態ViT（DVT ）框架，目標是自動配置在每個影象上調節的tokens數量，從而實現高計算效率[…]

閱讀全文

用Transformer進行影象語義分割，效能超最先進的卷積方法！

TAG: Transformer 影象分割 Segmenter 語義2021-05-20

首先他們在ADE20K資料集上比較不同Transformer變體，研究不同引數（正則化、模型大小、影象塊大小、訓練資料集大小，模型效能，不同的解碼器等），全方面比較Segmenter與基於卷積的語義分割方法[…]

閱讀全文

【深度】bert深度學習模型：如何證明這些模型的模型真的很出色呢？

TAG: BERT 模型 Transformer GPT 語言2021-04-18

新智元報道編輯：小勻【新智元導讀】BERT的深度學習模型展示了自然語言處理（NLP）的重大進步，那麼如何證明這些語言模型很出色呢[…]

閱讀全文