您現在的位置是：首頁 > 攝影首頁 攝影

看懂這25個核心概念，就沒有啃不動的機器學習論文

由雷峰網發表于攝影2023-01-28

簡介Swin Transformer解讀再比如當年屠榜各大視覺任務的Swin Transformer，由微軟亞洲研究院郭百寧團隊提出，是視覺領域的研究者必讀的一篇論文，這項工作也在這個論文解讀專案有精彩的分享：文章首先以原始論文中的關鍵圖表，簡

論文核心概念指什麼

作者 | 李梅

編輯 | 陳彩嫻

機器學習領域的研究進展迅速，研究者既要及時跟進最新研究，也要不時地回顧經典。寒假開始，各位機器學習er在度假之餘，想必也不會忘了自己卷王的身份。

最近，Github上出現了一個名為“ML Papers Explained”的優質專案，精選了機器學習領域的一些核心概念，對相關工作的原始論文做了解讀，實在是廣大MLer的一大福利。

專案地址：https：//github。com/dair-ai/ML-Papers-Explained

25個必學的ML概念

該專案由三位資料 Rastogi、Diego Marinho、Elvis Saravia建立，旨在介紹機器學習領域重點技術的研究論文，既有經典重現，也有最新前沿跟進，突出論文的主要創新點，討論它們對研究領域的影響及其應用空間。

該專案目前集合了25個機器學習概念，涉及計算機視覺、目標檢測、文件資訊處理、自然語言處理等方向。按類別劃分，包括RCNN系列：

Transformer系列（Layout Transformers、Document Information Processing、Vision Transformers）：

以及Single Stage Object Detectors系列：

點選這些關鍵詞，就是一篇論文詳解，這些論文解讀大都不是長篇累牘，而是簡明扼要地介紹論文的核心發現、實驗結果，同時有進一步的延伸思考。文章的排版也清晰明瞭，能夠幫助研究者快速且深入理解一篇論文的精髓。這裡選取兩篇解讀來一睹為快。

論文解讀示例

TinyBERT解讀

在大模型越來越成為AI核心研究方向的當下，回顧這些經典的語言模型論文是大有裨益的。比如自BERT模型出現以後，提高模型引數量的同時降低大模型的計算成本，就一直是該領域的一個熱點方向。

Github上的這個論文解讀專案就精選了多篇相關論文，以一篇對知識蒸餾方法TinyBERT的解讀為例：

這項工作由年華中科技大學和華為諾亞方舟實驗室合作，在2019年提出。這篇解讀概括了TinyBERT這項工作的三個核心貢獻：Transformer蒸餾、兩步蒸餾過程、資料增強，這些方法改進了基於Transformer的模型在特定情況下的知識蒸餾效果。

首先是Transformer蒸餾。這部分介紹了論文所用蒸餾方法的核心思想和公式，並解釋了先前的蒸餾工作DistillBERT的弊端，如它使用教師模型來初始化學生模型的權重，導致兩者必須有相同的內部尺寸並允許層數不同，而TinyBERT透過在嵌入和隱藏損失函式中引入可學習的投影矩陣來規避這個問題，從而使得學生和教師模型的內部表示在元素方面可以進行比較。

另外，解讀作者還在這裡引用了另一項相關研究，為TinyBERT的進一步工作提出了一個有趣的方向。

然後是兩步蒸餾法。這裡說明了TinyBERT所使用的蒸餾過程遵循了原始BERT的訓練方法——在大規模的通用資料集上進行預訓練以獲得語言特徵，然後針對特定任務資料進行微調。所以在第一個步驟中，使用在通用資料上訓練的通用BERT作為教師，學生學習模仿教師的嵌入和轉換層啟用來建立一個通用的TinyBERT；在第二個步驟中，將教師模型切換到特定任務模型並繼續訓練學生模型。