您現在的位置是：首頁 > 音樂首頁 音樂

7 Papers & Radios | 新型Transformer架構解決多智慧體強化學習問題；ICRA 2022最佳論文出爐

由澎湃新聞客戶端發表于音樂2023-01-28

簡介目錄Multi-Agent Reinforcement Learning is A Sequence Modeling ProblemStyleGAN-XL： Scaling StyleGAN to Large Diverse Datase

m十86m等於多少

機器之心 & ArXiv Weekly Radiostation

參與：杜偉、楚航、羅若天

本週主要論文包括：上海交通大學、Digital Brain Lab、牛津大學等的研究者用新型 Transformer 架構解決多智慧體強化學習問題；ICRA 2022 最佳論文出爐，美團無人機團隊獲唯一最佳導航論文獎等研究。

Multi-Agent Reinforcement Learning is A Sequence Modeling Problem

StyleGAN-XL： Scaling StyleGAN to Large Diverse Datasets

End-to-end symbolic regression with transformers

EDPLVO： Efficient Direct Point-Line Visual Odometry

A Ceramic-Electrolyte Glucose Fuel Cell for Implantable Electronics

An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems

Bridging Video-text Retrieval with Multiple Choice Questions

ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音訊）

論文 1：Multi-Agent Reinforcement Learning is A Sequence Modeling Problem

作者：Muning Wen 、 Jakub Grudzien Kuba 等

論文地址：https：//arxiv。org/pdf/2205。14953。pdf

摘要：如何用序列模型解決 MARL（多智慧體強化學習）問題？來自上海交通大學、Digital Brain Lab、牛津大學等的研究者提出一種新型多智慧體 Transformer（MAT，Multi-Agent Transformer）架構，該架構可以有效地將協作 MARL 問題轉化為序列模型問題，其任務是將智慧體的觀測序列對映到智慧體的最優動作序列。

本文的目標是在 MARL 和 SM 之間建立橋樑，以便為 MARL 釋放現代序列模型的建模能力。MAT 的核心是編碼器 - 解碼器架構，它利用多智慧體優勢分解定理，將聯合策略搜尋問題轉化為序列決策過程，這樣多智慧體問題就會表現出線性時間複雜度，最重要的是，這樣做可以保證 MAT 單調效能提升。與 Decision Transformer 等先前技術需要預先收集的離線資料不同，MAT 以線上策略方式透過來自環境的線上試驗和錯誤進行訓練。

為了驗證 MAT，研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準上進行了廣泛的實驗。結果表明，與 MAPPO 和 HAPPO 等強基線相比，MAT 具有更好的效能和資料效率。此外，該研究還證明了無論智慧體的數量如何變化，MAT 在沒見過的任務上表現較好，可是說是一個優秀的小樣本學習者。

在本節中，研究者首先介紹了協作 MARL 問題公式和多智慧體優勢分解定理，這是本文的基石。然後，他們回顧了現有的與 MAT 相關的 MARL 方法，最後引出了 Transformer。

MAT 中包含了一個用於學習聯合觀察表示的編碼器和一個以自迴歸方式為每個智慧體輸出動作的解碼器。

MAT 中的詳細資料流如下動圖所示。

推薦：星際爭霸 II 協作對抗基準超越 SOTA，新型 Transformer 架構解決多智慧體強化學習問題。

論文 2：StyleGAN-XL： Scaling StyleGAN to Large Diverse Datasets

作者：AXEL SAUER、KATJA SCHWARZ、ANDREAS GEIGER

論文地址：https：//arxiv。org/pdf/2202。00273。pdf

摘要：近日，英偉達提出了一種新的架構變化，並根據最新的 StyleGAN3 設計了漸進式生長的策略。研究者將改進後的模型稱為 StyleGAN-XL，該研究目前已經入選了 SIGGRAPH 2022。

這些變化結合了 Projected GAN 方法，超越了此前在 ImageNet 上訓練 StyleGAN 的表現。為了進一步改進結果，研究者分析了 Projected GAN 的預訓練特徵網路，發現當計算機視覺的兩種標準神經結構 CNN 和 ViT ［ Dosovitskiy et al。 2021］聯合使用時，效能顯著提高。最後，研究者利用了分類器引導這種最初為擴散模型引入的技術，用以注入額外的類資訊。

總體來說，這篇論文的貢獻在於推動模型效能超越現有的 GAN 和擴散模型，實現了大規模影象合成 SOTA。論文展示了 ImageNet 類的反演和編輯，發現了一個強大的新反演正規化 Pivotal Tuning Inversion （PTI）［ Roich et al。 2021］，這一正規化能夠與模型很好地結合，甚至平滑地嵌入域外影象到學習到的潛在空間。高效的訓練策略使得標準 StyleGAN3 的引數能夠增加三倍，同時僅用一小部分訓練時間就達到擴散模型的 SOTA 效能。

這使得 StyleGAN-XL 能夠成為第一個在 ImageNet-scale 上演示 1024^2 解析度影象合成的模型。

實驗表明，即使是最新的 StyleGAN3 也不能很好地擴充套件到 ImageNet 上，如圖 1 所示。特別是在高解析度時，訓練會變得不穩定。因此，研究者的第一個目標是在 ImageNet 上成功地訓練一個 StyleGAN3 生成器。成功的定義取決於主要透過初始評分（IS）［Salimans et al。 2016］衡量的樣本質量和 Fréchet 初始距離（FID）［Heusel et al。 2017］衡量的多樣性。在論文中，研究者也介紹了 StyleGAN3 baseline 進行的改動，所帶來的提升如下表 1 所示：

StyleGAN-XL 在深度和引數計數方面比標準的 StyleGAN3 大三倍。然而，為了在 512^2 畫素的解析度下匹配 ADM ［Dhariwal and Nichol 2021］先進的效能，在一臺 NVIDIA Tesla V100 上訓練模型需要 400 天，而以前需要 1914 天。（圖 2）。

推薦：英偉達公佈 StyleGAN-XL：引數量 3 倍於 StyleGAN3，計算時間僅為五分之一。

論文 3：End-to-end symbolic regression with transformers

作者：Pierre-Alexandre Kamienny、Stéphane d‘Ascoli 等

論文地址：https：//arxiv。org/abs/2204。10532

摘要：符號迴歸，即根據觀察函式值來預測函式數學表示式的任務，通常涉及兩步過程：預測表示式的「主幹」並選擇數值常數，然後透過最佳化非凸損失函式來擬合常數。其中用到的方法主要是遺傳程式設計，透過多次迭代子程式實現演算法進化。神經網路最近曾在一次嘗試中預測出正確的表示式主幹，但仍然沒有那麼強大。

在近期的一項研究中，來自 Meta AI（Facebook）、法國索邦大學、巴黎高師的研究者提出了一種 E2E 模型，嘗試一步完成預測，讓 Transformer 直接預測完整的數學表示式，包括其中的常數。隨後透過將預測常數作為已知初始化提供給非凸最佳化器來更新預測常數。

該研究進行消融實驗以表明這種端到端方法產生了更好的結果，有時甚至不需要更新步驟。研究者針對 SRBench 基準測試中的問題評估了該模型，並表明該模型接近 SOTA 遺傳程式設計的效能，推理速度提高了幾個數量級。

該研究提出了一個嵌入器（ embedder ）來將每個輸入點對映成單一嵌入。嵌入器將空輸入維度填充（pad）到 D_max，然後將 3（D_max+1）d_emb 維向量饋入具有 ReLU 啟用的 2 層全連線前饋網路（FFN）中，該網路向下投影到 d_emb 維度，得到的 d_emb 維的 N 個嵌入被饋送到 Transformer。

該研究使用一個序列到序列的 Transformer 架構，它有 16 個 attention head，嵌入維度為 512，總共包含 86M 個引數。像《 ‘Linear algebra with transformers 》研究中一樣，研究者觀察到解決這個問題的最佳架構是不對稱的，解碼器更深：在編碼器中使用 4 層，在解碼器中使用 16 層。該任務的一個顯著特性是 N 個輸入點的排列不變性。為了解釋這種不變性，研究者從編碼器中刪除了位置嵌入。

如下圖 3 所示，編碼器捕獲所考慮函式的最顯著特徵，例如臨界點和週期性，並將專注於區域性細節的短程 head 與捕獲函式全域性的長程 head 混合在一起。

推薦：來自 Mata AI、法國索邦大學、巴黎高師的研究者成功讓 Transformer 直接預測出完整的數學表示式。

論文 4：EDPLVO： Efficient Direct Point-Line Visual Odometry

作者：Lipu Zhou 、 Guoquan Huang 、 Yinian Mao 等

論文地址：https：//www。cs。cmu。edu/~kaess/pub/Zhou22icra。pdf

摘要：國際機器人技術與自動化會議 ICRA 2022 於 5 月 23 日至 5 月 27 日在美舉辦，這是 Robotics（機器人學）領域最頂級的國際會議之一。美團無人機團隊一篇關於視覺里程計的研究獲得了大會導航領域的年度最佳論文（Outstanding Navigation Paper），這也是今年唯一一篇第一作者和第一單位均來自中國境內科技公司和高校的獲獎論文。

在這篇論文中，作者提出了一種使用點和線的高效的直接視覺里程計（visual odometry，VO）演算法—— EDPLVO 。他們證明了，2D 線上的 3D 畫素點由 2D 線端點的逆深度決定，這使得將光度誤差擴充套件到線變得可行。與該團隊之前的演算法 DPLVO 相比，新演算法大大減少了最佳化中的變數數量，而且充分利用了共線性。在此基礎上，他們還引入了一個兩步最佳化方法來加快最佳化速度，並證明了演算法的收斂性。

實驗結果表明，該演算法的效能優於目前最先進的直接 VO 演算法。這項技術將在以無人機、自動配送車為代表的機器人自主導航以及 AR/VR 等領域進行廣泛應用。該研究提出了一種新的演算法——EDPLVO。

文章的主要貢獻如下：

他們將光度誤差擴充套件到了線。原來的光度誤差只針對點定義，很難應用到線。與 DPLVO 中簡單地將共線約束引入成本函式不同，他們提出了一種引數化 3D 共線點的新方法，從而使得將光度誤差擴充套件到線變得可行。具體來說，他們證明了 2D 線上任意點的 3D 點由 2D 線兩個端點的逆深度決定。該屬性可以顯著減少變數的數量。同時，該方法在最佳化過程中嚴格滿足共線約束，這提高了準確率。

他們引入了一個兩步驟方法來限制由於在最佳化中引入長期線關聯而導致的計算複雜度。在每次迭代中，他們首先使用固定的逆深度和關鍵幀姿態來擬合 3D 線。然後，他們使用新的線引數來調節逆深度和關鍵幀姿態的最佳化結果。由此產生的兩個最佳化問題很容易解決。研究者證明了該方法總是可以收斂的。

推薦：ICRA 2022 最佳論文出爐：美團無人機團隊獲唯一最佳導航論文獎。

論文 5：A Ceramic-Electrolyte Glucose Fuel Cell for Implantable Electronics

作者：Philipp Simons、Steven A。 Schenk 等

論文地址：https：//onlinelibrary。wiley。com/doi/full/10。1002/adma。202109075

摘要：近日，MIT 材料科學與工程系（DMSE）博士、Amgen 公司現運營經理 Philipp Simons 與其同事開發出了一種新型的葡萄糖燃料電池，可以直接將葡萄糖轉換為電流。相關論文《A Ceramic-Electrolyte Glucose Fuel Cell for Implantable Electronics》在期刊 Advanced Materials 上發表。

該裝置體積小於其他研究提出的葡萄糖燃料電池，僅 400 奈米厚，大約為人頭髮直徑的 1/100。含糖（sugary）電源每平方釐米可以產生大約 43 微瓦特電流，實現了迄今為止環境條件下所有葡萄糖燃料電池所能產生的最高功率密度。

新的葡萄糖燃料電池具有很強的耐受力，能夠承受最高 600 攝氏度的溫度。如果整合到醫學植入物中，該燃料電池可以在所有植入式裝置所需的高溫滅菌過程保持穩定。裝置的核心由陶瓷製成，這種材料即使在高溫和微型氧化皮下也能保持自身電化學屬性。

如下從左到右分別為葡萄糖燃料電池、晶片和單個裝置的示意圖。其中，a 為基於多孔 Pt 陽極 / 二氧化鈰電解質 / 密集 Pt 陰極的獨立式膜的陶瓷葡萄糖燃料電池的構造；b 為包含 30 個葡萄糖燃料電池裝置的燃料電池晶片示意圖；c 為單個獨立式鈰膜的光學顯微鏡影象。

推薦：耐 600 度高溫，MIT 用陶瓷製成葡萄糖燃料電池，為身體植入裝置供電。

論文 6：An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems

作者：Andrea Gesmundo、Jeff Dean

論文地址：https：//arxiv。org/abs/2205。12755

摘要：在該論文中，Jeff Dean 等人提出了一種進化演算法，可以生成大規模的多工模型，同時也支援新任務的動態和連續新增，生成的多工模型是稀疏啟用的，並集成了基於任務的路由，該路由保證了有限的計算成本，並且隨著模型的擴充套件，每個任務新增的引數更少。

作者表示，其提出的新方法依賴於知識劃分技術，實現了對災難性遺忘和其他常見缺陷（如梯度干擾和負遷移）的免疫。實驗表明，新方法可以聯合解決並在 69 個影象分類任務上取得有競爭力的結果，例如對僅在公共資料上訓練的模型，在 CIFAR-10 上實現了新的業界最高識別準確度 99。43%。

作者提出的 2Net 模型可以預訓練或隨機初始化。一次搜尋出的單個任務上的最佳模型稱為活動任務。在任務的活躍階段，在活躍任務上訓練的模型群體會不斷進化——隨機突變然後測試評分，保留高分的，淘汰低分的。一個活躍階段由多代組成，其中並行取樣和訓練多批子模型。在任務活動階段結束時，僅保留其最佳評分模型作為多工系統的一部分。一個任務可以被多次啟用。

作者表示 2Net 可以在大型任務集上實現最先進的質量，並能夠將新任務動態地引入正在執行的系統中。學習的任務越多，系統中嵌入的知識就越多。同時，隨著系統的增長，引數啟用的稀疏性使每個任務的計算量和記憶體使用量保持不變。透過實驗，每個任務的平均增加引數量減少了 38%，由此產生的多工系統僅激活了每個任務總引數的 2。3%。

推薦：Jeff Dean 新論文。

論文 7：Bridging Video-text Retrieval with Multiple Choice Questions

作者：Yuying Ge、Yixiao Ge、Xihui Liu、Dian Li、Ying Shan、Xiaohu Qie、Ping Luo

論文地址：https：//arxiv。org/abs/2201。04850

摘要：用於文字影片檢索的多模態預訓練工作主要採用兩類方法：“雙流” 法訓練兩個單獨的編碼器來約束影片級別和語句級別的特徵，忽略了各自模態的區域性特徵和模態間的互動；“單流” 法把影片和文字聯結作為聯合編碼器的輸入來進行模態間的融合，導致下游檢索非常低效。

本文提出一個全新的帶有引數化模組的藉口任務（pretext task），叫做 “多項選擇題”（MCQ），透過訓練 BridgeFormer 根據影片內容回答文字構成的選擇題，來實現細粒度的影片和文字互動，並在下游時移除輔助的 BridgeFormer，以保證高效的檢索效率。

如下圖所示，該研究的方法包含一個影片編碼器 VideoFormer，用來從原始的影片幀提取影片特徵；一個文字編碼器 TextFormer，用來從自然語言提取文字特徵。該研究透過抹去文字描述裡的名詞短語或動詞短語，來分別構造名詞問題和動詞問題。以對比學習的形式，訓練 BridgeFormer 透過求助 VideoFormer 提取到的區域性影片特徵，從多個選項裡挑選出正確的答案。這裡，多個選項由一個訓練批次裡所有被抹去的短語構成。

這一輔助的預訓練目標會促使 VideoFormer 提取影片裡準確的空間內容，使得 BridgeFormer 能夠回答出名詞問題，並捕獲到影片裡物體的時序移動，使得 BridgeFormer 能夠回答出動詞問題。這樣的訓練機制使得 VideoFormer 更能感知影片裡的區域性物體和時序動態。影片和文字區域性特徵的關聯也透過問題和回答這樣的形式得到了有效的建立。由於 BridgeFormer 聯結了影片和文字的每一層特徵，對 BridgeFormer 的約束就會進而最佳化影片和文字的特徵。因此輔助的 BridgeFormer 只用於預訓練，在下游檢索時可以被移除，從而保留高效的雙編碼器結構。

如下圖所示，該研究預訓練流程包含三個部分，來分別最佳化三個統一的對比學習（contrastive learning）形式的預訓練目標：

該研究的模型包含一個影片編碼器 VideoFormer，一個文字編碼器 TextFormer，和一個輔助的編碼器 BridgeFormer。每一個編碼器由一系列 transformer 模組構成。TextFormer 輸出的每一層問題文字特徵被視為 query，VideoFormer 輸出的每一層影片特徵被視為 key 和 value，被送入 BridgeFormer 相應層來執行跨模態的注意力機制，以獲得回答特徵。

推薦：影片文字預訓練新 SOTA！港大、騰訊 ARC Lab 推出基於多項選擇題的藉口任務。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation，在 7 Papers 的基礎上，精選本週更多重要論文，包括NLP、CV、ML領域各10篇精選，並提供音訊形式的論文摘要簡介，詳情如下：

本週 10 篇 NLP 精選論文是：

1。 A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference。（from Philip S。 Yu）

2。 VD-PCR： Improving Visual Dialog with Pronoun Coreference Resolution。（from Hongming Zhang， Changshui Zhang）

3。 CPED： A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。（from Minlie Huang）

4。 Few-shot Subgoal Planning with Language Models。（from Honglak Lee）

5。 Differentially Private Decoding in Large Language Models。（from Richard Zemel）

6。 A Mixture-of-Expert Approach to RL-based Dialogue Management。（from Craig Boutilier）

7。 CEBaB： Estimating the Causal Effects of Real-World Concepts on NLP Model Behavior。（from Christopher Potts）

8。 Controllable Text Generation with Neurally-Decomposed Oracle。（from Kai-Wei Chang）

9。 Understanding How People Rate Their Conversations。（from Dilek Hakkani-Tur）

10。 An Informational Space Based Semantic Analysis for Scientific Texts。（from Alexander N。 Gorban）

本週 10 篇 CV 精選論文是：

1。 Voxel Field Fusion for 3D Object Detection。（from Jian Sun， Jiaya Jia）

2。 Unifying Voxel-based Representation with Transformer for 3D Object Detection。（from Jian Sun， Jiaya Jia）

3。 A Closer Look at Self-supervised Lightweight Vision Transformers。（from Jian Sun， Weiming Hu）

4。 Unveiling The Mask of Position-Information Pattern Through the Mist of Image Features。（from Ming-Hsuan Yang）

5。 Cascaded Video Generation for Videos In-the-Wild。（from Aaron Courville）

6。 Modeling Image Composition for Complex Scene Generation。（from Jie Yang， Dacheng Tao）

7。 Visual Superordinate Abstraction for Robust Concept Learning。（from Dacheng Tao）

8。 Multi-Task Learning with Multi-query Transformer for Dense Prediction。（from Dacheng Tao）

9。 Glo-In-One： Holistic Glomerular Detection， Segmentation， and Lesion Characterization with Large-scale Web Image Mining。（from Agnes B。 Fogo）

10。 Siamese Image Modeling for Self-Supervised Vision Representation Learning。（from Yu Qiao， Xiaogang Wang）

本週 10 篇 ML 精選論文是：

1。 Provably Sample-Efficient RL with Side Information about Latent Dynamics。（from Robert E。 Schapire）

2。 Learning to Control Linear Systems can be Hard。（from Manfred Morari， George J。 Pappas）

3。 So3krates —— Self-attention for higher-order geometric interactions on arbitrary length-scales。（from Klaus-Robert Müller）

4。 Graph-level Neural Networks： Current Progress and Future Directions。（from Jian Yang， Quan Z。 Sheng， Charu Aggarwal）

5。 Dataset Distillation using Neural Feature Regression。（from Jimmy Ba）

6。 You Can’t Count on Luck： Why Decision Transformers Fail in Stochastic Environments。（from Jimmy Ba）

7。 Adaptive Random Forests for Energy-Efficient Inference on Microcontrollers。（from Luca Benini）

8。 Multi-Complexity-Loss DNAS for Energy-Efficient and Memory-Constrained Deep Neural Networks。（from Luca Benini）

9。 Open Environment Machine Learning。（from Zhi-Hua Zhou）

10。 Parameter-Efficient and Student-Friendly Knowledge Distillation。（from Dacheng Tao）

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin。com

原標題：《7 Papers & Radios | 新型Transformer架構解決多智慧體強化學習問題；ICRA 2022最佳論文出爐》

上一篇：60分20板，51分9助！23歲創造歷史，真可惜，你遇到了無能管理層

下一篇：“二十世紀的中國文壇，沒有王朔會失去很多趣味”

您現在的位置是：首頁 > 音樂首頁 音樂

7 Papers & Radios | 新型Transformer架構解決多智慧體強化學習問題；ICRA 2022最佳論文出爐

相關文章

猜你喜歡