您現在的位置是：首頁 > 音樂首頁 音樂

EMNLP 2022獎項揭曉，最佳論文這腦洞絕了！

由新智元發表于音樂2022-12-27

簡介就這樣，人類智慧誕生了~在認知科學上，七巧板就是這個智慧過程的一個簡單的重現：七巧板的每個闆闆就是上面說的一個類似「概念」的存在，這些代表「概念」的闆闆模組經過組合，形成了多種多樣的形狀（shape），而人類如何理解這些形狀，又如何理解這些

工作分配方案怎麼寫

作者：夕小瑤的賣萌屋（付奶茶，ZenMoore）

編輯：好睏

【新智元導讀】

近日，自然語言處理頂會EMNLP公佈了今年的論文獲獎情況，包括最佳長論文（1 篇）、最佳短論文（1 篇）等。

在看獲獎論文之前，我們先來思考人工智慧中一個核心而底層的問題：什麼是抽象以及它能夠給我們帶來什麼？

我們這裡說的「抽象」是一個認知學上的概念，著名學者 ChatGPT 說：「抽象是指不依賴於具體事物或例項，而是指抽取共同點或基本特徵的思維過程。」

在人類智慧中，抽象是一個很底層很基本的能力，在某種程度上，可以認為是人類智慧的源頭之一。

因為人在對主客觀世界進行觀察的過程中，抽象出了無數種概念（concept），對這些概念的模組化（modularity）、組合式（compositionality）的理解，很大程度上刺激了人類語言的誕生，從而最終導致了人類智慧、人類文明的產生。

舉個例子，萬年前的「猴子們」觀察了大量的物理物件（object）、實體（entity）以及他們之間的關係（relation）等，逐漸在腦子裡面形成了「石頭」、「家庭」、「在。。。之間」、「因果」等概念，經過很長一段時間之後，「猴子們」把這些存在腦海裡面的概念用「字」和「詞」表示了出來，這些蘊含著抽象概念的字和詞經過複雜的、有規則的組合，形成了各種各樣的語言，而語言能夠表達、演繹、推理一切！就這樣，人類智慧誕生了~

在認知科學上，七巧板就是這個智慧過程的一個簡單的重現：七巧板的每個闆闆就是上面說的一個類似「概念」的存在，這些代表「概念」的闆闆模組經過組合，形成了多種多樣的形狀（shape），而人類如何理解這些形狀，又如何理解這些闆闆，在某種程度上，就是某個人抽象能力的衡量。而抽象能力，就是人類進行推理（reasoning）以及泛化（generalization）的底層能力。

今天介紹的這篇文章榮獲了EMNLP 2022 Best Long Paper，巧妙地借鑑了七巧板這個童年遊戲，評估了當前多模態模型的抽象理解能力。可以說，至少在人類級別智慧的評測上，推進了一步！

論文標題：Abstract Visual Reasoning with Tangram Shapes

論文連結：https：//arxiv。org/abs/2211。16492

資料集的構建

首先給大家展示一下童年回憶之七巧板：

一套七巧板由 7 個顏色各異的闆闆組成，可以根據想法自由組合成各種各種的形狀。

這篇論文首先收集了 1004 個七巧板影象，又從七巧板的研究文獻中找了另外12種將其擴充到了 1016 個，然後在 Amazon Mechanical Turk 平臺上僱了 297 個數據標註員，花了兩千多美刀讓他們標註了這麼兩個任務：

七巧板整體形狀的預測：這部分資料集叫做 FULL 「This shape as whole looks like ___」

部分預測：形容某個單獨的部分是幹啥的，因為細節標註比較密，所以把這部分資料集叫做 DENSE 「The part you selected looks like___」

作者還從 DENSE 裡面挑出來一些標註不那麼密的子集，叫做 DENSE10。

在這個資料集當中，包含了類人形狀（比如舞者）、動物形狀（比如狗狗）還有物體形狀（比如房屋）等等。可以從下面兩張圖中大概瞭解長什麼樣兒~

「頭」用七巧板可以怎麼展現

資料集質量衡量

看了這些圖，不難發現七巧板這個任務過於抽象，對人工資料集構建來說，這就導致了一個關鍵的問題：不同標註員之間存在較大的主觀差異，「你說這是個鳥頭，我卻說那是個風中的美女頭巾」（參考 Figure 1），這樣資料集不就亂套了嗎？好在作者給出了衡量這類資料集質量的三種指標：

形狀命名差異（shape naming divergence，SND）：用來衡量不同標註員進行不同七巧板影象的形狀標註時的總體差異；

部分命名差異（part naming divergence PND）：用來衡量不同標註員進行不同七巧板影象的區域性標註時的總體差異，計算方式和 SND 大致相同；

分塊分割一致性（part segmentation agreement，PSA）：用來衡量不同標註員劃分區域性時的總體差異，也就是不同的人可能將不同的闆闆組合劃分成某個部分。作者把這個看作是「使用最大權重匹配的線性和分配問題」，並使用成本矩陣計算（快去複習演算法）。

總之這麼衡量下來，資料集質量還是不錯滴~ 符合真實分佈~

具體的計算公式以及得到結論的細節，感興趣的讀者可以移步原文~

多模態模型有抽象能力嗎？

作者把構建的資料集叫做 KILOGRAM，主要衡量了兩類代表性多模態模型的視覺抽象能力：

以 CLIP 為代表的雙塔模型：視覺和語言模態採用不同的 encoder；

以 ViLT 為代表的單塔模型：視覺和語言拼接成一長串輸入，餵給同一個 encoder。

1。任務形式化

給定一個文字描述

和對應的

張影象

，這個任務是從這些影象當中選擇和文字描述相匹配的那一張，

。其中，

是指相似度。

因此總的來說，這就是一個簡單的文圖匹配（ITM， image-text matching）或分類任務。

2。輸入和輸出

影象分成兩種形式：作為整體的「BLACK」以及區域性標註的「COLOR」

文字分成兩種形式：作為整體的「WHOLE」以及區域性標註的「PARTS」

然後還可以採用一些資料增強的手段：「AUG」

這樣，不同的影象-文字形式組合就代表了不同粒度的抽象理解能力。

3。模型訓練

一共有兩種主要的實驗設定：

PT：僅使用預訓練模型，不精調，以 zero-shot 的方式在 KILOGRAM 上測試；

FT：使用預訓練模型，並使用對比訓練在 KILOGRAM 精調並測試。

在精調的基礎上，還可以進行上文提到的資料增強（AUG）

4。實驗結果

僅僅看 zero-shot （i。e。， PT）的表現，CLIP略優於ViLT；

新增區域性資訊並沒有太大的作用，說明預訓練模型並不能很好地推理文字和七巧板區域性之間的關聯；

WHOLE+BLACK 上的 zero-shot 的實驗表現說明，預訓練模型並不能很好地將熟悉的概念泛化到抽象的形狀當中去（它知道現實世界中狗狗是什麼樣子的，但是並不能將七巧板抽象狗和真實狗狗聯絡在一起）；

精調可以大幅改進效能；

在精調設定下，在文字描述中新增區域性資訊可以提升效能，但是在七巧板影象中新增區域性資訊並沒有用；當兩者都提供時，改善很明顯；

在精調設定下的實驗結果與人工評測結果規律相似；

資料增強只對 CLIP 有用，但對 ViLT 沒用；

在PARTS+COLOR條件下，ViLT的表現明顯優於人類的平均表現。

一點碎碎念

本篇工作中將傳統的童年玩具「七巧板」的概念與多模態模型巧妙關聯，用模型理解文字與七巧板圖案區域性、整體之間的關聯，來評估模型的視覺抽象能力。

七巧板作為童年益智啟蒙玩具，是在人類在視覺認知上對圖塊與圖案之間的分割、組合能力的體現，也正是本文開頭提到的認知科學上智慧過程中人類進行推理、泛化的底層能力。

作為Best Paper，本篇論文無論是從資料集的構建還是實驗設計來看，都是非常創新且具備很高的研究價值的工作，也對模型能力在人類智慧上的評估有很強的指導意義。

獲獎名單

最佳長論文

論文連結：https：//arxiv。org/abs/2211。16492

最佳短論文

論文連結：https：//preview。aclanthology。org/emnlp-22-ingestion/2022。emnlp-main。70。pdf

最佳長論文榮譽提名

論文連結：https：//arxiv。org/abs/2202。10419

最佳 Demo 論文

論文連結：https：//arxiv。org/abs/2210。01970

參考資料：

https：//mp。weixin。qq。com/s/Cy0fqkZnO69Y5McP4OisAw

https：//mp。weixin。qq。com/s/YNlTt9u8yDy_XFK7OoqBAQ

上一篇：富豪丈夫被捕10個月後，安以軒近況曝光：闊太生活還能過多久？

下一篇：《時光音樂會2》開播被贊，網友清一色給出5星，評價句句中肯

您現在的位置是：首頁 > 音樂首頁 音樂

EMNLP 2022獎項揭曉，最佳論文這腦洞絕了！

相關文章

猜你喜歡