您現在的位置是:首頁 > 舞蹈首頁舞蹈

融合問題建模的資料表示之探討

由 雲悅科技 發表于 舞蹈2021-08-06
簡介由於張量是向量和矩陣的自然推廣,因此在張量表示框架下,可以建立張量PCA分解、張量填補(tensor completion)等,發展張量回歸(tensor regression)新型機器學習方法

行秩與列秩一定相等嗎

在多維訊號表示發展的歷史長河中,傅立葉變換曾經長時間佔據訊號處理的統治地位,但由於其區域性模式分析不足,人們逐步研究出小波分析、多尺度幾何分析(如Ridgelet、 Curvelet變換)等不同形式的固定基函式系統,提供人工解析形式的資料表示或者變換。其典型構造思想在於採取各向異性基提升訊號的特徵表達、幾何奇異性捕獲和逼近能力。冗餘與稀疏表示方法曾風靡一時,形態分量分析方法(Morphological Component Analysis,MCA),稀疏子空間聚類(Sparse Subspace Clustering,SSC)等研究延續至今並熱力不減。然而,經典的“稀疏表示”方法通常以度量向量的一階稀疏性為主要手段,其對類似影象等資料結構訊號緊緻表示能力有限。

對於二維影象訊號而言,由於影象往往是冗餘的,內部存在大量相似性,度量矩陣的低維結構的有效方式是結構化的稀疏性,這表現為矩陣低秩(low rank)性。矩陣的秩是向量稀疏性的高階推廣。向量稀疏性模型往往在矩陣低秩下可以得到推廣,效能更為優異。以矩陣“秩”為度量的低秩表示已經證實是矩陣型結構資料冗餘性,更好地刻畫影象低維結構,例如低秩去噪可以取得更好的效果。基於矩陣低秩極小化,人們提出矩陣填補、矩陣迴歸、魯棒PCA等方法。例如,魯棒PCA就是將一個矩陣分解為一個儘可能低秩的矩陣和一個儘可能稀疏的矩陣。該方法被廣泛應用於影片背景建模、人臉識別、雨滴去除、舊電影修復等。在高光譜遙感中,稀疏和低秩融合、稀疏子空間聚類、稀疏與低秩表示、監督分類與異常檢測等是目前的研究熱點。

融合問題建模的資料表示之探討

隨著成像硬體的發展,所獲取的多維資料表現為大體量、多樣化的多模多通道矩陣訊號。以高光譜遙感資料為例,通常以巨大的分塊矩陣或多路陣列(multi-way array)的形式表示,又稱之為張量(tensor)。這些多路資料往往需要進行模式轉換才能在特定的容許時間內高效處理海量資料集(快速性),這促使人們開始重新關注適用於超大資料集的矩陣和張量演算法。從多線性代數為基礎的張量分析的視角看,向量是一階張量,矩陣是二階張量,當遇到三維陣列或更高階的資料時,高階張量表示因其更為豐富的多路分量分析和代數特徵,具有資料多視角內在結構的捕獲和表達能力。

對於高維資料,直接的方法是表達為高階張量,可以推廣矩陣秩的相關概念,引入張量秩,透過多重線性資料分析挖掘高維資料的內在本質結構,如Turker分解(或稱為高階SVD分解)和典範分解(canonical polyadic,分解為秩-1張量之和)等。在矩陣分析中,矩陣的秩是唯一確定的概念,即矩陣的行秩、列秩和矩陣秩相同。但在張量情形中,秩的概念並不像矩陣秩那樣唯一定義,研究者構造了不同形式的張量秩。例如,一種張量的秩的定義形式是相對於矩陣的行秩和列秩進行描述,其方法是透過高階張量矩陣化,透過張量模n-展開矩陣的秩進行定義。張量分析具有如下優勢:

1。 提供快速且靈活地表示框架,能同時表示結構豐富的資料和複雜的最佳化。

2。 提供大規模多維資料的壓縮形式,透過張量化和低秩張量分解,將大規模多維資料有效壓縮成低階因子矩陣及核心張量。

3。 具有處理有噪聲和有缺失的資料的能力,能夠利用低秩張量或矩陣逼近演算法的數值穩定性和魯棒性處理不完備資料或噪聲資料。

4。 提供自然結合各種多樣性先驗和約束的靈活框架,可以無縫地將標準成分分析(雙路成分分析)方法擴充套件到多路成分分析;在張量秩最小化的框架下建立低秩張量恢復、基於張量的RPCA、張量壓縮感知等相關理論與方法。

5。 基於張量表示可以建立張量框架下的機器學習模型。由於張量能夠保持關於物件結構的固有資訊,張量表示通常有助於減輕鑑別性子空間選擇中出現的小樣本問題。

6。 在實際高維訊號處理中,也可以將直接域是低階張量的資料透過張量化操作組織為高階張量然後執行多重線性分析。由於張量是向量和矩陣的自然推廣,因此在張量表示框架下,可以建立張量PCA分解、張量填補(tensor completion)等,發展張量回歸(tensor regression)新型機器學習方法;也可以與深度學習結合,建立張量佇列網路(tensor train network)等。張量表示框架對於高光譜影象處理與分析具有天然優勢,大多數稀疏與矩陣低秩分析演算法可方便地推廣到張量情形,如張量表示融合超分辨、監督分類,都能獲得更為優異的效能。

隨著深度學習模型的興起,資料驅動式的高維訊號表示學習方法在學術界與工業界如火如荼。雖然早期神經網路學習是受模擬生物學習所啟發,但是深度學習的發展超越了神經科學的觀點,透過學習“多層次複合函式”的更普遍原理,可以產生新的機器學習框架。深度學習透過較簡單的表示來表達複雜表示,解決了表示學習的核心問題。大量深度學習模型應用於高光譜影象低層反問題(去噪、復源、超分辨)、多源融合等領域,也應用於混合像元分解、地物監督分類、目標檢測識別等領域,並取得了前所未有的效能提升。然而,資料驅動的深度學習方法存在“過擬合現象”、“小樣本學習能力不足”、“黑盒導致的不可解釋性”以及“引數難調”等問題。