您現在的位置是:首頁 > 寵物首頁寵物

資料視覺化 | 箱線圖應該怎麼用?

由 攝影小咖秀 發表于 寵物2021-09-05
簡介沒有比較就沒有傷害,大家看圖4能夠明顯感覺到箱線圖是更有效的工具,能夠從平均水平(中位數),波動程度(箱子寬度)以及異常值對男女教師的教學評估得分進行比較,而直方圖卻做不到

箱牙齒怎樣箱

大家好,我是水媽。今天我們講一種針對於連續型變數的統計圖:

箱線圖(boxplot)

首先看一個長相標誌的箱線圖。水媽模擬了一個樣本資料,是學生期末考試得分,箱線圖如圖1所示。

資料視覺化 | 箱線圖應該怎麼用?

圖1 學生期末考試成績箱線圖

看圖說話,注意以下幾個點:

箱子的中間一條線,是資料的中位數,代表了樣本資料的

平均水平

箱子的上下限,分別是資料的上四分位數和下四分位數。這意味著箱子包含了50%的資料。因此,箱子的寬度在一定程度上反映了資料的

波動程度

在箱子的上方和下方,又各有一條線。有時候代表著最大最小值,有時候會有一些點“冒出去”。請千萬不要糾結,不要糾結,不要糾結(重要的事情說三遍),如果有點冒出去,理解成

“異常值”

就好。

以上是解讀箱線圖最基本的三要素。雖然箱線圖也能看分佈的形態,但人們更習慣從直方圖去解讀分佈的形態,而非箱線圖。在瞭解了箱線圖之後,我們

今天著重講兩個事情

第一件事情,

不是所有的資料都適合畫箱線圖

,不信,請看學生畫的醜圖。

資料視覺化 | 箱線圖應該怎麼用?

圖2醜圖示例

這幾組箱線圖看著不舒服,主要原因是,

箱子被壓得很扁,甚至只剩下一條線,同時還存在著很多刺眼的異常值

。這種情況的出現,

有兩個常見的原因

。第一是,樣本資料中,存在特別大或者特別小的異常值,這種離群的表現,導致箱子整體被壓縮,反而凸顯出來這些異常;第二是,樣本資料特別少,資料一少,就有可能出現各種詭異的情況,導致統計圖長得對不起觀眾。

如果你畫出的箱線圖是這樣的,那麼有兩個解決辦法。第一,如果資料取值為正數,那麼可以嘗試做

對數變換

。對數變換水媽必須牆裂推薦,稱得上畫圖界的

整容神器

,專治各種不對稱分佈、非正態分佈和異方差現象等。圖3就是整容前後的一組箱線圖。你說我不想做變換,那麼可以採取第二種解決辦法,那就是,不畫箱線圖。

#FormatImgID_3#

圖3對數變換前後的箱線圖

以上是第

點要說明的,不是所有資料都適合畫箱線圖。第二點要說明的,更加重要的,那就是

箱線圖應該怎麼用

。答案是,

配合著定性變數畫分組箱線圖,作比較

!分組箱線圖是水媽最喜歡的統計畫圖工具,沒有之一。

如果只有一個定量變數,很少用一個箱線圖去展示其分佈,而是更多的選擇直方圖

。箱線圖更有效的使用方法,是作比較。我們舉兩個栗子。

第一個例子,我上課經常講。假設我現在要比較男女教師的教學評估得分,用什麼工具最好。答案是箱線圖。沒有比較就沒有傷害,大家看圖4能夠明顯感覺到箱線圖是更有效的工具,能夠從平均水平(中位數),波動程度(箱子寬度)以及異常值對男女教師的教學評估得分進行比較,而直方圖卻做不到。

#FormatImgID_4#

圖4 進行比較時,箱線圖是更有效的工具

第二個例子,來自R語言裡面的boxplot的example,水媽覺得很好看,拿來跟大家分享。這個箱線圖略複雜,共涉及3個變數。定量變數是牙齒生長長度,體現在圖形的縱座標,也就是箱子展示的內容。第一個定性變數是維他命C的劑量,三個水平(0。5mg,1mg和2mg),體現在橫座標,所以一共有3組箱線圖;第二個定性變數是食用的食物,是維C還是橙汁,分別用黃色和橙色展現,所以每組箱線圖裡又包含兩個箱子。

#FormatImgID_5#

圖5 來自R語言的箱線圖示例

從圖5當中,可以得到這些結論:

隨著使用劑量的增加,不管食用的是哪種食物,牙齒生長長度的平均水平(中位數)都在增加。

當使用劑量為0。5mg和1mg時,食用橙汁帶來的牙齒生長的平均長度(中位數)要比食用維C高,波動程度也相應更大。

當使用劑量為2mg時,食用兩種食物帶來的牙齒生長平均水平(中位數)相當,食用維C的牙齒生長長度波動相對更大。

以上是今天跟大家分享的箱線圖,

總結一下

箱線圖是針對連續型變數的,解讀時候重點關注平均水平、波動程度和異常值。

當箱子被壓得很扁,或者有很多異常的時候,試著做對數變換。

當只有一個連續型變數時,並不適合畫箱線圖,直方圖是更常見的選擇。

箱線圖最有效的使用途徑是作比較,配合一個或者多個定性資料,畫分組箱線圖。