您現在的位置是:首頁 > 明星首頁明星

資料分析基礎:從統計學入手資料分析

由 愛資料網 發表于 明星2021-07-04
簡介3.利用Python分析6家公司股票(阿里巴巴 亞馬遜 騰訊 蘋果 facebook 谷歌)首先匯入包建立字典獲取阿里巴巴股票資料會得到如下股票資料:檢視資料集描述會得到下面的資料:分析漲跌得到如下資料:繪圖步驟可以得到‘阿里巴巴’的股票走

離散性是什麼意思

資料分析基礎:從統計學入手資料分析

上篇文章→:簡歷診斷 | 資料分析簡歷屢投不中?免費指導簡歷的機會來啦~

作者 | 萊恩7

https://zhuanlan。zhihu。com/p/34444750

統計學是在

資料分析

的基礎上,

研究如何測定、收集、整理、歸納和分析反映資料,

以便給出正確訊息的科學。如果要學習資料分析,那麼紮實的統計知識是必備的。

本文參考《深入淺出統計學》二 、三、 四、 五 章知識,對重點內容進行歸納總結。最後有幾個統計機率應用的例子以及使用python分析6家上市公司股票的乾貨。

01 統計學基礎

1.均值

平均數的一般量度:

資料分析基礎:從統計學入手資料分析

有時候一些資料重複了,這時候需要用到頻數:

資料分析基礎:從統計學入手資料分析

2.中位數

偏斜資料和異常值使均值誤導的時候,

用它,它是中間值。

3.眾數

資料中

出現最多

的數值。

4.四分數

四分位數(Quartile)是統計學中

分位數的一種

,即把所有數值由小到大排列並分成四等份,處於

三個分割點位置

的數值就是四分位數。

注意:

由小到大排列。

資料分析基礎:從統計學入手資料分析

第一四分位數 (Q1):

又稱“較小四分位數”,等於該樣本中所有數值由小到大排列後

第25%

的數字。

第二四分位數 (Q2):

又稱“中位數”,等於該樣本中所有數值由小到大排列後

第50%

的數字。

第三四分位數 (Q3):

又稱“較大四分位數”,等於該樣本中所有數值由小到大排列後

第75%

的數字。

第三四分位數與第一四分位數的

差距

又稱

四分位距

(InterQuartile Range, IQR)。

5.方差(Variance)

統計中的方差(樣本方差)是每個樣本值與全體樣本值的

平均數之差的平方值的平均數

資料分析基礎:從統計學入手資料分析

6.標準差(Standard deviation)

離均差平方的算術平均數的平方根,用

σ

表示。標準差

是方差的算術平方根

標準差能反映一個數據集的

離散程度

平均數相同的兩組資料,標準差未必相同

資料分析基礎:從統計學入手資料分析

方差所得的數值之平方根就是總體的

標準偏差

7.標準分

是一種由原始分推匯出來的

相對地位量數

,它是用來說明原始分在所屬的那批分數中的

相對位置

的。

資料分析基礎:從統計學入手資料分析

02 機率計算

機率

是對隨機事件發生的

可能性

的度量,一般以一個在

0到1

之間的實數表示一個事件發生的可能性大小。

資料分析基礎:從統計學入手資料分析

1.對立事件

若A交B為不可能事件,A並B為必然事件,那麼稱A事件與事件B

互為對立事件

。其

含義

是:事件A和事件B必

有一個且僅有一個

發生。

對立事件機率之間的關係:

P(A)+P(B)=1

例如:

在擲骰子試驗中,A={出現的點數為偶數},b={出現的點數為奇數},A∩B為不可能事件,A∪B為必然事件,所以A與B互為對立事件。

2.相交事件

可能同時發生

的兩件事。

資料分析基礎:從統計學入手資料分析

3.互斥事件

兩件事中

只可能發生一件

拋硬幣,正反面是互斥,丟擲正面就不可能有反面。

4.獨立事件

發生機率

不受其他事件影響

你拋一個硬幣三次,結果全是“正面”……下一次拋擲的結果也是“正面”的可能性是多少?

可能性是 ½(0。5),和任何一次拋擲一樣。

以前的拋擲不會影響這次拋擲!

資料分析基礎:從統計學入手資料分析

貝葉斯定理

(英語:Bayes‘ theorem)是機率論中的一個定理,

它跟隨機變數的條件機率以及邊緣機率分佈有關。

在有些關於機率的解釋中,貝葉斯定理(貝葉斯公式)能夠告知我們

如何利用新證據修改已有的看法

在介紹貝葉斯定理之前,先簡單地介紹一下

條件機率

,描述的是

事件 A 在另一個事件 B 已經發生條件下的機率

A 和 B 可能是相互獨立的兩個事件,也可能不是。

資料分析基礎:從統計學入手資料分析

03 機率統計的應用

1.期望值

在機率論和統計學中,一個離散性隨機變數的期望值(或數學期望、或均值,亦簡稱期望,物理學中稱為期待值)是試驗中

每次可能的結果乘以其結果機率的總和

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

2.夏普比率

資料分析基礎:從統計學入手資料分析

現代投資理論的研究表明,

風險的大小

在決定組合的表現上具有基礎性的作用。

風險調整後的收益率

就是一個可以同時對收益與風險加以考慮的

綜合指標

,以期能夠排除風險因素對績效評估的不利影響。

夏普比率

就是一個可以同時對

收益與風險加以綜合考慮

的三大經典指標之一。

如果夏普比率為正值,說明在衡量期內基金的平均淨值增長率超過了無風險利率,在以同期銀行存款利率作為無風險利率的情況下,說明投資基金比銀行存款要好。

夏普比率越大,說明基金的單位風險所獲得的風險回報越高。

夏普比率為負時,按大小排序沒有意義。夏普比率以資本市場線作為評價基準,對投資績效作出評估。

3.利用Python分析6家公司股票(阿里巴巴 亞馬遜 騰訊 蘋果 facebook 谷歌)

首先匯入包

資料分析基礎:從統計學入手資料分析

建立字典

資料分析基礎:從統計學入手資料分析

獲取阿里巴巴股票資料

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

會得到如下股票資料:

資料分析基礎:從統計學入手資料分析

檢視資料集描述

資料分析基礎:從統計學入手資料分析

會得到下面的資料:

資料分析基礎:從統計學入手資料分析

分析漲跌得到如下資料:

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

繪圖步驟

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

可以得到‘阿里巴巴’的股票走向

資料分析基礎:從統計學入手資料分析

其他幾家公司同理:

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

資料分析基礎:從統計學入手資料分析

END

本文為轉載分享,如侵權請聯絡後臺刪除

簡歷診斷活動

已經開啟!

4名職場導師

免費指導簡歷,

你的簡歷有救了!

下方海報朋友圈,

新增海報上微信

傳送

分享截圖+簡歷,48小時內

回您診斷建議

更多規則與詳情見→簡歷活動(點選跳轉)

球分享

資料分析基礎:從統計學入手資料分析

球在看