您現在的位置是：首頁 > 攝影首頁 攝影

Python學習之字元編碼

由老男孩python學習發表于攝影2021-10-16

簡介於是，國際標誰化組織為了統一編碼：提出了標準編碼準即：UNICODE，UNICODE是用兩個位元組來表示為一個字元，它總共可以組合出65535不同的字元，這足以覆蓋世界上所有符號（包括甲骨文）UTF-8都一統天下了，為什麼還要有一個utf

每個位元組有唯一的編碼稱為什麼

說起python編碼，真是句句心酸。算起來，反覆折騰兩個來月了。萬幸的是，終於梳理清楚了。作為一個共產主義者，一定要分享給大家。如果你還在因為編碼而頭痛，那麼趕緊跟著我咱們一起來揭開py編碼的真相吧！

一。什麼是字元編碼？

計算機要想工作必須通電，即用‘電’驅使計算機幹活，也就是說‘電’的特性決定了計算機的特性。電的特性即高低電平（人類從邏輯上將二進位制數1對應高電平，二進位制數0對應低電平），關於磁碟的磁特性也是同樣的道理。結論：計算機只認識數字

很明顯，我們平時在使用計算機時，用的都是人類能讀懂的字元（用高階語言程式設計的結果也無非是在檔案內寫了一堆字元），如何能讓計算機讀懂人類的字元？

必須經過一個過程：字元————（翻譯過程）————->數字

這個過程實際就是一個字元如何對應一個特定數字的標準，這個標準稱之為字元編碼。

二。字元編碼的發展史

ASCII

記住一句話：計算機中的所有資料，不論是文字、圖片、影片、還是音訊檔案，本質上最終都是按照類似 01010101 二進位制儲存的，再說簡單點，計算機只懂二進位制數字！所以，目的明確了：如何將我們能識別的符號唯一的與一組二進位制數字對應上？於是美利堅的同志想到透過一個電平的高低狀態來代指0或1，八個電平做為一組就可以表示出256種不同狀態，每種狀態就唯一對應一個字元，比如A——->00010001，而英文只有26個字元，算上一些特殊字元和數字，128個狀態也夠用了；每個電平稱為一個位元為，約定8個位元位構成一個位元組，這樣計算機就可以用127個不同位元組來儲存英語的文字了。這就是ASCII編碼。

擴充套件ANSI編碼

剛才說了最開始，一個位元組有八位，但是最高位沒用上，預設為0；後來為了計算機也可以表示拉丁文，就將最後一位也用上了，從128到255的字符集對應拉丁文啦。至此，一個位元組就用滿了！

GB2312

計算機漂洋過海來到中國後，問題來了，計算機不認識中文，當然也沒法顯示中文；而且一個位元組所有狀態都被佔滿了，萬惡的帝國主義亡我之心不死啊！我黨也是棒，自力更生，自己重寫一張表，直接生猛地將擴充套件的第八位對應拉丁文全部刪掉，規定一個小於127的字元的意義與原來相同，但兩個大於127的字元連在一起時，就表示一個漢字，前面的一個位元組（他稱之為高位元組）從0xA1用到0xF7，後面一個位元組（低位元組）從0xA1到0xFE，這樣我們就可以組合出大約7000多個簡體漢字了；這種漢字方案叫做 “GB2312”。GB2312 是對 ASCII 的中文擴充套件。

GBK 和 GB13030

但是漢字太多了，GB2312也不夠用，於是規定：只要第一個位元組是大於127就固定表示這是一個漢字的開始，不管後面跟的是不是擴充套件字符集裡的內容。結果擴充套件之後的編碼方案被稱為 GBK 標準，GBK 包括了GB2312的所有內容，同時又增加了近20000個新的漢字（包括繁體字）和符號。

UNICODE編碼

很多其它國家都搞出自己的編碼標準，彼此間卻相互不支援。這就帶來了很多問題。於是，國際標誰化組織為了統一編碼：提出了標準編碼準即：UNICODE，UNICODE是用兩個位元組來表示為一個字元，它總共可以組合出65535不同的字元，這足以覆蓋世界上所有符號（包括甲骨文）

UTF-8

都一統天下了，為什麼還要有一個utf8的編碼呢？

大家想，對於英文世界的人們來講，一個位元組完全夠了，比如要儲存A，本來00010001就可以了，現在吃上了unicode的大鍋飯，得用兩個位元組：00000000 00010001才行，浪費太嚴重！基於此，美利堅的科學家們提出了天才的想法：utf8。

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼，它可以使用1~4個位元組表示一個符號，根據不同的符號而變化位元組長度，當字元在ASCII碼的範圍時，就用一個位元組表示，所以是相容ASCII編碼的。

這樣顯著的好處是，雖然在我們記憶體中的資料都是unicode，但當資料要儲存到磁碟或者用於網路傳輸時，直接使用unicode就遠不如utf8省空間啦！這也是為什麼utf8是我們的推薦編碼方式。

unicode與utf8的關係：

一言以蔽之：Unicode是記憶體編碼表示方案（是規範），而UTF是如何儲存和傳輸Unicode的方案（是實現）這也是UTF與Unicode的區別。

三。 python2的string編碼

在python2中，有兩種字串型別：str型別和unicode型別；注意，這僅僅是兩個名字，python定義的兩個名字，關鍵是這兩種資料型別在程式執行時存在記憶體地址的是什麼？

我們來看一下：

內建函式repr可以幫我們在這裡顯示儲存內容。原來，str和unicode分別存的是位元組資料和unicode資料；那麼兩種資料之間是什麼關係呢？如何轉換呢？這裡就涉及到編碼（encode）和解碼（decode）了

無論是utf8還是gbk都只是一種編碼規則，一種把unicode資料編碼成位元組資料的規則，所以utf8編碼的位元組一定要用utf8的規則解碼，否則就會出現亂碼或者報錯的情況。

四。 python3的string編碼

python3也有兩種資料型別：str和bytes；str型別存unicode資料，bytse型別存bytes資料，與python2比只是換了一下名字而已。

五。檔案從磁碟到記憶體的編碼

說到這，才來到我們的重點！

拋開執行執行程式，請問大家，文字編輯器大家都是用過吧，如果不懂是什麼，那麼word總用過吧，ok，當我們在word上編輯文字的時候，不管是中文還是英文，計算機都是不認識的，那麼在儲存之前資料是透過什麼形式存在記憶體的呢？yes，就是unicode資料，為什麼要存unicode資料，這是因為它的名字最屌：萬國碼！解釋起來就是無論英文，中文，日文，拉丁文，世界上的任何字元它都有唯一編碼對應，所以相容性是最好的。

好，那當我們儲存了存到磁碟上的資料又是什麼呢？

答案是透過某種編碼方式編碼的bytes位元組串。比如utf8-－－一種可變長編碼，很好的節省了空間；當然還有歷史產物的gbk編碼等等。於是，在我們的文字編輯器軟體都有預設的儲存檔案的編碼方式，比如utf8，比如gbk。當我們點選儲存的時候，這些編輯軟體已經“默默地”幫我們做了編碼工作。

那當我們再開啟這個檔案時，軟體又默默地給我們做了解碼的工作，將資料再解碼成unicode，然後就可以呈現明文給使用者了！所以，unicode是離使用者更近的資料，bytes是離計算機更近的資料。

說了這麼多，和我們程式執行有什麼關係呢？

先明確一個概念：

py直譯器本身就是一個軟體，一個類似於文字編輯器一樣的軟體！

現在讓我們一起還原一個py檔案從建立到執行的編碼過程：

開啟pycharm，建立hello。py檔案，寫入

當我們儲存的的時候，hello。py檔案就以pycharm預設的編碼方式儲存到了磁碟；關閉檔案後再開啟，pycharm就再以預設的編碼方式對該檔案開啟後讀到的內容進行解碼，轉成unicode到記憶體我們就看到了我們的明文；

而如果我們點選執行按鈕或者在命令列執行該檔案時，py直譯器這個軟體就會被呼叫，開啟檔案，然後解碼存在磁碟上的bytes資料成unicode資料，這個過程和編輯器是一樣的，不同的是直譯器會再將這些unicode資料翻譯成C程式碼再轉成二進位制的資料流，最後透過控制作業系統呼叫cpu來執行這些二進位制資料，整個過程才算結束。

那麼問題來了，我們的文字編輯器有自己預設的編碼解碼方式，我們的直譯器有嗎？

當然有啦，py2預設ASCII碼，py3預設的utf8，可以透過如下方式查詢

大家還記得這個宣告嗎？

是的，這就是因為如果py2直譯器去執行一個utf8編碼的檔案，就會以預設地ASCII去解碼utf8，一旦程式中有中文，自然就解碼錯誤了，所以我們在檔案開頭位置宣告coding：utf8，其實就是告訴直譯器，你不要以預設的編碼方式去解碼這個檔案，而是以utf8來解碼。而py3的直譯器因為預設utf8編碼，所以就方便很多了。

上一篇：渦輪增壓器工作時進氣歧管是正壓，那麼剎車助力的真空來自哪裡？

下一篇：紙價又要漲！家裡廁紙抽紙要囤嗎？