欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

為什么Linux系統默認使用utf8編碼?

方一強2年前12瀏覽0評論

GBK是微軟為簡體中文而制定的本地編碼,在工信部被案。各個國家或地區都會制定并使用各自的本地編碼,一些企業也會制定某個國家或地區的本地編碼(GBK就是微軟制定的簡體中文編碼)。一份用本地編碼編寫的文件在不指明所用的本地編碼時被打開就可能看到亂碼的現象。

為了解決本地編碼的亂象,統一編碼(UNICODE)和ISO這兩個組織都著手制定能容納各國文字而不沖突的文字編碼系統,目前這兩個組織相互承認,并且編碼兼容。

目前很多計算機系統已使用2字節(16位整數)或4字節(32位整數)的統一編碼,統一編碼只說明每個字符的編碼,但沒有說明如何將編碼存放入存儲介質上。

由于目前計算機系統有高字節在前和低字節在前兩種整數存放模式,因此采用高字節在前存放的數據在低字節在前的系統中就會出現異常,反之亦然。同時,我們知道許多編程系統在處理字符串時會將值為0的字節認為是字符串的結束,而無論是高字節在前還是低字節在前的字符串,都會在字符串中出現大量值為0的字節,這時傳統的字符串處理函數就無法使用了。

為了解決統一編碼如何存放的問題并兼容現有的字符串處理函數,就推出了UTF8編碼,這個編碼規定了統一編碼的存放方式,并且保證依然使用值為0的字節作為字符串的結束符,這樣就可以依然使用原有的字符串處理函數而不必新開發一套了。

當然UTF8也存在一個問題,這就是它是變長編碼。一個統一編碼的字符可能會編碼為一個字節、二個字節、三個字節、四個字節(版本1)或六個字節(版本2)。