GB2312,和其他东亚字符集采用的 EUC 方案,一个字节 8 位( 256 个字符),ASCII 是 7 位( 128 个字符),其中前 32 个为控制字符,第 33 个字符是空白字符,欧洲扩展字符集跟 ASCII 相似,空着 33 个位置。。EUC 方案也空缺着这 33 个位置。
这不但意味完全兼容 ASCII,还意味即使丢失一些字节也不影响其他字节的意思,即使不正确的编码会乱码,但不会改变内容,因为没有一个字节两个意思。
另外简体中文常用字 1000 多个,次常用字 2000 多个,常用字覆盖率 98%以上,基本满足日常需要。
GBK,第一字节不再空着 33 个位置,第二字节更是向前多用了 64 个位置,第一个字节我能理解,第二字节为何恰好多用了 64 个位置不太清楚,这里会与两个常用的字符冲突,一个是\一个是|,比如赵孟頫的頫编码是 EE5C,可能会引起问题。不过这些字符都不是常用字,BIG5 和 GBK 类似,因为放了常用字遇到 5C 的概率更大。
这不但意味完全兼容 ASCII,还意味即使丢失一些字节也不影响其他字节的意思,即使不正确的编码会乱码,但不会改变内容,因为没有一个字节两个意思。
另外简体中文常用字 1000 多个,次常用字 2000 多个,常用字覆盖率 98%以上,基本满足日常需要。
GBK,第一字节不再空着 33 个位置,第二字节更是向前多用了 64 个位置,第一个字节我能理解,第二字节为何恰好多用了 64 个位置不太清楚,这里会与两个常用的字符冲突,一个是\一个是|,比如赵孟頫的頫编码是 EE5C,可能会引起问题。不过这些字符都不是常用字,BIG5 和 GBK 类似,因为放了常用字遇到 5C 的概率更大。