各种字符编码的常见问题

KDE · 发表于 2005-9-27 01:03:34

这里是最新的 FAQ。注意这段关于 GB 18030 的说明：
http://www.cl.cam.ac.uk/~mgk25/unicode.html

China has specified in GB 18030 a new encoding of UCS for use in Chinese government systems that is backwards-compatible with the widely used GB 2312 and GBK encodings for Chinese. It seems though that the first version (released 2000-03) is somewhat buggy and will likely go through a couple more revisions, so use with care. GB 18030 is probably more of a temporary migration path to UCS and will probably not survive for long against UTF-8 or UTF-16, even in Chinese government systems.

这是一份古老的、已经不够全面的翻译：
http://www.linuxforum.net/books/UTF-8-Unicode.html

作为最新的、最全面的编码，unicode 最终有希望取代现有各种编码，但是目前还不行，兼容问题很头疼。

lophyxp · 发表于 2005-10-28 21:13:11

GB18030是中国制定的、向后兼容中国广泛使用的GB2312和GBK编码的，用于中国的政府系统的，一个新UCS编码规范。GB18030第一版发布于2000年3月，有些缺陷。并可能会继续发布一些修订版。所以，依据事实来看，GB18030仅仅是通向UCS的一个过渡。并很有可能不敌UTF8和UTF16，甚至在中国的政府部门。

突然发现自己对单词和从句的掌握很差。

ML什么时候考虑使用zh_CN.utf8做locale？ <---最近使用Fedora Core 4时有感，并不是受这个帖子的影响。整个地球使用多个encode的确很烦。
不过也不急，毕竟从GB->UTF8需要很多准备，很多工具。还有习惯的转变。

jiangtao9999 · 发表于 2005-10-28 21:28:25

GB18030 最主要的是出了支持比 GBK 更大的中文字符集，他同时还预留了支持部分少数民族的文字。只要有字体库，就可以显示蒙文、藏文等。
但他对 ISO10646（unicode）的支持属于以映象方式支持。不如 GBK 这种直接对应 unicode 的好。
可以说是一个临时的解决方案，未来还是需要 unicode 4.0 的。ISO10646 相对比 UTF8 好。

主要现在万码奔腾的状况还是因为统一标准的制定太过庞大、缓慢。
GB18030 用它主要是因为他向下兼容 GB2312 和 GBK ，这两个在中国统治了20多年的字符集。并且也能部分兼容 BIG5 （好像是，没注意过相关文章）。

UTF8 属于一个全新的编码方案，他和以前的中文编码完全不兼容。
这对于个人来说没甚么，打不了 MP3 的 ID3 标签慢慢改。但对于政府及资料库一类的文字很多的单位来说，很有可能到了编码统一的那一天也没有转换完成。

UTF8 不适用于中国，虽然他也是 unicode 4.0 规范的。

建议还是用 ISO10646 标准的。

luomao2000 · 发表于 2005-12-9 12:54:16

对于一个操作系统而言，只要知道了是什么内码，选择相应的字体就可以显示出来，我觉得现在的主要问题不是统一标准，而是应该在文字前面加一个字符集标志，这样操作系统就可以知道用什么字体来显示了，也就不会出现乱码了。

不知道各位知道不，qq在日文windows下不能正常显示中文，所以我们同事以前都一直用拼音，好在我学过破解，对文件做了一下手脚，就可以正常使用中文了，没有任何问题，但是界面仍然是乱码，而且跟版本有关系。所以我后来写了个小软件，可以让qq尽量多的显示中文，而且与版本无关。其原理可以应用到任何软件。

最后我得出的结论是，现阶段要解决乱码问题，unicode是不行的，操作系统作一些简单的过滤就可以非常好的显示常见的内码。

（仅代表个人言论）

jiangtao9999 · 发表于 2005-12-9 21:20:39

[quote:4db2dbd458="luomao2000"]对于一个操作系统而言，只要知道了是什么内码，选择相应的字体就可以显示出来，我觉得现在的主要问题不是统一标准，而是应该在文字前面加一个字符集标志，这样操作系统就可以知道用什么字体来显示了，也就不会出现乱码了。

不知道各位知道不，qq在日文windows下不能正常显示中文，所以我们同事以前都一直用拼音，好在我学过破解，对文件做了一下手脚，就可以正常使用中文了，没有任何问题，但是界面仍然是乱码，而且跟版本有关系。所以我后来写了个小软件，可以让qq尽量多的显示中文，而且与版本无关。其原理可以应用到任何软件。

最后我得出的结论是，现阶段要解决乱码问题，unicode是不行的，操作系统作一些简单的过滤就可以非常好的显示常见的内码。

（仅代表个人言论）[/quote]
这是Windows方便的地方，也是不好的地方。

		自动登录	找回密码
密码			注册