打印

各种字符编码的常见问题

各种字符编码的常见问题

这里是最新的 FAQ。注意这段关于 GB 18030 的说明:
http://www.cl.cam.ac.uk/~mgk25/unicode.html

China has specified in GB 18030 a new encoding of UCS for use in Chinese government systems that is backwards-compatible with the widely used GB 2312 and GBK encodings for Chinese. It seems though that the first version (released 2000-03) is somewhat buggy and will likely go through a couple more revisions, so use with care. GB 18030 is probably more of a temporary migration path to UCS and will probably not survive for long against UTF-8 or UTF-16, even in Chinese government systems.

这是一份古老的、已经不够全面的翻译:
http://www.linuxforum.net/books/UTF-8-Unicode.html

作为最新的、最全面的编码,unicode 最终有希望取代现有各种编码,但是目前还不行,兼容问题很头疼。

TOP

GB18030是中国制定的、向后兼容中国广泛使用的GB2312和GBK编码的,用于中国的政府系统的,一个新UCS编码规范。GB18030第一版发布于2000年3月,有些缺陷。并可能会继续发布一些修订版。所以,依据事实来看,GB18030仅仅是通向UCS的一个过渡。并很有可能不敌UTF8和UTF16,甚至在中国的政府部门。

突然发现自己对单词和从句的掌握很差。

ML什么时候考虑使用zh_CN.utf8做locale?  <---最近使用Fedora Core 4时有感,并不是受这个帖子的影响。整个地球使用多个encode的确很烦。
不过也不急,毕竟从GB->UTF8需要很多准备,很多工具。还有习惯的转变。
蚍蜉撼大树,蚂蚁啃骨头。 你要是对Linux的字体不满意,就去“文泉驿”出点力。

TOP

GB18030 最主要的是出了支持比 GBK 更大的中文字符集,他同时还预留了支持部分少数民族的文字。只要有字体库,就可以显示蒙文、藏文等。
但他对 ISO10646(unicode)的支持属于以映象方式支持。不如 GBK 这种直接对应 unicode 的好。
可以说是一个临时的解决方案,未来还是需要 unicode 4.0 的。ISO10646 相对比 UTF8 好。

主要现在万码奔腾的状况还是因为统一标准的制定太过庞大、缓慢。
GB18030 用它主要是因为他向下兼容 GB2312 和 GBK ,这两个在中国统治了20多年的字符集。并且也能部分兼容 BIG5 (好像是,没注意过相关文章)。

UTF8 属于一个全新的编码方案,他和以前的中文编码完全不兼容。
这对于个人来说没甚么,打不了 MP3 的 ID3 标签慢慢改。但对于政府及资料库一类的文字很多的单位来说,很有可能到了编码统一的那一天也没有转换完成。

UTF8 不适用于中国,虽然他也是 unicode 4.0 规范的。

建议还是用 ISO10646 标准的。

TOP

对于一个操作系统而言,只要知道了是什么内码,选择相应的字体就可以显示出来,我觉得现在的主要问题不是统一标准,而是应该在文字前面加一个字符集标志,这样操作系统就可以知道用什么字体来显示了,也就不会出现乱码了。

不知道各位知道不,qq在日文windows下不能正常显示中文,所以我们同事以前都一直用拼音,好在我学过破解,对文件做了一下手脚,就可以正常使用中文了,没有任何问题,但是界面仍然是乱码,而且跟版本有关系。所以我后来写了个小软件,可以让qq尽量多的显示中文,而且与版本无关。其原理可以应用到任何软件。

最后我得出的结论是,现阶段要解决乱码问题,unicode是不行的,操作系统作一些简单的过滤就可以非常好的显示常见的内码。

(仅代表个人言论)

TOP

[quote:4db2dbd458="luomao2000"]对于一个操作系统而言,只要知道了是什么内码,选择相应的字体就可以显示出来,我觉得现在的主要问题不是统一标准,而是应该在文字前面加一个字符集标志,这样操作系统就可以知道用什么字体来显示了,也就不会出现乱码了。

不知道各位知道不,qq在日文windows下不能正常显示中文,所以我们同事以前都一直用拼音,好在我学过破解,对文件做了一下手脚,就可以正常使用中文了,没有任何问题,但是界面仍然是乱码,而且跟版本有关系。所以我后来写了个小软件,可以让qq尽量多的显示中文,而且与版本无关。其原理可以应用到任何软件。

最后我得出的结论是,现阶段要解决乱码问题,unicode是不行的,操作系统作一些简单的过滤就可以非常好的显示常见的内码。

(仅代表个人言论)[/quote]
这是Windows方便的地方,也是不好的地方。

TOP