个人对uft-8的编码形式非常讨厌,因为它是一种语言歧视的编码规范,在这种编码规范下,英文字符可以获得一个字节的编码,而代价就是其它语言的字符要用多位来表示,比如一个汉字字符就需要3个字节来表示。个人觉得就是一种歧视。这一点老外也承认:
Let's address the problem first: UTF-8 is kind of racist. It allows us
round-eye paleface anglophone types to tuck our characters neatly into one byte, lets most people whose languages are headquartered west of the Indus river get away with two bytes per, and penalizes India and points east by requiring them to use three bytes per character.
我在查文档的过程中好像看到未来linux平台的编码要统一到uft-8这个标准上来。想请教各位这样是不是意味着处理非英文字符时,占用的资源要更多呢?对linux还不是太熟悉,编程的时候看见过windows2000以后的windows内核是以utf-16为编码标准的,旧的ascci函数都要转换成unicode版本来执行。在uft-16中,主要的字符编码都是统一的16位。那么照这样类比的话,采用utf-8的linux处理中文字符串时占用的内存会不会时windows下的1.5倍呢(因为utf-8的汉字编码是三个字节),如果是中文版本的linux环境占用内存和占用硬盘空间会不会比英文版的要大的多。
个人对linux很欣赏,但对utf-8非常讨厌,所以想搞清楚它们之间的关系,和基于utf-8编码的linux对非英语国家的用户是否也会继承这种语言歧视性呢?