沙驼 |
|
|
|
发帖:823 |
等级:神州独行 |
积分:977 |
注册:2006/6/6 |
|
中 文 编 码 知 多 少
大家都知道,目前流行两种中文编码:简体中文采用国标码(GB2312),繁体中文采用大五码(Big5)。两种编码,都用双字节字符(double-byte character)编制内码。
繁体大五码,原是资讯工业应用的行业规范。1983年,台湾当局制定了《通用汉字标准交换码》,大五码(Big5) 成为繁体字编码标准。
国标码 GB2312 是中国在1980年颁布的国家标准交换码,收集了6763个汉字。1990年,又制定了GB13000编码。GB13000编码除了包含 GB2312 编码外,收集了《通用汉字标准交换码》中的繁体字,也收集了一些香港特别用字以及日文与韩文中的通用汉字,总共编入了2,0902个汉字。
在GB13000编码的基础上,中国于1995年发布了《汉字内码扩展规范》,制定了国家标准扩展码,简称国标扩(GBK)。国标扩向下与国标码GB2312完全兼容,向上支持国际标准 ISO 10646编码,编入了2,1886个字符。
微软视窗95中文版,开始支援国标扩,在英文版上运作的中文软体,也逐渐由只支援国标码GB2312,发展成为支援国标扩GBK全部字集。浏览器 Internet Explorer 第5版以后,可以在网页同时显示繁、简两种字体。在视窗98系统里,简体字用新字形,繁体用旧字形,看来有点怪异。视窗XP系统出现以后,繁体字有了新字形,繁、简字面趋向一致。
2000年,中国发布新标准编码GB18030,兼容GB13000编码,还收录了藏、蒙、维等族的文字,共有2,7533个字。此标准兼用一、二及四字节字符,对应着国际标准的四字节统一码 (Unicode)。
现在的电脑系统,大体是采用一、二字节字符。GB18030编码和统一码的应用,与今后电脑系统在四字节字符的开发,有着密切关系。在视窗XP系统里,须要装置语言支持包(GB18030 Support Package),才能显示其中的四字节字符。一般上说,应用还未普及。相对来讲,只用双字节字符的国标扩(GBK),技术早已成熟,许多繁、简字,都可输入显示,大体解决了中文编码的主要难题。
微软的 WORD 2000(及以后版本),可说是真正支援国标扩的常用软体。由于简、繁字同在一个编码里,输入时须注意选择只用简体字(或者繁体字、下文类推),才不会混用繁、简字。希望有关方面,能进一步开发好软体,输入显示字表时,标明简繁对应的汉字。或者,另外开发软体功能,把文件中的有对应简体的繁体字,对换成简体字。到时,参杂简、繁两种字体的文件,可以轻易转换成一致的字体。
通常所说的繁简字体对译,指的是国标GB2312编码与大五码 (Big5)的对译,与国标扩(GBK)里繁简字的对换是两回事。南极星的中文处理系统,GB2312编码与Big5编码的对译功能,相当完善。南极星软体的内码是大五码,不是国标扩。南极星软体所指的GBK,实际与GB2312编码差不多。国标扩里GB2312编码以外的字集,要在南极星全球通 (NJStar Commmunicator)选取GB18030才能正确显示。实际上,南极星的GB18030,只是涵盖部分国标扩字集而已。
与南极星的全球通对应的外挂软体是中文之星。中文之星把国标扩分成简繁两部分,应用简体时,不能输入简体字集里没有的汉字;应用繁体时,不能显示简体字。如果在简体字的文件里,加入一些非常用字,容易造成乱码。中文之星用国标扩作内码,应该很容易进一步开发,完成输入和显示所有国标扩字集的功能。
各个中文软体支持国际扩的功能,有待进一步开发。中文编码将会趋向功能更完善、使用更简便的阶段。目前,明了所用软体的缺陷,适巧使用,可以取得比较满意的效果。 |
|
|
|