预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

前言 由于工作的需要,参考了好多资料整理出来一份计算机汉字处理报告,不敢独享,希 望与大家共享。Ziggler 现代计算机技术虽然先进,但大多数人只知录入GB-2313字符集内的6763个简体汉字, 对包含21003个简繁体汉字的GBK字符集的文字录入、字体显示就已不甚了解(市面上 绝大多数所谓的繁体字体,其实采用的是GB2313字符集简体字的编码,用字体显示为繁体 字,而不是直接用GBK字符集中繁体字的编码,错误百出)。而汉字总数至少有近10万 个,目前计算机能处理的,也有70244个,已非一般人所能知能用了。 由于汉字总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来精确 的数字。据估计,汉字数量达到11万左右。 这里所说的七万多汉字,是指UNICODE超大字集全部七万多中日韩汉字。(注:Unicode 是指用两个字节表示每个字符的字符编码方案。) 那一般计算机能够显示多少个汉字呢?比如大陆这边普遍安装简体Windows系统,而 简体windows以宋体为系统字型,宋体支持GBK编码,所以能显示20902个汉字。 要显示71564个汉字,可以采取多种方案,如:宋体-方正超大字符集+新细明体EXTB、 宋体-方正超大字符集+中易宋体EXTB、宋体GB18030+新细明体ExtB、宋体18030+宋体 ExtB等等。 中文字符集、编码 字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符 集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。 计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储 各种文字。 中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机 最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。 以下是常见的一些字符集介绍,部分字符集中包括编码介绍。 GB2312字符集 1.名称的由来 GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中 国国家标准总局发布,1981年5月1日实施。 2.特点 GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率, 基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。 3.包含内容 GB2312 收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语 拼音符号、汉语注音字母,共7445个图形字符。其中包括6763个汉字,其中一级汉字3755 个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔 字母在内的682个全角字符。 4.技术特征 (1)分区表示: GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称 为区位码。 各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区 为 二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。 (2)双字节表示 两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高 字节”,而称第二字节为“低字节”。“高位字节”使用了0xA1-0xF7(把01-87区的区号加 上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。 5.编码举例 以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601, 在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计 算公式是:0xB0=0xA0+16,0xA1=0xA0+1。 BIG5字符集 1.名称的由来 又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通(MiTAC)、佳佳、零壹(ZeroOne)、大众(FIC)创立,故称大五码。 Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBMPS55、 王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆 的GB2312编码亦未有收录繁体中文字。 2.特点 Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符 集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。 3.字符编码方法 Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字 节”,第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9,低位字节的编码范围 0x