不知道中国的妇科医生和外国的妇科医生看到的有什么不同,但中国的程序员看到的的确和外国的不同。那就是汉字。各位现在用的大部分都是Windows系统,但在当年DOS时代,甚至是Windows 9x时代,在提示符下敲命令dir经常看到一串串莫名其妙的字符,我们美其命曰“乱码”。其实,他们是ASCII码的后128个字符,但为什么他们会出现在这里的呢?他们都代表什么意思呢?他们就是“汉字”。这些东西,就是只有中国程序员能看到的“码”。
其实中国程序员的特权还有很多,就拿“汉字”来说,现在只是能看到一些特殊的码制。想当年,中国人的电脑里还多一块PCI的卡——汉卡。我们敬爱的求伯君大侠,“脑X金”之爸爸的史玉柱都是靠这个玩意起家的。感谢上天吧……现在我们主板上没有这块卡了,如果有大概也是AGP的了吧……
其实在电脑硬件中,根本没有汉字这个概念,也没有英文的概念,印刷电路板玩意认识的概念只有——内码。
人要是点头表示什么?是“对”、“YES”,“(对不起,日语忘了)”……偏偏在唐敖游的海外世界中,有的国家意义却恰恰相反。
[center]
一个动作,有不同的诠释;
一个问题,有不同的答案;
一个符号,有不同的意义……
关键在于:你是如何理解。
[/center]
这个问题在讨论下去就是哲学问题了。
在电脑中亦如此,所有的数据都是以0和1保存的,按不同的数据操作,可以得到不同的结果。对于显示英文操作,由于英文字母种类很少,只需要8位(一字节)即可。而对于中文,常用却有5000以上,于是我们的DOS前辈想了一个办法,就是将ASCII码的高128个很少用到的数值以两个为一组来表示汉字,即汉字的内码。而剩下的低128位则留给英文字符使用,即英文的内码。不信,你可以写一C程序:
main()
{
unsigned char *s,
*e="ABcd",
*c="你好";
clrscr();
printf("English char =");
s=e;
while(*s!=0) /*C的字符串以0为结束符*/
{
printf("%3d,",*s);
s++;
}
printf("\nChinease char=");
s=c;
while(*s!=0)
{
printf("%3d,",*s);
s++;
}
scanf("%*c");
}
再用TC运行,看见了没有,那些数值即英文和汉字的各字节内码。
得到了汉字的内码后,还仅是一组数字,那又如何在屏幕上去显示呢?这就涉及到文字的字模,字模虽然也是一组数字,但它的意义却与数字的意义有了根本的变化,它是用数字的各位信息来记载英文或汉字的形状。
如英文的'A'在字模中是这样记载的:
位代码 字模信息
0 0 0 0 0 0 0 0 0x00
0 0 0 0 0 0 0 0 0x00
0 0 0 1 0 0 0 0 0x10
0 0 1 1 1 0 0 0 0x38
0 1 1 0 1 1 0 0 0x6c
1 1 0 0 0 1 1 0 0xc6
1 1 0 0 0 1 1 0 0xc6
1 1 1 1 1 1 1 0 0xfe
1 1 0 0 0 1 1 0 0xc6
1 1 0 0 0 1 1 0 0xc6
1 1 0 0 0 1 1 0 0xc6
1 1 0 0 0 1 1 0 0xc6
0 0 0 0 0 0 0 0 0x00
0 0 0 0 0 0 0 0 0x00
0 0 0 0 0 0 0 0 0x00
0 0 0 0 0 0 0 0 0x00
而中文的“你”在字模中却是这样记载的:
位代码 字模信息
0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0x08,0x80
0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0x08,0x80
0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0x08,0x80
0 0 0 1 0 0 0 1 1 1 1 1 1 1 1 0 0x11,0xfe
0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0x11,0x02
0 0 1 1 0 0 1 0 0 0 0 0 0 1 0 0 0x32,0x04
0 1 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0x54,0x20
0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0x10,0x20
0 0 0 1 0 0 0 0 1 0 1 0 1 0 0 0 0x10,0xa8
0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0x10,0xa4
0 0 0 1 0 0 0 1 0 0 1 0 0 1 1 0 0x11,0x26
0 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0x12,0x22
0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0x10,0x20
0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0x10,0x20
0 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0x10,0xa2
0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0x10,0x40
在硬件系统内,英文的字模信息一般固化在ROM里,即使在没有导入BIOS的时候,也可以让你看到英文字符。多么霸道的美国人啊!而在DOS下,中文的字模信息一般记录在汉字库文件HZK16里。
HZK16是什么东西?他不是东西,他就是字库。一个16×16的点阵汉字就要256Bit,也就是说要32Byte存放一个16×16的点阵汉字,我们粗略计算常用汉字5000个,也就是存放5000个汉字要5000×32=160000Byte=156.25KB。表面上看好像跟现在动辄XXXGB的空间比起来不算什么,但对于程序员来说,要你手工构架起这么一个156.25KB的文件,首先就碰到两个问题:
1、建立之后按照什么规律查找;
2、分解每一个汉字,工作量太大。
第二个问题,已经很好的解决了。DOS前辈们经过艰辛的努力,将制作好的字模放到了一个个标准的库中以免去后辈的麻烦,这就是点阵字库文件,我们刚才提到的HZK16就是其中一个最常用的。在这里我们向:鲍岳桥、求伯君、王永民等在汉字显示,字库构架上做出突出贡献的前辈致敬。
现在我们在来看,我们从字库中找到我们需要的字。这就牵涉到“内码”的问题。一般我们使用16×16的点阵宋体字库,所谓16×16,是每一个汉字在纵、横各16点的区域内显示的。不过后来又有了HZK12、HZK24,HZK32和HZK48字库及黑体、楷体和隶书字库。虽然汉字库种类繁多,但都是按照区位的顺序排列的。前一个字节为该汉字的区号,后一个字节为该字的位号。每一个区记录94个汉字,位号则为该字在该区中的位置。因此,汉字在汉字库中的具体位置计算公式为:
[b][center]94×(区号-1)+位号-1[/center][/b]
减1是因为数组是以0为开始而区号位号是以1为开始的。这仅为以汉字为单位该汉字在汉字库中的位置。那么,如何得到以字节为单位得到该汉字在汉字库中的位置呢?只需乘上一个汉字字模占用的字节数即可,即:
[b][center](94*(区号-1)+位号-1)*一个汉字字模占用字节数[/center][/b]
而按每种汉字库的汉字大小不同又会得到不同的结果。
以16*16点阵字库为例,计算公式则为:(94*(区号-1)+(位号-1))*32。汉字库文该从该位置起的32字节信息即记录了该字的字模信息。
了解点阵汉字及汉字库的构成原理后,显示汉字就变得简单。以16×16点阵字库为例,通常的方法是:将文件工作指针移到需要的汉字字模处、将汉字库文件读入一2*16数组再用for循环一位位地显示。以使用VGAHI模式显示“我”字为例,程序如下:
#include "graphics.h"
#include "stdio.h"
main()
{
unsigned char mat[16][2],
chinease[3]="我";
FILE *HZK;
int i,
j;
if((HZK=fopen("hzk16","rb"))==NULL)
{
exit(0);
}
initgraph(&i,&j,"");
i=chinease[0]-0xa0;
j=chinease[1]-0xa0; /*获得区码与位码*/
fseek(HZK,(94*(i-1)+(j-1))*32l,SEEK_SET);
fread(mat,32,1,HZK);
for(j=0;j<16;j++)
{
for(i=0;i<2;i++)
{
for(k=0;k<8;k++)
{
if(mat[j][i]&(0x80>>k)) /*测试为1的位则显示*/
{
putpixel(i*8+k,j,WHITE);
}
}
}
}
scanf("%*c");
closegraph();
fclose(HZK);
}
怎么样?只要掌握了正确的方法,显示汉字并不复杂。
如果你有UCDOS的HZK24S(宋体)、HZK24K(楷体)或HZK24H(黑体),你还可以使用不同字体的大字模汉字了。HZK24系列是24*24的点阵字库,每字模占用3*24字节。如果你按照HZK16的显示方法的话,你会看到......呵呵,字被放倒了。这是因为该类字库与一般的汉字库不同,这类大字模汉字库是专供打印的打印字库,为了打印的方便将字模都放倒了,你使用时,只要将字模的位信息纵横转置显示即可。例如你如果定义为mat[24][3]则应该这样输出:
for(i=0;i<24;i++)
{
for(j=0;j<24;j++)
{
if((0x80>>i%8)&mat[j][i/8]) /*转置显示*/
{
putpixel(j+x,y+i,color);
}
}
}
还有一类字库HZK12,虽然属于标准字库类型,但如果你将它的字模当作12*12位计算的话,根本无法正常显示汉字。因为字库设计者为了使用的方便,字摸每行的位数均补齐为8的整数倍,于是实际该字库的位长度是16*12,虽然每行都多出了4位,但这4位都是0(不显示),并不影响显示效果。
