补码
-2n-1~2n-1-1
-1≤X<1
1.2.2非数值信息的表示
计算机除了处理数值信息以外,还要处理大量的非数值类型的信息,比如字母、汉字、声音、图像等等,然而计算机只能处理二进制数据,当这些非数值类型的信息应用在计算机内,都必须转换为二进制的表现形式。
1.ASCII码
为了表示英文字母和其他一些符号、控制符,计算机中普遍采用的是ASCII码。
它使用7位代表一个字符,包括了字母的大小写、数字、标点、控制符等。
计算机通常使用8位一个字节来存储,其高位为0。
表1-2列出了全部128种字符的ASCII码字符编码表。
表1-2ASCII码表
b7b6b5
b4b3b2b1
000
001
010
011
100
101
110
111
0000
NUL
DLE
SPACE
0
@
P
P
0001
SOH
DC1
!
1
A
Q
A
Q
0010
STX
DC2
”
2
B
R
B
R
0011
ETX
DC3
#
3
C
S
C
S
0100
EOT
DC4
$
4
D
T
D
T
0101
ENO
NAK
%
5
E
U
E
U
0110
ACK
SYN
&
6
F
V
F
V
0111
BEL
ETB
’
7
G
W
G
W
1000
BS
CAN
(
8
H
X
H
X
1001
HT
EM
)
9
I
Y
I
Y
1010
LF
SUB
*
:
J
Z
J
Z
1011
VT
ESC
+
;
K
[
K
{
1100
FF
FS
,
<
L
\
L
|
1101
CR
GS
-
=
M
}
M
]
1110
SO
RS
.
>
N
↑
N
~
1111
SI
US
/
?
O
←
o
DEL
2.汉字编码
汉字与西方字符相比,汉字数量大,字型复杂,同音字多,这就给汉字在计算机内部的存储、传输、交换、输入、输出等带来了一系列的问题。
为了能直接使用西文标准键盘输入汉字,必须为汉字设计相应的编码,以适应计算机处理汉字的需要。
表1-3列出了常见的汉字字符编码。
表1-3常见的汉字字符编码
编码类型
主要类型
汉字国标码(GB2313-80)
(1)共收集常用汉字6763个,其中一级汉字3755个,按拼音排序;二级汉字3008个,按部首排序;各种图形符号682个,共计7445个;
(2)每个汉字、图形符号都采用两个字节表示,每个字节只使用低7位编码。
可达到的最大容量是16384个
汉字区位码
(1)将GB2313-80中的汉字分为94个区,每个区包含94个汉字(位),区号和位号来表示汉字;
(2)国标码=区位码(十六进制)+2020H
汉字机内码
(1)汉字机内码采用的是两个字节的编码,而每个编码只使用低7位,这样就和ASCII混淆了,因此在机内表示时将每个字节的最高位置为1;
(2)汉字机内码与国标码的关系为:
机内码=国标码+8080H
GB12345-90
(1)繁体字的编码标准,共收录6866个汉字,纯繁体有2200余个;
(2)每个汉字都采用双字节编码
GBK
(1)共收录汉字21003个,符号883个,并提供1894个造字码位,其特点是简、繁体字融于一库;
(2)采用双字节编码
GB18030
(1)涵盖了27484个汉字,繁、简体均处于一个平台;
(2)采用单字节、双字节、4字节混合编码,总编码空间超过150万字符
3.声音编码
声音本身是模拟信息,在计算机中表示模拟量必须将模拟量进行数字化,数字化遵循采样定理。
在实践中,通常使用三个参数来表示声音:
采样位数、采样频率和声道数。
声道有单声道和立体声之分,甚至更多。
人能听见的声音的最高频率是20kHz,根据采样定理,44 100Hz(44kHz)的采样频率能够很好地还原各种声音,而普通人的声带能够达到4000Hz,所以8kHz的采样频率能够满足语言采样的需要。
其他采样频率有11 025Hz(11kHz)、22 050Hz(22kHz)等,能够适合不同的场景。
采样位数是每个采样点采用多少位来保存声音的强度值,采样位数越高,则还原时越精确。
如果不采用压缩技术,那么保存声音需要的空间可以这样计算:
文件所占容量=(采样频率×采样位数×声道)×时间/8(1字节=8bit)。
目前主要的音频数据格式如下:
(1)WAVE,扩展名为WAV:
该格式记录声音的波形,故只要采样频率高、采样字节长、机器速度快,利用该格式记录的声音文件就能和原声基本一致,质量非常高,但这样做的代价就是文件太大。
(2)MOD,扩展名MOD、ST3、XT、S3M、FAR、669等:
该格式的文件里存放乐谱和乐曲使用的各种音色样本,具有回放效果明确,音色种类无限等优点。
但它也有一些致命弱点,以至于现在已经逐渐淘汰,目前只有MOD迷及一些游戏程序中尚在使用。
(3)Layer-3,扩展名为MP3:
现在最流行的声音文件格式,因其压缩率大,在网络可视电话通信方面应用广泛,但和CD唱片相比,音质不能令人非常满意。
Layer-3是MPEG标准的一部分,是一种强有力的音频编码方案。
Layer-3在现存的MPEG-1和MPEG-2国际标准的音频部分上均有定义,简称MP3(MPEGAudioLayerIII)。
(4)RealAudio,扩展名为RA:
这种格式具有强大的压缩量和极小的失真使其在众多格式中脱颖而出。
和MP3相同,它也是为了解决网络传输带宽资源而设计的,因此主要目标是压缩比和容错性,其次才是音质。
(5)CDAudio音乐CD,扩展名为CDA:
唱片采用的格式,又叫“红皮书”格式,记录的是波形流,绝对的纯正、HIFI。
但缺点是无法编辑,文件长度太大。
(6)MIDI,扩展名为MID:
作为音乐工业的数据通信标准,MIDI能指挥各音乐设备的运转,而且具有统一的标准格式,能够模仿原始乐器的各种演奏技巧甚至无法演奏的效果。
MIDI文件是按照MIDI标准制成的声音文件。
MIDI文件记录声音的方法与WAV完全不同,它并不记录对声音的采集数据,而是记录编曲的音符、音长、音量和击键力度等信息,相当于乐谱。
由于MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令,因此它占用的存储空间比WAV文件小很多。
即使是长达十多分钟的音乐最多也不过几十千字节。
(7)CreativeMusicalFormat,扩展名为CMF:
Creative公司的专用音乐格式,和MIDI差不多,只是音色、效果上有些特色,专用于FM声卡,但其兼容性也很差。
4.图像编码
图像也称为位图或点阵图,是指由输入设备捕捉的实际场景画面或以数字化形式存储的任意画面。
图像都是由一些排成行列的像素组成的,它除了可以表现真实的照片,也可以表现复杂绘画的某些细节,并具有灵活和富于创造力等特点。
图像的主要指标有分辨率、点距、色彩数(灰度)。
(1)分辨率:
可以分为屏幕分辨率和输出分辨率。
屏幕分辨率是指每英寸的点阵的行数或列数,这个数值越大,表示就越好。
输出分辨率是指每英寸的像素点数,是衡量输出设备的精度,数值越大,质量越好。
(2)点距:
指两个像素之间的距离,一般来说,分辨率越高,则像素点距的规格越小,显示效果越好。
(3)深度:
图像深度确定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。
通常,图像深度也指存储每个像素所用的存储器位数,或者说用多少位存储器单元来表示,它也是用来度量图像分辨率的。
每个像素颜色或灰度被量化后所占用的存储器位数越多,它能表达的颜色数目就越多,它的深度就越深。
常见的图形/图像文件有以下几种:
(1)BMP(BitMapPicture):
PC上最常用的位图格式,有压缩和不压缩两种形式,该格式可表现从2位到24位的色彩,分辨率也可从480×320至1024×768。
该格式在Windows环境下相当稳定,在文件大小没有限制的场合中运用极为广泛。
(2)DIB(DeviceIndependentBitmap):
描述图像的能力基本与BMP相同,并且能运行于多种硬件平台,只是文件较大。
(3)PCP(PCPaintbrush):
由Zsoft公司创建的一种经过压缩且节约磁盘空间的PC位图格式,它最高可表现24位图形(图像)。
过去有一定市场,但随着JPEG的兴起,其地位已逐渐日落终天了。
(4)DIF(DrawingInterchangeFormat):
AutoCAD中的图形文件,它以ASCII方式存储图形,表现图形在尺寸大小方面十分精确,可以被CorelDraw、3DS等大型软件调用编辑。
(5)WMF(WindowsMetafileFormat):
MicrosoftWindows图元文件,具有文件短小、图案造型化的特点。
该类图形比较粗糙,并只能在MicrosoftOffice中调用编辑。
(6)GIF(GraphicsInterchangeFormat):
在各种平台的各种图形处理软件上均可处理的经过压缩的图形格式。
缺点是存储色彩最高只能达到256种,特别适合于Web网页制作,动画制作以及演示文稿等领域。
(7)JPG(JointPhotographicsExpertGroup):
可以大幅度地压缩图形文件的一种图形格式。
对于同一幅画面,JPG格式存储的文件是其他类型图形文件的1/10~1/20,而且色彩数最高可达到24位,所以它被广泛应用于Internet上的homepage或internet上的图片库。
(8)TIF(TaggedImageFileFormat):
文件体积庞大,但存储信息量亦巨大,细微层次的信息较多,有利于原稿阶调与色彩的复制。
该格式有压缩和非压缩两种形式,最高支持的色彩数可达16MB。
(9)EPS(EncapsulatedPostScript):
用PostScript语言描述的ASCII图形文件,在PostScript图形打印机上能打印出高品质的图形(图像),最高能表示32位图形(图像)。
该格式分为PhotoshopEPS格式、adobeillustratorEPS格式和标准EPS格式,其中后者又可以分为图形格式和图像格式。
(10)PSD(PhotoshopStandard):
Photoshop中的标准文件格式,专门为Photoshop而优化的格式。
(11)CDR(CorelDraw):
CorelDraw的文件格式。
另外,CDX是所有CorelDraw应用程序均能使用的图形(图像)文件,是发展成熟的CDR文件。
(12)IFF(ImageFileFormat):
用于大型超级图形处理平台,比如AMIGA机,好莱坞的特技大片多采用该图形格式处理。
图形(图像)效果,包括色彩纹理等逼真再现原景。
当然,该格式耗用的内存外存等的计算机资源也十分巨大。
(13)TGA(TaggedGraphic):
是Truevision公司为其显示卡开发的图形文件格式,创建时期较早,最高色彩数可达32位。
VDA,PIX,WIN,BPX,ICB等均属其旁系。
(14)PCD(PhotoCD):
由KODAK公司开发,其他软件系统对其只能读取。
(15)MPT(MacintoshPaintbrush)或MAC:
Macintosh机所使用的灰度图形(图像)模式,在MacintoshPaintbrush中使用,其分辨率只能是720×567。
(16)SWF(Flash):
Flash是Adobe公司制定的一种应用于Internet的动画格式,它是以矢量图作为基本的图像存储形式的。
除此之外,Macintosh机专用的图形(图像)格式还有PNT,PICT,PICT2等。
1.2.3校验方法与校验码
信息编码在计算机内传输、存取过程中,难免会出现一些随机性的错误,例如受到外界干扰导致产生了码元错误,例如把“1”码元变成了“0”码元。
为了减少和避免这样的错误,提高传输质量,一方面需要从电路、布线等硬件方面采取技术,提高可靠性;另一方面在数据编码上采用某种校验方法与校验码,使得计算机能够自动发现,甚至能自动纠正错误。
常见的信息编码校验方法有奇偶校验法、海明校验法、CRC校验法等等。
1.奇偶校验法
奇/偶校验是数据传送时采用的一种校正数据错误的一种方式,分为奇校验和偶校验两种。
如果是采用奇校验,在传送每一个数据(一般是1个字节)的时候另外附加一位作为校验位,当实际数据中1的个数为偶数的时候,这个校验位就是1。
否则,这个校验位就是0,这样就可以保证传送数据满足奇校验的要求。
在接收方收到数据时,将按照奇校验的要求检测数据中1的个数,如果是奇数,表示传送正确。
否则,表示传送错误。
偶校验的过程和奇校验的过程一样,只是检测数据中1的个数为偶数。
当实际数据中1的个数为偶数的时候,这个校验位就是0,否则这个校验位就是1。
这样,就可以保证传送数据满足偶校验的要求。
在接收方收到数据时,将按照偶校验的要求检测数据中1的个数,如果是偶数个1,表示传送正确。
否则,表示传送错误。
2.海明校验法
海明码是奇偶校验的另一种扩充,和奇偶校验不同之处在于海明码采用多位校验码的方式,在信息数据位中合理加入校验位,将码距均匀拉大,校验位中的每一位都对不同的信息数据位进行奇偶校验,通过合理地安排每个校验位对原始数据进行校验位组合,可以达到发现错误,纠正错误的目的。
海明码是利用在信息位为k位,增加r位冗余位,构成一个n=k+r位的码字,然后用r个监督关系式产生的r个校正因子来区分无错和在码字中的n个不同位置的一位错。
它必需满足关系式:
2r≥n+1或2r≥k+r+1。
海明码的编码规则:
在一般情况下,校验码会被插入到数据的1,2,4,8,…,2n位置,那么,在数据生成时,按照提供的海明校验方程计算出b1,b2,b4,…,bn各位,在数据校验时,按照海明检验方程进行计算,如果所有的方程式计算都为0,则表示数据是正确的。
如果出现1位错误,则至少有一个方程不为0。
海明码的特殊之处在于,只要将①②③三个方程左边计算数据按③②①排列,得到的二进制数值就是该数据中出错的位,例如第6位出错,则③②①为110为二进制数6。
当出现两位错误时,这种海明码能够查错,但无法纠错。
3.CRC校验法
循环冗余检验码简称CRC码,由于其实现的原理十分易于用硬件实现,因此广泛地应用于计算机网络上的差错控制。
而且由于它采用的是模二除进行验算,因此十分适合于以串行同步方式传送数据块。
而CRC的考查点主要有3个:
常见的CRC应用标准;计算CRC校验码;验算一个加了CRC校验的码是否有错误。
(1)常见的CRC标准及应用归纳如表1-4所示。
表1-4常见的CRC标准
网络协