3 信息数字化.docx

资源描述

3 信息数字化.docx

《3 信息数字化.docx》由会员分享，可在线阅读，更多相关《3 信息数字化.docx（13页珍藏版）》请在冰豆网上搜索。

3 信息数字化.docx

3信息数字化

＊进位计数制的基本概念

　　将数字符号按序排列成数位，并遵照某种由低位到高位的进位方式计数表示数值的方法，称作进位计数制。

1.十进制

　　十进制计数制由0、1、2、3、4、5、6、7、8、9共10个数字符号组成。

相同数字符号在不同的数位上表示不同的数值，每个数位计满十就向高位进一，即“逢十进一”。

　　如：

555.5可以表示成

　　555.5＝5×100+5×10+5×1+5×（1/10）

　　一个任意的十进制数都可以表示成：

2.八进制

　　八进制计数制由0、1、2、3、4、5、6、7共8个数字符号组成。

相同数字符号在不同的数位上表示不同的数值，每个数位计满八就向高位进一，即“逢八进一”。

　　如：

（555.5）8可以表示成

　　（555.5）8＝5×16+5×8+5×1+5×（1/8）

　　一个任意的十进制数都可以表示成：

3.二进制

　　二进制计数制由0和1共2个数字符号组成。

相同数字符号在不同的数位上表示不同的数值，每个数位计满二就向高位进一，即“逢二进一”。

　　如：

（1011.1）2＝1×8+0×4+1×2+1×1+1×（1/2）

　　一个任意的二进制数都可以表示成：

4.其他进制

　　在日常生活和日常工作中还会使用其他进制数。

如：

十二进制数、十六进制数、百进制数和千进制数等。

无论哪种进制数，表示的方法都是类似的。

如：

十六进制数由0、1、2、3、4、5、6、7、8、9、A、B、C、D、E和F共十六个符号组成，“逢十六进一”。

不同的是用A、B、C、D、E和F分别表示10、11、12、13、14和15六个数字符号。

5.基数与权

　　某进制计数制允许选用的基本数字符号的个数称为基数。

一般而言，J进制数的基数为J，可供选用的基本数字符号有J个，分别为0到J－1，每个数位计满J就向高位进一，即“逢J进一”。

　　某进制计数制中各位数字符号所表示的数值表示该数字符号值乘以一个与数字符号有关的常数，该常数称为“位权”（简称“权”）。

位权的大小是以基数为底，数字符号所处的位置的序号为指数的整数次幂。

　　十进制数允许使用十个基本数字符号，所以基数为10，每位数字符号代表的位数的大小是以10为底，数字符号所处位置的序号为指数的整数次幂。

（如图所示）给出了任意进制数（K2K1K0K-1K-2），当J分别为：

2，8，10和16时各位权值对照。

＊数制之间的转换：

计算机内部使用的数字符号只有“0”和“1”两个。

也就是说计算机内部使用的是二进制数所有的数值数据和非数值数据，都是由“0”和“1”这两个数字符号加以组合而成的，我们称之为“二进制代码”。

1．为什么要采用二进制

尽管二进制数不符合人们的习惯。

但是计算机内部仍采用二进制表示信息，主要原因有以下几点：

1）容易实现

　　计算机是由逻辑电路组成，逻辑电路通常只有两种状态。

例如：

开关的接通与断开，电压电平的高与低等。

这两种状态正好用来表示二进制数的两个数码0和1。

2）工作可靠

　　两个状态代表的两个数码在数字传输和处理中不容易出错，因而电路更加稳定可靠。

3）简化运算

　　二进制运算法则简单。

两个一位二进制数的求和、求积运算组合仅有三种，即0＋0＝0，0＋1＝1，1＋0＝1，1＋1＝0（向高位进一）及0*0＝0，0*1＝1，1*0＝0，1*1＝1。

而求两个一位十进制的和与积的运算组合则各有55种之多，让计算机去实现就困难的多。

4）逻辑性强

　　计算机的工作是建立在逻辑运算基础上的，逻辑代数是逻辑运算的理论依据。

二进制只有两个数码，正好代表逻辑代数中的“真”与“假”。

5）易于转换

　　二进制数与十进制数之间可以互相转换。

这样，既有利于充分发挥计算机的特点，又不影响人们使用十进制数的习惯。

2．数值间的转换

　　计算机只用二进制的两个数码“0”和“1”来实现算术和逻辑运算，而人们仍然用十进制的形式向计算机中输入原始数据，并让计算机也用十进制形式显示和打印运算结果。

所以必须有一种自动转换方法，即让数据输入计算机后，将十进制转换成对应的二进制数，并在处理完毕后，再自动将二进制结果转换为十进制数。

　　为了表达方便起见，常在数字后加一缩写字母后缀作为不同进制数的标识。

各种进制数的后缀字母分别为：

　　B：

二进制数。

　　Q：

八进制数。

　　D：

十进制数。

　　H：

十六进制数。

　　对于十进制数通常不加后缀，也即十进制数后的字母D可省略。

（1）将二进制数转换成对应的十进制数

　　将二进制数转换成对应的十进制数的方法是“按权展开求和”：

　　利用二进制数按权展开的多项式之和的表达式，取基数为2，逐项相加，其和就是对应的十进制数。

　　例1：

将二进制数1011.1转换成对应的十进制

　　解：

1011.1B=1×23+0×22+1×21+1×20+1×2-1

　　=8+0+2+1+0.5

　　=11.5D

　　例２：

（2）将十进制数转换成对应的二进制数

　　将十进制数转换为对应的二进制数的方法是：

　　对于整数部分，用被除数反复除以2，除第一次外，每次除以2均取前一次商的整数部分作被除数并依次记下每次的余数。

另外，所得到的商的最后一位余数是所求二进制数的最高位。

　　对于小数部分，采用连续乘以基数2，并依次取出的整数部分，直至结果的小数部分为0为止。

故该法称“乘基取整法”。

例：

将十进制117.625D转换成二进制数

解：

整数部分：

“除以2取余，逆序输出”

小数部分:

“乘以2取整，顺序输出”

所以117.625D＝1110101.101B

例２：

例３：

特别提示：

将十进制数转换成其他进制数方法与次上述方法类似。

（3）将二进制数转换为对应的八进制数

　　由于1位八进制数对应3位二进制数，所以二进制数转换成八进制数时，只要以小数点为界，整数部分向左，小数部分向右每3位分成一组，各组用对应的1位八进制数字表示，即可得到对应的八进制数值。

最左最右端分组不足3位时，可用0补足。

例：

将1101101.10101B转换成对应的八进制数。

解：

　　所以，1101101.10101B＝155.52Q。

　　同理，用相反的方法可以将八进制数转换成对应的二进制数。

（4）将二进制数转为对应的十六进制数

　　由于1位十六进制数对应4位二进制数，所以二进制数转换为十六进制时，只要以小数点为界，整数部分向左，小数部分向右每4位分成一组，各组用对应的1位十六进制数字表示，即可得到对应的十六进制数值。

两端的分组不足4位时，用0补足。

例：

将1101101.10101B转换成对应的十六进制数

解：

　　所以1101101.10101B＝6D.8AH。

　　同理，用相反的方法可以将十六进制数转换成对应的二进制数。

例：

将十六进制数5DF.9转换成二进制：

例：

将二进制数1100001.111转换成十六进制：

　　至于其他的转换方法，如八进制到十进制，十六进制到十进制之间的转换，同样可用按权展开的多项式之和及整数部分用“除基取整数”来实现的。

只不过此时基数分别为8和16。

当然，更简单实用的方法是借用二进制数做桥梁，用“八——二——十”或“十六——二——八”的转换方法来实现。

＊数据的编码表示

1．基本概念

（1）编码

　　计算机要处理的数据除了数值数据以外，还有各类符号、图形、图像和声音等非数值数据。

而计算机只能识别两个数字。

要使计算机能处理这些信息，首先必须将各类信息转换成“0”和“1”表示的代码，这一过程成为编码。

（2）数据

　　能被计算机接受和处理的符号的集合都称为数据。

　　数据和信息是一对比较容易混淆的术语。

　　数据是计算机处理的对象，是信息的载体，或称编码了的信息；

　　信息是数据经过加工处理以后的结果，是有意义的数据的内容。

（3）比特

　　比特（Bit：

BinaryDigit——二进制数位）是指1位二进制的数码（即0或1）。

比特是计算机中表示信息的数据编码中的最小单位。

（4）字节

　　字节表示被处理的一组连续的二进制数字。

通常用8位二进制数字表示一个字节，即一个字节由8个比特组成。

　　字节是存储器系统的最小存取单位。

2．数值数据的表示

　　数值数据有大小和正负之分。

　　通常在微型计算机中，用两个字节表示一个整数，用四个字节表示一个实数。

在二进制数的最前面规定一个符号位：

“0”表示正数，“1”表示负数。

　　数据表示方法通常有定点数表示和浮点数表示两种。

（1）定点数的表示

①定点整数：

小数点的位置在最低数值位的后面，用于表示整数（如图1所示）

数符

数值

（图1）

②定点小数：

小数点的位置约定在最高数值位的前面，用于表示小于1的纯小数（如图2所示）。

（图2）

（2）浮点数的表示

　　浮点数的表示来源于数学中的指数形式：

　　N＝M×Rc

　　式中R表示进制数的基数。

N可以用下面两个部分表示。

①尾数M。

尾数为小于1的小数。

尾数的长度影响数据的精度。

②阶码c。

阶码相当于数学中的指数。

阶码的大小影响浮点数可以表示的数据的大小范围。

（如图3所示）给出了浮点数的表示方法。

阶符

阶码

尾符

尾数

（图3）

3．字符的表示

　　字符是人与计算机交互过程中不可缺少的重要信息。

要使计算机能处理、存储字符信息，首先也必须用二进制“0”和“1”代码对字符进行编码。

　　下面以西文字符和汉字字符为例，介绍常用的编码标准。

（1）ASCII编码

　　ASCII编码是由美国国家标准委员会制定的一种包括数字、字母、通用符号和控制符号在内的字符编码集，全称叫美国国家信息交换标准代码（AmericanStandardCodeforInformationInterchange）。

ASCII码是一种7位二进制编码，能表示27＝128种国际上最通用的西文字符，是目前计算机中，特别是微型计算机中使用最普遍的字符编码集。

详见表1.2。

　　ASCII编码包括4类最常用的字符。

①数字“0”～“9”。

ASCII编码的值分别为0110000B～0111001B，对应十六进制数为30H～39H。

②26个英文字母。

大写字母“A”～“Z”的ASCII编码值为41H～5AH，小写字母“a”～“z”的ASCII编码值为61H～7AH。

③用字符。

如“＋”、“－”、“＝”、“*”和“/”等共32个。

④制符号。

如空格符和车符等共34个。

　　ASCII码是一种7位编码，它存时必须占全一个字节，也即占用8位：

b7b6b5b4b3b2b1b0，其中b7恒为0，其余几位为ASCII码值。

（2）汉字编码

　　国家标准汉字编码集（GB2312-80）共收集和定义了7445个基本汉字。

其中，使用频度较高的3755个汉字定义为一级汉字。

使用频率较低的3008个汉字定义为二级汉字，共有6763个汉字。

另外还定义了拉丁字母、俄文字母、汉语拼音字母、数字和常用符号等682个。

　　GB2312－80规定每个汉字用2个字节的二进制编码，每个字节最高位为0，其余7位用于表示汉字信息。

　　例如，汉字“啊”的国标码的2个字节的二进制编码00110000B和00100001B，对应的十六进制数为30H和21H。

　　另外，计算机内部使用的汉字机内码的标准方案是将汉字国标码的2个字节二进制代码的最高位置为1，从而得到对应的汉字机内码。

　　如汉字“啊”的机内码为10110000B、10100001B（即B0H、A1H）。

　　计算机处理字符数据时，当遇到最高位为1的字节，便可将该字节连同其后续最高位也为1的另一个字节看作1个汉字机内码；当遇到最高位为0的字节，则可看作一个ASCII码西文字符，这样就实现了汉字、西文字符的共存与区分。

　　2000年3月17日，国家信息产业部和国家质量技术监督局联合颁布了GB18030－2000《信息技术信息交换用汉字编码字符集基本集的扩充》。

在新标准中采用了单、双、四字节混合编码，收录了27000多个汉字和藏、蒙、维吾尔等主要的少数民族文字，总的编辑空间超过了150万个码位。

新标准适用于图形字符信息的处理、交换、存储、传输、显示、输入和输出，并直接与GB2312－80信息处理交换码所对应的事实上的内码标准相兼容。

所以，新标准与现有的绝大多数操作系统、中文平台兼容，能支持现有的各种应用系统。

　＊汉字交换码

　　汉字交换码是指不同的具有汉字处理功能的计算机系统之间在交换汉字信息时所使用的代码标准。

自国家标准GB2312－80公布以来，我国一直延用该标准所规定的国标码作为统一的汉字信息交换码。

GB2312－80标准包括了6763个汉字，按其使用频度分为一级汉字3755个和二级汉字3008个。

一级汉字按拼音排序，二级汉字按部首排序。

此外，该标准还包括标点符号、数种西文字母、图形、数码等符号682个。

区位码的区码和位码均采用从01到94的十进制，国标码采用十六进制的21H到73H（数字后加H表示其为十六进制数）。

区位码和国标码的换算关系是：

区码和位码分别加上十进制数32。

如“国”字在表中的25行90列，其区位码为2590，国标码是397AH。

*由于GB2312－80是80年代制定的标准，在实际应用时常常感到不够，所以，建议处理文字信息的产品采用新颁布的GB18030信息交换用汉字编码字符集，这个标准繁、简字均处同一平台，可解决两岸三地间GB码与BIG5码间的字码转换不便的问题。

　＊汉字输入码

　　汉字输入方法很多，如区位、拼音、五笔字型等。

不同输入法有自己的编码方案，所采用的编码方案统称为输入码。

输入码进入机器后必须转换为机内码进行存储和处理。

　汉字输入方法大体可分为：

区位码（数字码）、音码、形码、音形码。

∙区位码：

优点是无重码或重码率低，缺点是难于记忆；

∙音码：

优点是大多数人都易于掌握，但同音字多，重码率高，影响输入的速度；

∙形码：

根据汉字的字型进行编码，编码的规则较多，难于记忆，必须经过训练才能较好地掌握；重码率低

∙音形码：

将音码和形码结合起来，输入汉字，减少重码率，提高汉字输入速度；

　　如，以全拼输入方案键入“neng”，或以五笔字型输入方案“ce”，都能得到“能”这个汉字所对应的机内码。

这个工作由汉字代码转换程序依靠事先编制好的输入码对照表完成转换。

　＊汉字字形码（字形存储码）

　　字形存储码是指供计算机输出汉字（显示或打印）用的二进制信息，也称字模。

通常，采用的是数字化点阵字模。

　汉字字形码是一种用点阵表示字形的码，是汉字的输出形式。

它把汉字排成点阵。

常用的点阵由16×16、24×24、32×32或更高。

每一个点在存储器中用一个二进制位（bit）存储。

例如，在16×16的点阵中，需8×32bit的存储空间，每8bit为1字节，所以，需32字节的存储空间；24×24点阵要占72个字节（为什么？

）。

在相同点阵中，不管其笔划繁简，每个汉字所占的字节数相等。

　为了节省存储空间，普遍采用了字形数据压缩技术。

所谓的矢量汉字是指用矢量方法将汉字点阵字模进行压缩后得到的汉字字形的数字化信息。

　　所有不同的汉字字体的字形构成汉字库，一般存储在硬盘上，当要显示输出时，才调入内存，检索到要输出的字形送到显示器输出。

（３）其他信息的编码

　＊图像的表示

　　一幅图像可认为是由一个个像点构成的，这些像点称为像素。

每个像素必须用若干二进制位进行编码，才能表示出现实世界中的五彩缤纷的图像。

　　当将图像分解成一系列像点、每个点用若干bit表示时，我们就把这幅图象数字化了。

　　数字图像数据量特别巨大，假定画面上有150000个点，每个点用24个bit来表示，则这幅画面要占用450000个字节。

如果想在显示器上播放视频信息，一秒钟需传送25幅画面，相当与11250000个字节的信息量。

因此，用计算机进行图像处理，对机器的性能要求是很高的。

　　图像文件的后缀名有：

bmp、gif、jpg等；

　＊声音的表示

　　声音是一种连续变化的模拟量，我们可以通过“模/数”转换器对声音信号按固定的时间进行采样，把它变成数字量。

一旦转变成数字形式，便可把声音储存在计算机中并进行处理了。

　　声音文件的后缀名有：

wav、mp3等；

　＊视频信息的数字化

　　视频信息可以看成连续变换的多幅图像构成，播放视频信息，每秒需传输和处理25幅以上的图像。

视频信息数字化后的存储量相当大，所以需要进行压缩处理。

　　视频文件后缀名有：

avi、mpg等；

展开阅读全文