ImageVerifierCode 换一换
格式:DOCX , 页数:6 ,大小:18.50KB ,
资源ID:1760318      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/1760318.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(浮点数的表示和基本运算.docx)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

浮点数的表示和基本运算.docx

1、浮点数的表示和基本运算浮点数的表示和基本运算1 浮点数的表示通常,我们可以用下面的格式来表示浮点数SPM其中S是符号位,P是阶码,M是尾数对于IBM-PC而言,单精度浮点数是32位(即4字节)的,双精度浮点数是64位(即8字节)的。两者的S,P,M所占的位数以及表示方法由下表可知SPM表示公式偏移量1823(-1)S*2(P-127)*1.M12711152(-1)S*2(P-1023)*1.M1023以单精度浮点数为例,可以得到其二进制的表示格式如下S(第31位)P(30位到23位)M(22位到0位)其中S是符号位,只有0和1,分别表示正负;P是阶码,通常使用移码表示(移码和补码只有符号位相

2、反,其余都一样。对于正数而言,原码,反码和补码都一样;对于负数而言,补码就是其绝对值的原码全部取反,然后加1.)为了简单起见,本文都只讨论单精度浮点数,双精度浮点数也是用一样的方式存储和表示的。2 浮点数的表示约定单精度浮点数和双精度浮点数都是用IEEE754标准定义的,其中有一些特殊约定。(1) 当P = 0, M = 0时,表示0。(2) 当P = 255, M = 0时,表示无穷大,用符号位来确定是正无穷大还是负无穷大。(3) 当P = 255, M != 0时,表示NaN(Not a Number,不是一个数)。当我们使用.Net Framework的时候,我们通常会用到下面三个常量C

3、onsole.WriteLine(float.MaxValue); / 3.402823E+38Console.WriteLine(float.MinValue); /-3.402823E+38Console.WriteLine(float.Epsilon); / 1.401298E-45/如果我们把它们转换成双精度类型,它们的值如下Console.WriteLine(Convert.ToDouble(float.MaxValue); / 3.40282346638529E+38Console.WriteLine(Convert.ToDouble(float.MinValue); /-3.40

4、282346638529E+38Console.WriteLine(Convert.ToDouble(float.Epsilon); / 1.40129846432482E-45那么这些值是如何求出来的呢?根据上面的约定,我们可以知道阶码P的最大值是11111110(这个值是254,因为255用于特殊的约定,那么对于可以精确表示的数来说,254就是最大的阶码了)。尾数的最大值是11111。那么这个最大值就是:0 11111110 11111。也就是 2(254-127)* (1.11111)2= 2127* (1+1-2-23) = 3.40282346638529E+38从上面的双精度表示可

5、以看出,两者是一致的。最小的数自然就是-3.40282346638529E+38。对于最接近于0的数,根据IEEE754的约定,为了扩大对0值附近数据的表示能力,取阶码P = -126,尾数 M = (0.00001)2 。此时该数的二进制表示为:0 00000000 00001也就是2-126* 2-23= 2-149 = 1.40129846432482E-45。这个数字和上面的Epsilon是一致的。如果我们要精确表示最接近于0的数字,它应该是 0 00000001 00000也就是:2-126* (1+0) = 1.229E-38。 3 浮点数的精度问题浮点数以有限的32bit长度来反

6、映无限的实数集合,因此大多数情况下都是一个近似值。同时,对于浮点数的运算还同时伴有误差扩散现象。特定精度下看似相等的两个浮点数可能并不相等,因为它们的最小有效位数不同。由于浮点数可能无法精确近似于十进制数,如果使用十进制数,则使用浮点数的数学或比较运算可能不会产生相同的结果。如果涉及浮点数,值可能不往返。值的往返是指,某个运算将原始浮点数转换为另一种格式,而反向运算又将转换后的格式转换回浮点数,且最终浮点数与原始浮点数相等。由于一个或多个最低有效位可能在转换中丢失或更改,往返可能会失败。 4 将浮点数表示为二进制4.1 无小数的浮点数转换成二进制表示首先,我们用一个不带小数的浮点数来说明如何将

7、一个浮点数转换成二进制表示。假设要转换的数据是45678.0f。在处理这种不带小数的浮点数时,直接将整数部分转化为二进制表示:0.0,这时要加上一位默认的1(这是因为按照浮点数规格化的要求,尾数必须化成 1.M的格式),那么可以表示成:10.0。然后将小数点向左移,一直移到离最高位只有1位,也就是 1.0,一共移动了16位,我们知道,左移位表示乘法,右移位表示除法。所以原数就等于这样:1.0 * ( 216 )。现在尾数和指数都出来了。因为最高位的1是根据标准加上去的,只是为了满足规格化的要求,这时候需要把这个1去掉。尾数的二进制就变成了:0。最后在尾数的后面补0,一直到补够23位,就是:00

8、000。再回来看指数,根据前面的定义,P-127=16,那么P = 143,表示成二进制就是:10001111。45678.0f这个数是正的,所以符号位是0,那么我们按照前面讲的格式把它拼起来,就是:0 10001111 00000。这就是45678.0f这个数的二进制表示,如果我们要得到16进制的表示,非常简单,我们只需要把这个二进制串4个一组,转换成16进制数就可以了。但是要注意的是x86架构的CPU都是Little Endian的(也就是低位字节在前,高位字节在后),所以在实际内存中该数字是按上面二进制串的倒序存储的。要知道CPU是不是little endian的也很容易。BitConv

9、erter.IsLittleEndian;4.2 含小数的浮点数表示为二进制对于含小数的浮点数,会有精度的问题,下面举例说明。假设要转换的小数为123.456f。对于这种带小数的就需要把整数部和小数部分开处理。对于整数部分的处理不再赘述,直接化成二进制为:100100011。小数部份的处理比较麻烦一些,我们知道,使用二进制表示只有0和1,那么对于小数就只能用下面的方式来表示:a1*2-1+a2*2-2+a3*2-3+.+an*2-n其中a1等数可以是0或者1,从理论上将,使用这种表示方法可以表示一个有限的小数。但是尾数只能有23位,那么就必然会带来精度的问题。在很多情况下,我们只能近似地表示小

10、数。来看0.456这个十进制纯小数,该如何表示成二进制呢?一般说来,我们可以通过乘以2的方法来表示。首先,把这个数字乘以2,小于1,所以第一位为0,然后再乘以2,大于1,所以第二位为1,将这个数字减去1,再乘以2,这样循环下去,直到这个数字等于0为止。在很多情况下,我们得到的二进制数字都大于23位,多于23位的就要舍去。舍入原则是0舍1入。通过这样的办法,我们可以得到二进制表示:1111011.01。现在开始向左移小数点,一共移了6位,这时候尾数为:1.11001,阶码为6加上127得131,二进制表示为:10000101,那么总的二进制表示为:0 10000101 11001表示成十六进制是

11、:42 F6 E9 79由于CPU是Little Endian的,所以在内存中表示为:79 E9 F6 42。4.3 将纯小数表示成二进制对于纯小数转化为二进制来说,必须先进行规格化。例如0.0456,我们需要把它规格化,变为1.xxxx * (2n )的形式,要求得纯小数X对应的n可用下面的公式:n = int( 1 + log 2X )0.0456我们可以表示为1.4592乘以以2为底的-5次方的幂,即1.4592 * ( 2-5 )。转化为这样形式后,再按照上面处理小数的方法处理,得到二进制表示1. 10001去掉第一个1,得到尾数10001阶码为:-5 + 127 = 122,二进制表

12、示为0 01111010 10001最后转换成十六进制11 C7 3A 3D5 浮点数的数学运算5.1 浮点数的加减法设两个浮点数 X=Mx*2Ex ,Y=My*2Ey实现XY要用如下5步完成:(1)对阶操作:小阶向大阶看齐(2)进行尾数加减运算(3)规格化处理:尾数进行运算的结果必须变成规格化的浮点数,对于双符号位(就是使用00表示正数,11表示负数,01表示上溢出,10表示下溢出)的补码尾数来说,就必须是001 或110的形式若不符合上述形式要进行左规或右规处理。(4)舍入操作:在执行对阶或右规操作时常用“0”舍“1”入法将右移出去的尾数数值进行舍入,以确保精度。(5)判结果的正确性:即检

13、查阶码是否溢出若阶码下溢(移码表示是000),要置结果为机器0;若阶码上溢(超过了阶码表示的最大值)置溢出标志。现在用一个具体的例子来说明上面的5个步骤例题:假定X=0 .0110011*211,Y=0.1101101*2-10(此处的数均为二进制), 计算X+Y;首先,我们要把这两个数变成2进制表示,对于浮点数来说,阶码通常用移码表示,而尾数通常用补码表示。要注意的是-10的移码是00110X浮: 0 1 010 *Y浮: 0 0 110 1101101符号位 阶码 尾数(1)求阶差:E=|1010-0110|=0100(2)对阶:Y的阶码小,Y的尾数右移4位Y浮变为 0 1 010 * 1

14、101暂时保存 (3)尾数相加,采用双符号位的补码运算 00 1100110 +00 0000110 00 1101100(4)规格化:满足规格化要求 (5)舍入处理,采用0舍1入法处理故最终运算结果的浮点数格式为: 0 1 010 *即X+Y=+0. 1101101*210 5.2 浮点数的乘除法(1)阶码运算:阶码求和(乘法)或阶码求差(除法)即 Ex+Ey移= Ex移+ Ey补 Ex-Ey移= Ex移+ -Ey补(2)浮点数的尾数处理:浮点数中尾数乘除法运算结果要进行舍入处理例题:X=0 .0110011*211,Y=0.1101101*2-10 求X*Y解:X浮: 0 1 010 *Y浮: 0 0 110 1101101(1)阶码相加 Ex+Ey移=Ex移+Ey补=1 010+1 110=1 000 1 000为移码表示的0(2)原码尾数相乘的结果为:0 10101101101110(3)规格化处理:已满足规格化要求,不需左规,尾数不变,阶码不变。(4)舍入处理:按舍入规则,加1进行修正所以 XY= 0.1010111*20

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1