当前位置：文档之家› 浮点数加减法规格化处理

浮点数加减法规格化处理

浮点数规格化和教案

第一节 X＝(－1)S×(1.M)×2E－127e＝E－127 X＝(－1)S×(1.M)×2E－1023 e＝E－1023 我承认以前对这俩公式避之不及不予深究努力自己说服自己而未能得逞，部分原因是跟“移码与真值的关系”扯上关系，这“移码与真值的关系”想搞清先得把引入移码的充分理由给我个说法，不幸玩过头正事误了。上回说了“补码省心移码悦目”能算是今时不同往日了吧，现在轮到对IEEE754浮点数规格化表示法杀无赦去死吧。首先，“IEEE规格化形式”是对“传统规格化形式”进一步严格要求来的。 IEEE规格化形式唯一，而浮点数记法多种多样。 (1.75)10=1.11×20 (IEEE规格化表示)=0.111×21 (传统规格化表示) =0.0111×22=0.00111×23 其次，既然IEEE想到对“传统规格化形式”进一步修订当然有目的，你以为作无用功呐，关键目的是什么？规格化的目的同理。修改阶码同时左右移小数点使尾数域最高有效位固定为1，尾数就以ta所可能变化成的最大形式出现，即使遭遇类似截断的操作仍可保持尽可能高的精度。有类错误我这种大秀逗极善于犯！就是不理会左右关系不经过大脑直接作问题少女状问很白的问题：“‘移码和真值的关系’是E=27(或210)+X，那X=E-27(或210),在怎么着里面数该是128(或1024)，咋是127(或1023)？” 当E=M=全0 E(移码)=全0，对应真值-128 M(补码)=全0，对应真值0 E=M=全0，真值X=0-128=0 结合符号位S 为0或1分正零和负零当E=全1，M=全0 E(移码)=全1，对应真值+127 M(补码)=全0，对应真值0 E=全1，M=全0，真值X=0127=∞ 结合符号位S 为0或1分+∞和-∞ 要除去表示零和无穷大这2种特殊情况指数偏移值不选128(10000000)，而选127(01111111) 对IEEE32位规格化浮点数 8位移码(隐含1位符号位)原本表示范围是-128 →+127 （除去全1(+127)全0(-128)剩下-127 →+126 ？？？）实际可用指数值(即阶码真值)e范围是-126→+127 加上偏移值后，阶码E的范围变为1→254 以10的幂表示，绝对值的范围是10-38→1038 假设由S,E,M三个域组成的一个32位二进制字所表示的非零规格化浮点数ｘ,真值表示为：ｘ＝(－1)s×(1.M)×2E－128 它所表示的规格化的最大正数、最小正数、最大负数、最小负数是多少？第二节 1、什么是IEEE754标准用来规范化浮点数，其格式是

浮点数的表示和基本运算

浮点数的表示和基本运算 1 浮点数的表示通常，我们可以用下面的格式来表示浮点数 S P M 其中S是符号位，P是阶码，M是尾数对于IBM-PC而言，单精度浮点数是32位（即4字节）的，双精度浮点数是64位（即8字节）的。两者的S，P，M所占的位数以及表示方法由下表可知 S P M表示公式偏移量 1823(-1)S*2(P-127)*1.M127 11152(-1)S*2(P-1023)*1.M1023 以单精度浮点数为例，可以得到其二进制的表示格式如下 S(第31位)P(30位到 23位) M(22位到 0位) 其中S是符号位，只有0和1，分别表示正负；P是阶码，通常使用移码表示（移码和补码只有符号位相反，其余都一样。对于正数而言，原码，反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1.）为了简单起见，本文都只讨论单精度浮点数，双精度浮点数也是用一样的方式存储和表示的。 2 浮点数的表示约定单精度浮点数和双精度浮点数都是用IEEE754标准定义的，其中有一些特殊约定。（1）当P = 0, M = 0时，表示0。（2）当P = 255, M = 0时，表示无穷大，用符号位来确定是正无穷大还是负无穷大。

（3）当P = 255, M != 0时，表示NaN（Not a Number，不是一个数）。当我们使用.Net Framework的时候，我们通常会用到下面三个常量 Console.WriteLine(float.MaxValue); // 3.402823E+38 Console.WriteLine(float.MinValue); //-3.402823E+38 Console.WriteLine(float.Epsilon); // 1.401298E-45 //如果我们把它们转换成双精度类型，它们的值如下 Console.WriteLine(Convert.ToDouble(float.MaxValue)); // 3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.MinValue)); //-3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.Epsilon)); // 1.40129846432482E-45 那么这些值是如何求出来的呢？根据上面的约定，我们可以知道阶码P的最大值是11111110（这个值是254，因为255用于特殊的约定，那么对于可以精确表示的数来说，254就是最大的阶码了）。尾数的最大值是11111111111111111111111。那么这个最大值就是：0 11111110 11111111111111111111111。也就是 2(254-127) * (1.11111111111111111111111)2 = 2127 * (1+1-2-23) = 3.40282346638529E+38 从上面的双精度表示可以看出，两者是一致的。最小的数自然就是- 3.40282346638529E+38。对于最接近于0的数，根据IEEE754的约定，为了扩大对0值附近数据的表示能力，取阶码P = -126，尾数 M = (0.00000000000000000000001)2 。此时该数的二进制表示为：0 00000000 00000000000000000000001 也就是2-126 * 2-23 = 2-149 = 1.40129846432482E-45。这个数字和上面的Epsilon 是一致的。如果我们要精确表示最接近于0的数字，它应该是 0 00000001 00000000000000000000000 也就是：2-126 * (1+0) = 1.17549435082229E-38。 3 浮点数的精度问题浮点数以有限的32bit长度来反映无限的实数集合，因此大多数情况下都是一个近似值。同时，对于浮点数的运算还同时伴有误差扩散现象。特定精度下看似

解读IEEE标准754浮点数定义

解读IEEE标准754：浮点数表示，并请保持文章的完整和提供转载出处。更新： 20060623-06:44 增加了求最大非规格数的公式 20060622-23:40 修改了几处笔误，换掉了实验部分的那张大图，改用代码显示。一、背景在IEEE标准754之前，业界并没有一个统一的浮点数标准，相反，很多计算机制造商都设计自己的浮点数规则，以及运算细节。那时，实现的速度和简易性比数字的精确性更受重视。直到1985年Intel打算为其的8086微处理器引进一种浮点数协处理器的时候，聪明地意识到，作为设计芯片者的电子工程师和固体物理学家们，也许并不能通过数值分析来选择最合理的浮点数二进制格式。于是Intel在请加州大学伯克利分校的 William Kahan教授──最优秀的数值分析家之一来为8087 FPU设计浮点数格式; 而这个家伙又找来两个专家来协助他，于是就有了KCS组合（Kahn, Coonan, and Stone）。他们共同完成了Intel的浮点数格式设计，而且完成地如此出色，以致于IEEE组织决定采用一个非常接近KCS的方案作为IEEE的标准浮点格式。目前，几乎所有计算机都支持该标准，大大改善了科学应用程序的可移植性。二、表示形式从表面上看，浮点数也是一串0和1构成的位序列(bit sequence)，并不是三头六臂的怪物，更不会咬人。然而IEEE标准从逻辑上用三元组{S,E,M}表示一个数N,如下图所示： N的实际值n由下列式子表示：

其中： ★ n,s,e,m分别为N,S,E,M对应的实际数值,而N,S,E,M仅仅是一串二进制位。 ★ S(sign)表示N的符号位。对应值s满足：n>0时，s=0; n<0时，s=1。 ★ E(exponent)表示N的指数位，位于S和M之间的若干位。对应值e值也可正可负。 ★ M(mantissa)表示N的尾数位，恰好，它位于N末尾。M也叫有效数字位（sinificand）、系数位（coefficient）, 甚至被称作“小数”。三、浮点数格式 IEEE标准754规定了三种浮点数格式：单精度、双精度、扩展精度。前两者正好对应C语言里头的float、double或者FORTRAN里头的real、double精度类型。限于篇幅，本文仅介绍单精度、双精度浮点格式。 ★ 单精度:N共32位，其中S占1位，E占8位，M占23位。 ★ 双精度:N共64位，其中S占1位，E占11位，M占52位。

浮点数表示方法的分析研究

浮点数表示方法的分析研究.txt13母爱是迷惘时苦口婆心的规劝；母爱是远行时一声殷切的叮咛；母爱是孤苦无助时慈祥的微笑。浮点数表示方法的分析研究 [日期：2006-06-10] 来源：作者： [字体：大中小] 摘要：在《计算机组成原理》课程的教学中，浮点数的表示与运算是一个重点，也是难点。本文对浮点数的一般表示及标准表示的方法、范围、存储格式等进行了比较深入地比较、分析和研究，力求给读者一个清晰的概述。关键词：浮点数，表示方法，符号，尾数，阶码，范围《计算机组成原理》课程是计算机科学与技术专业的一门必修专业基础课，主要是讲述计算机系统几大硬件的组成结构和工作原理。在其核心部件——运算器(Arithmetician)的运算机制中，浮点数（Floating-point）的表示与运算方法是一个重点，也是难点，笔者在查阅了大量中外文文献的基础上，根据多年的教学实践经验，对浮点数的表示方法、规格化处理方法、表示范围进行了比较详细地分析研究，以方便学生的学习，共同行们参考。 1、浮点数的一般表示方法在数学中，表示一个浮点数需要三要素：尾数（mantissa）、指数（exponent，又称阶码）和基数（base），都用其第一个字母来表示的话，那么任意一个浮点数N可以表示成下列形式：N=M×BE，例如N1=1.234×10-6， N2= -0.001011×2011等，同样的数字对于不同的基数是不相同的，移动小数点的位置，其指数相应地跟着变化。在计算机中，表示一个浮点数，同样需要以上三要素，只是阶码与尾数一同存储，基数常有2、8、16等数值，下面的讨论以2为基数进行。将浮点数放在计算机中存储时，尾数M用定点（Fixed-point）小数的形式，阶码E用有符号整数形式，改变M中小数点的位置，同时需要修改E的值，可以给出有效数字（significant number）的位数，因此M和E决定了浮点数的精度（precision），E指明小数点在B进制数据中的位置，因而E和B决定了浮点数的表示范围（range），浮点数的符号（Sign）是单独考虑，设阶码有m+1位，尾数有n+1位，则一般浮点数的表示方法如图1所示，其中，下标s代表符号位，下标数字代表数字所处的位数，尾数的小数点默认最高数字位M1之前。图（b）是将尾数的符号位提在最前面，其它部分与图（a）一样，是目前常用的一种表示形式。图1 浮点数的一般表示形式在这种表示方法中，阶码的二进制编码（binary code）一般是原码（sign magnitude）、补码（twos complement）或移码（bias），尾数的编码一般是原码或补码。 2、浮点数的规格化处理在浮点数系统中，小数点的浮动使数值的表示不能惟一，从而给数据处理带来困难，因此有必要使浮点数的表示与存储有一定的标准，考虑到阶码、尾数之间的关系，常将尾数的最高数字位是有效值的数值称为规格化（normalization），由于尾数可以是原码或补码，所以有两种规格化的形式，如表1所示。

浮点数1

浮点数在计算机中用以近似表示任意某个实数。具体的说，这个实数由一个整数或定点数（即尾数）乘以某个基数（计算机中通常是2）的整数次幂得到，这种表示方法类似于基数为10的科学记数法。浮点计算是指浮点数参与的运算，这种运算通常伴随着因为无法精确表示而进行的近似或舍入。一个浮点数a由两个数m和e来表示：a = m × be。在任意一个这样的系统中，我们选择一个基数b（记数系统的基）和精度p（即使用多少位来存储）。m（即尾数）是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作规格化的。有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的。e是指数。这种设计可以在某个固定长度的存储空间内表示定点数无法表示的更大范围的数。例如，一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。此外，浮点数表示法通常还包括一些特别的数值：+∞和?∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。大部份计算机采用二进制（b=2）的表示方法。位(bit)是衡量浮点数所需存储空间的单位，通常为32位或64位，分别被叫作单精度和双精度。有一些计算机提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数浮点数的表示在实际应用中，往往会使用实数，例如下面的一些十进制实数： 179.2356=0.1792356x10^3 0.000000001=0.1x10^8 3155760000=0.215576x10^6 很明显，上述第一个数既有整数也有小数，不能用定点数格式化直接表示，后两个数则可能超出了定点数的表示范围，所以计算机引入了类似与科学表示法来标示实数。 (1)典型的浮点数格式在机器中，典型的浮点数格式如图所示浮点数代码由两部分组成：阶码E和尾数M。浮点数真值为： N=+/-(R^E)xM R是阶码的底。在机器中一般规定R为2，4，8或16，与尾数的基数相同。例如尾数为二进制，则R也为2。同一种机器的R值是固定不变的，所以不需要在浮点数代码中表示出来，他是隐含约定的。因此，机器中的浮点数只需表示出阶码和尾数部分。 E是阶码，即指数值，为带符号整数，常用移码或补码表示。 M是尾数，通常是纯小数，常用原码或补码表示。

IEEE 745浮点数标准

IEEE 745浮点数标准解读IEEE标准754：浮点数表示如须转载请注明作者为Lolita@linuxsir.org，并请保持文章的完整和提供转载出处。 N的实际值n由下列式子表示：其中： ★ n,s,e,m分别为N,S,E,M对应的实际数值,而N,S,E,M仅仅是一串二进制位。 ★ S(sign)表示N的符号位。对应值s满足：n>0时，s=0; n<0时，s=1。 ★ E(exponent)表示N的指数位，位于S和M之间的若干位。对应值e值也可正可负。 ★ M(mantissa)表示N的尾数位，恰好，它位于N末尾。M也叫有效数字位（sinificand）、系数位（coefficient）, 甚至被称作“小数”。

三、浮点数格式 IEEE标准754规定了三种浮点数格式：单精度、双精度、扩展精度。前两者正好对应C语言里头的float、double或者FORTRAN里头的real、double精度类型。限于篇幅，本文仅介绍单精度、双精度浮点格式。 ★ 单精度:N共32位，其中S占1位，E占8位，M占23位。 ★ 双精度:N共64位，其中S占1位，E占11位，M占52位。上图中，|E|表示E的二进制序列表示的整数值,例如E为"10000100",则 |E|=132,e=132-127=5 。 k则表示E的位数，对单精度来说，k=8,则bias=127，对双精度来说，k=11,则bias=1023。此时m的计算公式如下图所示：

标准规定此时小数点左侧的隐含位为1,那么m=|1.M|。如M="101"，则 |1.M|=|1.101|=1.625,即 m=1.625 2、非规格化：当E的二进制位全部为0时，N为非规格化形式。此时e，m 的计算都非常简单。注意，此时小数点左侧的隐含位为0。为什么e会等于(1-bias)而不是(-bias)，这主要是为规格化数值、非规格化数值之间的平滑过渡设计的。后文我们还会继续讨论。有了非规格化形式，我们就可以表示0了。把符号位S值1,其余所有位均置0后，我们得到了 -0.0; 同理，把所有位均置0,则得到 +0.0。非规格化数还有其他用途，比如表示非常接近0的小数，而且这些小数均匀地接近0,称为“逐渐下溢(gradually underflow)”属性。 3、特殊数值：当E的二进制位全为1时为特殊数值。此时，若M的二进制位全为0，则n表示无穷大，若S为1则为负无穷大，若S为0则为正无穷大; 若M的二进制位不全为0时，表示NaN(Not a Number)，表示这不是一个合法实数或无穷，或者该数未经初始化。五、范例仔细研读第四点后，再回忆一下文章开头计算n的公式，你应该写出一个浮点编码的实际值n了吧？还不能吗？不急，我先给你示范一下。我们假定N是一个8位浮点数，其中，S占1位，E占4位，M占3位。下面这张表罗列了N

规格化浮点数

规格化浮点数第一章第四节浮点数的表示方法一、浮点数表示一个数的浮点形式（设基数是2）可写成： N = （+ -）M 2E 其中:M代表尾数,E代表阶码。计算机中浮点数只用尾数和阶码表示，其形式如下：为了最大限度提高精度，尾数采用规格化形式，既1/2≤M<1。采用二进制表示时，若尾数大于零，则规格化数应该是01XXXX的形式；若尾数小于零，则规格化数应为10XXXX 的形式。二、实例【例1】设X=0.0110×23 ,用补码、浮点数形式表示阶码为Xj=011，尾数为00110，这时由于X尾数不符合01XXXX的形式，因此不是规格化数，必须先进行规格化处理。方法：若尾数小于1/2，把尾数左移一位（不包括符号位），观察结果是否满足规格化条件，满足则在把阶码减1即可，否则继续左移和调整阶码；若尾数大于1，则把尾数右移一位（不包括符号位），观察结果是否满足规格化条件，满足则在把阶码加1即可，否则继续右移和调整阶码。上例中，00110左移一位为01100，符合规则化标准，此时阶码减1，为010即得到浮点表示形式。一个浮点数a由两个数m和e来表示：a = m × b^e。在任意一个这样的系统中，我们选择一个基数b（记数系统的基）和精度p（即使用多少位来存储）。m（即尾数）是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作规格化的。有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的在浮点表示方法中，小数点的位置是浮动的，阶码可取不同的数值。为了便于计算机中小数点的表示，规定将浮点数写成规格化的形式，即尾数的绝对值大于等于0.1并且小于1，从而唯一规定了小数点的位置。尾数的长度将影响数的精度，

1.1_--_浮点数的规格化

浮点数的规格化为了使计算机在运行过程中，不丢失有效数字，提高运算的精度，在计算机中，浮点数通常都采用规格化数的表示方法。对二进制浮点数2J×S，若尾数S满足1/2≤|S|＜1时，则为“规格化的数”，否则就是非规格化的数。要使浮点数规格化只要移动尾数并改变阶的值就可以实现。对补码来说，规格化的数意味着什么呢？如果是正数，尾数的第一位数字为“1”；如果是负数，尾数的第一个数字应为“0”（即1.0×…×），或为“1”而以后各位全为“0”（即1.10…0）；前者小于-1/2，后者正好等于-1/2。为了机器判断方便，在补码表示中，往往不把-1/2列入规格化的数。这样，补码规格化数规定如下：对正数x≥0，如果1 ＞x ≥1/2，称为规格化数，其补码表示形式为：0.1x…x。对负数x＜0，如果-1/2＞x ≥-1，称为规格化数，其补码表示形式为：1.0x (x) 其中x表示可任取“0”或“1”。因此，机器只要判断运算结果的符号位与第一位数字是否相同，便可知道是否是规格化的数。例1：将（-18.75）10转换为二进制浮点规格化数，基数为2，阶符、阶码（用补码表示）共4位，数符（尾符）、尾数（用补码表示）共8位。解：-18.75D = -10010.11B = -1.001011B×24 ; {-1.001011B < -1} = -0.1001011B×25 阶码：+5 = 0101B，补码：0101 尾数：[ -0.1001011]补= 1.0110101 浮点数：0 101 1 0110101

例2：设某计算机用双字表示一浮点数，其中阶符、阶码8位，用原码表示，数符、尾数共8位，用补码表示，求能表示的最大正数为多少？解：最大正数的浮点表示为：0 1111111 0 1111111 阶码：+1111111=2+127 尾数：+0.1111111=1-2-7 最大正数为：（1-2-7）×2+127 浮点加减法运算要经过对阶、尾数加减运算、规格化和舍入四步才能完成。