有关浮点数在内存中的存储

时间：2010-08-09 来源：happyyangxu

有关浮点数在内存中的存储

c/c++ 2009-09-22 20:28:20 阅读234 评论0
字号：大中小

最近想看一下C中float和double型数据在内存中是如何表示的，找到了如下一些东东，与大家分享一下

c语言中FLOAT 是如何表示的？尾数，阶码是如何在32位上安排的，即哪几位是
尾数，哪几位是阶码，那一位是符号位。听说与CPU有关，是真的吗？

在C++里，实数（float）是用四个字节即三十二位二进制位来存储的。其中
有1位符号位，8位指数位和23位有效数字位。实际上有效数字位是24位，因为第
一位有效数字总是“1”，不必存储。
有效数字位是一个二进制纯小数。8位指数位中第一位是符号位，这符号位和
一般的符号位不同，它用“1”代表正，用”0“代表负。整个实数的符号位用“
1”代表负，“0”代表正。
在这存储实数的四个字节中，将最高地址字节的最高位编号为31，最低地址
字节的最低位编号为0，则实数各个部分在这32个二进制位中的分布是这样的：3
1位是实数符号位，30位是指数符号位，29---23是指数位，22---0位是有效数字
位。注意第一位有效数字是不出现在内存中的，它总是“1”。

将一个实数转化为C++实数存储格式的步骤为：
（1）先将这个实数的绝对值化为二进制格式，注意实数的整数部分和小数部
分化为二进制的方法是不同的。
（2）将这个二进制格式实数的小数点左移或右移n位，直到小数点移动到第
一个有效数字的右边。
（3）从小数点右边第一位开始数出二十三位数字放入第22到第0位。
（4）如果实数是正的，则在第31位放入“0”，否则放入“1”。
（5）如果n 是左移得到的，说明指数是正的，第30位放入“1”。如果n是右
移得到的或n=0，则第30位放入“0”。
（6）如果n是左移得到的，则将n减去一然后化为二进制，并在左边加“0”
补足七位，放入第29到第23位。如果n是右移得到的或n=0，则将n化为二进制后在
左边加“0”补足七位，再各位求反，再放入第29到第23位。

将一个计算机里存储的实数格式转化为通常的十进制的格式的方法如下：
（1）将第22位到第0位的二进制数写出来，在最左边补一位“1”，得到二十
四位有效数字。将小数点点在最左边那个“1”的右边。
（2）取出第29到第23位所表示的值n。当30位是“0”时将n各位求反。当30
位是“1”时将n增1。
（3）将小数点左移n位（当30位是“0”时）或右移n位（当30位是“1”时）
，得到一个二进制表示的实数。
（4）将这个二进制实数化为十进制，并根据第31位是“0”还是“1”加上正
号或负号即可。

特别地，实数0用C++的float格式表示是0000000000000000000000000000000
0。

如果还不太明白，这里举几个例子。
一。将23.56化为C++的float格式。
（1）将23.56化为二进制后大约是“10111.1000111101011100001”。
（2）将小数点左移四位，得到“1.01111000111101011100001”。
（3）这已经有了二十四位有效数字，将最左边一位“1”去掉，得到“0111
1000111101011100001”。将它放入第22到第0位。
（4）因为23.56是正数，因此在第31位放入“0”。
（5）由于我们把小数点左移，因此在第30位放入“1”。
（6）因为我们是把小数点左移4位，因此将4减去1得3，化为二进制，并补足
七位得到0000011，放入第29到第23位。
完毕。
如果把最左边定为第31位，最右边定为第0位，那么在C++里，float格式的2
3.56是这样表示的：01000001101111000111101011100001。相应地-23.56就是这
样表示的：11000001101111000111101011100001。

二。将实数0.2356化为C++的float格式。
（1）将0.2356化为二进制后大约是0.00111100010100000100100000。
（2）将小数点右移三位得到1.11100010100000100100000。
（3）从小数点右边数出二十三位有效数字，即11100010100000100100000放
入第22到第0位。
（4）由于0.2356是正的，所以在第31位放入“0”。
（5）由于我们把小数点右移了，所以在第30位放入“0”。
（6）因为小数点被右移了3位，所以将3化为二进制，在左边补“0”补足七
位，得到0000011，各位取反，得到1111100，放入第29到第23位。
完毕。因此0.2356用C++的float格式表示是：00111110011100010100000100
100000。其中最左边一位是第31位，最右边一位是第0位。

三。将实数1.0化为C++的float格式。
（1）将1.0化为二进制后是1.00000000000000000000000。
（2）这时不用移动小数点了，这就是我们在转化方法里说的n=0的情况。
（3）将小数点右边的二十三位有效数字00000000000000000000000放入第22
到第0位。
（4）因为1.0是正的，所以在第31位里放入“0”。
（5）因为n=0，所以在第30位里放入“0”。
（6）因为n=0，所以将0补足七位得到0000000，各位求反得到1111111，放入
第29到第23位。
完毕。所以实数1.0用C++的float格式表示是：0011111110000000000000000
0000000。其中最左边一位是第31位，最右边一位是第0位。

这是IEEE短实数格式，适合X86cpu。

C语言float类型浮点数的存储方法
2009-04-17 12:59
#include <stdio.h>

int main(int argc, char *argv[])
{
float p = 5.1f;
int f = (int)(p*100);
printf("%d", f);
getch();
return 0;
}

我想要输出 510，可是机器nnd居然输出509(竟然敢扣我工钱)。
到底是what's wrong。我上看下看，左看又看，看了又看，就是发现不了错误。
于是我试着把5.1改成5.5,一切正常啊。捣鼓了N个小时后猜想,莫非是浮点数的表示问题，
于是花了很久找到浮点数的机器表示方法,照着规定克隆操作了一下。（据说练过乾坤大
挪移的人什么招式都可以克隆）。

IEEE规定的浮点数的机器表示：

32位机器的 float 是4字节的，共32位。
第1位是符号位,接着8位指数位，接着23位基数位。
以5.1为例。

5 = 101 (2进制)

0.1 = 0.0 0011 0011 0011 0011 0011 0011 .....(无限循环)

所以 5.1 = 101.0 0011 0011 0011 0011 0011 0011 0011 0011 ...

5.1= 1.010 0011 0011 0011 0011 0011 0011 0011 0011 0011... * 2^2

因为第一位总是为1,如果是0,就移动小数点直到是非0的，所以第一位的1丢弃。
得到 010 0011 0011 0011 0011 0011 0011 0011 0011....
取23位得到 0100 0110 0110 0110 0110 011

接着看指数部分
指数是2, 根据规定,指数统一+127再转换为无符号8位2进制数,
2+127=129 (1000 0001)

存储的时候指数部分存储在基数之前，这样就有31位了，
因为5.1是正的，所以符号为是0，存储在指数部分之前

这样就得到 0100 0000 1010 0011 0011 0011 0011 0011

我们来看一下机器上是否真的如此

#include <stdio.h>
#include <stdlib.h>

int main(int argc, char *argv[])
{
float a=5.1;
int *i=&a;
printf("%x", *i);
system("PAUSE"); /* 将PAUSE送到system command line去执行 */
return 0;
}

40a33333
0100 0000 1010 0011 0011 0011 0011 0011

果真是一样的。

这个例子就说明了为什么浮点数有时存在这样的问题。
这个数化为10进制整数的时候，
由于不可能达到5.1(5.099..)
所以×100后截取了前面的值 509。

无奈吧,这个时候想要精确的浮点数的话,
只有自己写高精度算法了。

-----------------------------------------------------------------------------------
乘数、被乘数都要先转化为二进制，二进制的乘法远比十进制简单，比如乘数是1011，只需将将被乘数分别左移3位、1位，移动后补入0，并将这三个数（被乘数左移3位的、被乘数左移1位的及未移位的被乘数）在累加器中相加，所得总和就是积，根据需要积可再转化为十进制。
除法与乘法类似，只不过将左移改为右移，加改成减。实际上减也是通过取补码后再加，因此计算机芯片上的累加器是最繁忙的部分

-------------------------------------------------------------------------------------
IEEE 754 用科学记数法以底数为 2 的小数来表示浮点数。IEEE 浮点数用 1 位表示数字的符号，用 8 位来表示指数，用 23 位来表示尾数，即小数部分。作为有符号整数的指数可以有正负之分。小数部分用二进制（底数 2）小数来表示，这意味着最高位对应着值 ?(2 -1)，第二位对应着 ?(2 -2)，依此类推。对于双精度浮点数，用 11 位表示指数，52 位表示尾数。