浮点数运算

此条目需要编修，以确保文法、用词、语气、格式、标点等使用恰当。 (2022年3月7日)请按照校对指引，帮助编辑这个条目。（帮助、讨论）

在电脑科学中，浮点数运算（Floating-point arithmetic）是一种用浮点（英语：floating point，缩写为FP）方式表示实数的运算方式。浮点是一种对于实数的近似值数值表现法，由一个有效数字（即尾数）加上幂数来表示，通常是乘以某个基数的整数次指数得到。以这种表示法表示的数值，称为浮点数（floating-point number）。浮点数运算运算通常伴随着因为无法精确表示而进行的近似或舍入。

电脑使用浮点数运算的主因，在于电脑使用二进位制的运算。例如：4÷2=2，4=100₍₂₎、2=010₍₂₎，在二进制相当于退一位数。则1.0÷2=0.5=0.1₍₂₎也就是 ${\frac {1}{2))$ 。依此类推二进制的0.01₍₂₎就是十进制 ${\displaystyle {\frac {1}{2^{2))))$ = ${\frac {1}{4))$ =0.25。由于十进位制无法准确换算成二进位制的部分小数，如0.1，因此只能使用近似值的方式表达。

这种表示方法类似于基数为10的科学记数法，在电脑上，通常使用2为基数的幂数来表示。一个浮点数a由两个数m和e来表示：a = m × b^e。在任意一个这样的系统中，可选择一个基数b（记数系统的基）和精度p（即使用多少位来存储）。m（即尾数（英语：Significand））是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作正规化的。有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的。e是指数。

这种表示法的设计，来自于对于值的表现范围，与精密度之间的取舍：可以在某个固定长度的存储空间内表示出某个实数的近似值。例如，一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。

此外，浮点数表示法通常还包括一些特别的数值：+∞和−∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。

其中，无穷大，可表示为inf，在内存中的值是阶码为全1，尾数全0。而NaN在内存中的值则是阶码全1，尾数不全0。

电脑的浮点数

浮点指的是带有小数的数值，浮点运算即是小数的四则运算，常用来测量电脑运算速度。大部分电脑采用二进制（b=2）的表示方法。位（bit）是衡量浮点数所需存储空间的单位，通常为32位或64位，分别被叫作单精度和双精度。有一些电脑提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数（通常用软件实现）。

浮点数的标准

在电脑使用的浮点数被电气电子工程师协会（IEEE）规范化为IEEE 754。

举例

π的值可以表示为π = 3.1415926...₁₀（十进制）。当在一个支持17位尾数的电脑中表示时，它会变为0.11001001000011111 × 2²。

浮点数运算

为了方便呈现，容易阅读，以下的例子会用十进制，有效位数7位数的浮点数，也就是IEEE 754 decimal32格式，其原理不会随进制或是有效位数而变。此处的s表示尾数（有效数字），而e表示指数。

加减法

处理浮点数加法的简单作法是将二个浮点数调整到有相同的指数。在以下例子中，第二个数的小数点左移了三位，使二者的指数相同，之后即可进行一般的加法运算：

  123456.7 = 1.234567 × 10^5
  101.7654 = 1.017654 × 10^2 = 0.001017654 × 10^5

  因此
  123456.7 + 101.7654 = (1.234567 × 10^5) + (1.017654 × 10^2)
                      = (1.234567 × 10^5) + (0.001017654 × 10^5)
                      = (1.234567 + 0.001017654) × 10^5
                      =  1.235584654 × 10^5

若用e和s来表示

  e=5;  s=1.234567     (123456.7)
+ e=2;  s=1.017654     (101.7654)

  e=5;  s=1.234567
+ e=5;  s=0.001017654  (移位後)
--------------------
  e=5;  s=1.235584654  (實際的和：123558.4654)

这是真实的结果，二个数字真正的和，之后会再四舍五入到七位有效位数，若有需要的话，会再进行正规化，其结果为

  e=5;  s=1.235585    (最後答案：123558.5)

加数的最低三位数（654）没有出现在结果中，这称为舍入误差。在一些极端的例子中，二个浮点数的和可能和其中的被加数或是加数相等：

  e=5;  s=1.234567
+ e=−3; s=9.876543

  e=5;  s=1.234567
+ e=5;  s=0.00000009876543 (移位後)
----------------------
  e=5;  s=1.23456709876543 (真正的和)
  e=5;  s=1.234567         (四捨五入及正規化後)

在上述的例子中，为了要有正确的四舍五入结果，在二数指数差距很大时，要增加许多位数才有正确的结果。不过，在二位制的加减法中，利用一个guard位元、一个rounding位元以及一个额外的sticky位元，就可以有正确的结果^[1]^[2]^:218–220。

另一个失去有效数字的情形出现在二个几乎相等的数字相减时。在以下的例子中，e = 5; s = 1.234571和e = 5; s = 1.234567是有理数123457.1467和123456.659的近似值。

  e=5;  s=1.234571
− e=5;  s=1.234567
----------------
  e=5;  s=0.000004
  e=−1; s=4.000000 (四捨五入及正規化後)

浮点数的差可以精确的计算，如同Sterbenz引理（英语：Sterbenz lemma）所说明的，就算是因为渐进式下溢出（英语：gradual underflow）而出现下溢出也是一样。不过，原来二个数的差是e = −1; s = 4.877000，和浮点数计算结果e = −1; s = 4.000000之间差了超过20%。在极端的例子中，甚至所有的有效数字都会不见^[1]^[3]。上述的灾难性抵消说明了，假设计算结果的每一位数都有意义，这个想法很危险。这类误差的处理及修正是数值分析中的主题之一。

乘除法

若要进行乘法，将有效数字相乘，指数相加，再进行四舍五入及正规化即可。

  e=3;  s=4.734612
× e=5;  s=5.417242
-----------------------
  e=8;  s=25.648538980104 (真實乘積)
  e=8;  s=25.64854        (四捨五入後)
  e=9;  s=2.564854        (正規化)

而除法会将被除数和除数的有效数字相除，二者的指数相减，再进行四舍五入及正规化。

乘除法不会有抵消或是某一数字被吸收的问题，不过仍会出现一些小误差，若连续运算，误差会变大^[1]。实务上，要进行上述运算的数码逻辑可能会相当的复杂（像是布斯乘法算法以及除法器）。

准确性

由于浮点数不能表达所有实数，浮点运算与相应的数学运算有所差异，有时此差异极为显著。

比如，二进制浮点数不能表达0.1和0.01，0.1的平方既不是准确的0.01，也不是最接近0.01的可表达的数。单精度（24位元）浮点数表示0.1的结果为 $e=-4$ , ${\displaystyle s=110011001100110011001101_{(2)))$ ，即

0.100000001490116119384765625

此数的平方是

0.010000000298023226097399174250313080847263336181640625

但最接近0.01的可表达的数是

0.009999999776482582092285156250

浮点数也不能表达圆周率 $\pi$ ，所以 $\tan {\frac {\pi }{2))$ 不等于正无穷，也不会溢出。下面的C语言代码

double pi = 3.1415926535897932384626433832795;
double z = tan(pi/2.0);

的计算结果为16331239353195370.0，如果用单精度浮点数，则结果为−22877332.0。同样的， $\sin \pi \neq 0$ 。

由于浮点数计算过程中丢失了精度，浮点运算的性质与数学运算有所不同。浮点加法和乘法不符合结合律和分配律。

事故

奔腾早期的60-100MHz P5版本在浮点运算单元有一个问题，在极少数情况下，会导致除法运算的精确度降低。这个缺陷于1994年被发现，变成如今广为人知的奔腾浮点调试误，同时这一事件导致英特尔陷入巨大的窘态，建立召回项目来回收有问题的处理器。

参考资料

^ ^1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始内容存档 (PDF)于2006-07-20）. ([1] （页面存档备份，存于互联网档案馆）, [2] （页面存档备份，存于互联网档案馆）, [3] （页面存档备份，存于互联网档案馆）)
^ Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英语）.
^ 美国专利3037701A (PDF 版本)（于1962年6月5日注册）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

分类

[Goldberg_1991-1] 1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始内容存档 (PDF)于2006-07-20）. ([1] （页面存档备份，存于互联网档案馆）, [2] （页面存档备份，存于互联网档案馆）, [3] （页面存档备份，存于互联网档案馆）)

[Patterson-Hennessy_2014-2] Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英语）.

[Sierra_1962-3] 美国专利3037701A (PDF 版本)（于1962年6月5日注册）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

[1]

[2]

[3]

浮点数运算

电脑的浮点数

浮点数的标准

举例

浮点数运算

加减法

乘除法

准确性

事故

相关条目

参考资料

Suggest as cover photo

Thank you for helping!

Install Wikiwand

Don't forget to rate us

Tell your friends about Wikiwand!

Enjoying Wikiwand?

Tell your friends and spread the love:

Your preferred languages

All languages

Follow Us

Don't forget to rate us

Our magic isn't perfect

Thank you for helping!

Oh no, there's been an error