FloatDouble与定点数

C++中整数表示

在 C++ 中，整数的表示原理主要涉及计算机如何在内存中存储和处理整数数据。以下是简洁而全面的解释，涵盖整数表示的核心原理：

1. 整数的二进制表示

C++ 中的整数类型（如 int、short、long、long long 等）在内存中以 二进制形式 存储。计算机使用固定数量的位（bit）来表示一个整数，位数由整数类型决定，例如：

int 通常占 32 位（4 字节），但在某些系统上可能是 16 位。
short 通常占 16 位（2 字节）。
long 和 long long 通常占 32 位或 64 位，具体取决于编译器和系统架构。

每个位可以是 0 或 1，整数的值通过这些位的组合来表示。

2. 有符号整数与无符号整数

C++ 支持 有符号（signed）和 无符号（unsigned）整数类型，它们的表示方式不同：

无符号整数（如 unsigned int）：所有位都用于表示非负数值。范围从 0 到

$2^n - 1$

，其中 (n) 是位数。例如，32 位无符号整数的范围是 0 到

$2^{32} - 1$

（即 0 到 4,294,967,295）。

有符号整数（如 int）：使用最高位（符号位）表示正负，0 表示正数，1 表示负数。其余位表示数值大小。

3. 有符号整数的编码方式

有符号整数通常采用 二进制补码（Two’s Complement）表示法，这是 C++ 标准中常用的编码方式。补码的优点是简化了加减法运算。补码表示法的特点如下：

正数：直接以二进制形式存储，符号位为 0。例如，十进制的 5 在 8 位补码中是 00000101。
负数：负数通过对其绝对值的补码计算得到。计算步骤：
1. 取绝对值的二进制表示。
2. 按位取反（0 变 1，1 变 0）。
3. 结果加 1。
例如，十进制的 -5 在 8 位补码中：
- 5 的二进制是 00000101。
- 按位取反：11111010。
- 加 1：11111011。
因此，-5 表示为 11111011。
范围：对于 (n) 位有符号整数，范围是

$-2^{n-1}$

到

$2^{n-1} - 1$

。例如，32 位 int 的范围是 (-2,147,483,648) 到 (2,147,483,647)。

4. 内存存储与字节序

整数在内存中以字节（8 位）为单位存储，多字节整数的存储方式涉及 字节序（Endianness）：

大端序（Big-Endian）：高位字节存储在低地址。例如，32 位整数 0x12345678 存储为 12 34 56 78。
小端序（Little-Endian）：低位字节存储在低地址。例如，0x12345678 存储为 78 56 34 12。

现代 x86 和 x86-64 架构通常使用小端序，而某些嵌入式系统可能使用大端序。C++ 程序员通常无需直接处理字节序，除非涉及跨平台数据传输。

5. 整数溢出

无符号整数：当值超过最大范围时，会发生环绕（wraparound）。例如，unsigned int 的最大值是

$2^{32} - 1$

，加 1 后变为 0。

有符号整数：溢出行为在 C++ 中是 未定义行为（undefined behavior），可能导致不可预测的结果。例如，int 最大值加 1 可能变为负数，但不能依赖这种行为。

6. C++ 中的整数类型

C++ 提供了多种整数类型，位数和范围因编译器和平台而异：

short：至少 16 位。
int：通常 32 位（但可能是 16 位，视平台而定）。
long：至少 32 位。
long long：至少 64 位。
无符号变体：unsigned short、unsigned int、unsigned long、unsigned long long。
固定宽度类型（C++11 起）：<cstdint> 提供了 int8_t、uint8_t、int16_t、uint16_t 等，确保跨平台一致性。

7. 示例代码

以下代码展示如何查看整数的二进制表示：

#include <iostream>
#include <bitset>
int main() {
    int x = 5;
    int y = -5;
    std::cout << "5 in binary: " << std::bitset<32>(x) << std::endl;
    std::cout << "-5 in binary: " << std::bitset<32>(y) << std::endl;
    return 0;
}

输出（假设 32 位 int）：

5 in binary: 00000000000000000000000000000101
-5 in binary: 11111111111111111111111111111011

8. 注意事项

平台依赖性：整数类型的位数和字节序因平台而异，使用 <cstdint> 的固定宽度类型可提高代码可移植性。
溢出检查：C++ 不自动检查整数溢出，需手动验证或使用库（如 Boost）处理。
位运算：C++ 支持按位运算（如 &、|、^、~、<<、>>），可直接操作整数的二进制位。

C++中float表示原理

在 C++ 中，float 是一种浮点数类型，用于表示带有小数部分的实数。其表示原理基于 IEEE 754 标准（通常为单精度浮点数）。以下是简洁而全面的解释，涵盖 float 的表示原理：

1. float 的内存结构

C++ 中的 float 通常占用 32 位（4 字节），按照 IEEE 754 单精度浮点数标准分为三个部分：

符号位（Sign bit）：1 位，表示数的正负。0 表示正数，1 表示负数。
指数（Exponent）：8 位，存储指数部分，使用 偏移编码（biased exponent）。
尾数（Mantissa，或称为有效数字，Fraction）：23 位，存储小数部分的有效数字。

内存布局如下：

| 符号位 (1 位) | 指数 (8 位) | 尾数 (23 位) |

2. 浮点数表示公式

float 的值通过以下公式计算：

$(-1)^{\text{符号位}} \times 2^{\text{指数} - \text{偏移}} \times (1.\text{尾数})$

符号位：0（正）或 1（负）。
指数：存储值为实际指数加上偏移量（bias）。对于单精度浮点数，偏移量是 127。因此，实际指数 (E = e - 127)，其中 (e) 是存储的指数值。
尾数：23 位表示小数部分，隐含一个前导 1（对于规格化数，normalized numbers）。尾数表示为 (1.f)，其中 (f) 是 23 位的小数部分。

例如，十进制数 6.5 的二进制表示为： - 二进制：110.1（即

$1.101 \times 2^2$

）。 - 符号位：0（正数）。 - 指数：实际指数 2，存储值为 (2 + 127 = 129)，二进制为 10000001。 - 尾数：101 补齐为 23 位，101000...0。 - 最终 32 位表示：0 10000001 10100000000000000000000。

3. 特殊值

IEEE 754 标准定义了一些特殊值：

零：指数和尾数全为 0，符号位为 0（+0）或 1（-0）。
无穷大（Infinity）：指数全 1（255），尾数全 0。符号位决定是正无穷（+∞）还是负无穷（-∞）。
NaN（Not a Number）：指数全 1，尾数非 0。用于表示无效运算（如

$0/0$

或

$\sqrt{-1}$

非规格化数（Denormalized Numbers）：指数全 0，尾数非 0，用于表示非常接近 0 的数，隐含前导位为 0（而不是 1）。

4. 范围与精度

范围：float 的绝对值范围大约是

$1.18 \times 10^{-38}$

到

$3.4 \times 10^{38}$

精度：float 提供约 6-7 位十进制精度，因为尾数只有 23 位。超出精度的部分会被截断，导致精度损失。

5. 字节序

与整数类似，float 的多字节存储涉及 字节序（Endianness）： - 大端序：高位字节存储在低地址。 - 小端序：低位字节存储在低地址（x86 架构常用）。字节序通常对程序员透明，但在跨平台数据传输时需注意。

6. 浮点数运算的问题

精度损失：由于尾数位数有限，某些十进制小数（如 0.1）无法精确表示，可能导致舍入误差。
舍入误差：浮点运算（如加法、乘法）可能引入微小误差，累积后可能影响结果。
比较问题：由于精度问题，直接比较浮点数（如 a == b）可能不可靠，建议使用误差范围比较（如 abs(a - b) < epsilon）。

7. 示例代码

以下代码展示如何查看 float 的二进制表示：

#include <iostream>
#include <bitset>
int main() {
    float f = 6.5f;
    unsigned int* ptr = reinterpret_cast<unsigned int*>(&f);
    std::cout << "6.5 in binary: " << std::bitset<32>(*ptr) << std::endl;
    return 0;
}

输出（假设小端序，32 位）：

6.5 in binary: 01000000110100000000000000000000

解释：

符号位：0（正）。
指数：10000001（129，实际指数 (129 - 127 = 2)）。
尾数：10100000000000000000000。

8. 注意事项

平台依赖性：C++ 不强制 float 必须遵循 IEEE 754，但现代编译器（如 GCC、Clang、MSVC）通常遵守此标准。
double 类型：C++ 还有 double 类型（通常 64 位），提供更高精度（52 位尾数，11 位指数，偏移 1023）。
跨平台开发：处理浮点数时，需注意字节序和平台特定行为。
性能：浮点运算通常比整数运算慢，特别是在嵌入式系统上。

C++中double表示原理

在 C++ 中，double 和 float 都是浮点数类型，均基于 IEEE 754 标准 表示浮点数，因此在表示原理上有许多相同之处，但也有关键的区别，主要体现在存储大小、精度和范围上。以下是简洁而全面的对比，分析 double 和 float 的表示原理的 相同之处 与 不同之处。

相同之处

基于 IEEE 754 标准：
- 两者都遵循 IEEE 754 浮点数标准，使用 符号位、指数和尾数（有效数字）来表示浮点数。
- 值计算公式相同：

$(-1)^{\text{符号位}} \times 2^{\text{指数} - \text{偏移}} \times (1.\text{尾数})$

（对于规格化数）。

内存结构：
- 都分为三个部分：符号位、指数和尾数。
- 布局格式：[符号位 | 指数 | 尾数]。
特殊值表示：
- 支持相同的特殊值：零（±0）、无穷大（±∞）、NaN（非数字）和非规格化数。
- 零：指数和尾数全为 0。
- 无穷大：指数全 1，尾数全 0。
- NaN：指数全 1，尾数非 0。
- 非规格化数：指数全 0，尾数非 0，隐含前导位为 0。
字节序：
- 存储方式受平台字节序（大端序或小端序）影响，行为一致，通常对程序员透明。
浮点运算特性：
- 都存在精度损失、舍入误差和浮点比较问题（不建议直接用 == 比较）。
- 运算可能引入微小误差，需使用误差范围比较（如 abs(a - b) < epsilon）。

不同之处

特性	float	double
存储大小	32 位（4 字节）	64 位（8 字节）
符号位	1 位	1 位
指数位数	8 位	11 位
尾数位数	23 位	52 位
指数偏移	127	1023
精度	约 6-7 位十进制精度	约 15-16 位十进制精度
内存布局	1 位符号 8 位指数 23 位尾数	1 位符号 11 位指数 52 位尾数

float范围

$1.18 \times 10^{-38}$

到

$3.4 \times 10^{38}$

double范围

$2.23 \times 10^{-308}$

到

$1.8 \times 10^{308}$

详细解释

存储大小与位分配：
- float：32 位，其中 1 位符号、8 位指数、23 位尾数。
- double：64 位，其中 1 位符号、11 位指数、52 位尾数。
- 影响：double 的尾数位数更多，提供更高精度；指数位数更多，支持更大范围。
指数偏移：
- float：指数存储值 (e = E + 127)，实际指数 (E = e - 127)。
- double：指数存储值 (e = E + 1023)，实际指数 (E = e - 1023)。
- 影响：double 的指数范围更大（-1022 到 +1023 vs -126 到 +127），支持表示极小或极大的数。
范围与精度：
- float：范围较小，精度较低，适合对内存敏感但精度要求不高的场景。
- double：范围更大，精度更高，适合需要高精度计算的场景（如科学计算）。
- 示例：十进制 0.1 在 float 中可能有较大舍入误差，而 double 误差更小。
性能：
- float：占用内存少，运算速度通常更快，适合嵌入式系统或 GPU 计算。
- double：占用内存多，运算速度稍慢，但精度更高，广泛用于科学计算和工程应用。

示例代码

以下代码展示 float 和 double 的二进制表示差异：

#include <iostream>
#include <bitset>
int main() {
    float f = 6.5f;
    double d = 6.5;
    unsigned int* f_ptr = reinterpret_cast<unsigned int*>(&f);
    unsigned long long* d_ptr = reinterpret_cast<unsigned long long*>(&d);
    std::cout << "float 6.5: " << std::bitset<32>(*f_ptr) << std::endl;
    std::cout << "double 6.5: " << std::bitset<64>(*d_ptr) << std::endl;
    return 0;
}

输出（假设小端序）：

float 6.5: 01000000110100000000000000000000
double 6.5: 0100000000011010000000000000000000000000000000000000000000000000

解释：

float：符号位 0，指数 10000001（129，实际指数 2），尾数 101000...0（23 位）。
double：符号位 0，指数 10000000001（1025，实际指数 2），尾数 101000...0（52 位）。

注意事项

精度选择：使用 float 时需注意精度损失，可能不适合高精度需求；double 是默认选择，适合大多数科学计算。
平台依赖性：虽然 IEEE 754 是标准，但某些嵌入式系统可能不支持，需检查编译器文档。
性能权衡：在内存受限或性能敏感场景（如实时系统），优先考虑 float；在精度优先场景，选择 double。
C++ 扩展：C++ 还支持 long double（通常 80 位或更高，依赖平台），提供更高精度，但非所有平台都遵循 IEEE 754。

定点数

如bitcoin中用64位整数来表示Satoshi

1 Bitcoin (BTC) = 100,000,000 Satoshi

则0.00000001个比特币也就是表示为 1个Statoshi,在计算用int64表示就是存放的整数1，而不是存储浮点数。

#include <string>
#include <iomanip>
#include <sstream>

// 将 Satoshi (int64_t) 转换为 Bitcoin (double)，并返回格式化的字符串
std::string satoshiToBitcoin(int64_t satoshi) {
    // 1 BTC = 100,000,000 Satoshi
    constexpr double SATOSHI_PER_BTC = 100000000.0;
    
    // 转换为 Bitcoin 值
    double bitcoin = static_cast<double>(satoshi) / SATOSHI_PER_BTC;
    
    // 使用 stringstream 格式化输出，保留 8 位小数
    std::ostringstream oss;
    oss << std::fixed << std::setprecision(8) << bitcoin;
    
    // 返回格式化字符串，移除末尾多余的零
    std::string result = oss.str();
    result.erase(result.find_last_not_of('0') + 1);
    if (result.back() == '.') {
        result.pop_back(); // 移除末尾的小数点
    }
    return result;
}

float转int64定点

float floatVal = 1.2;
double doubleVal = floatVal;
(int64_t)(doubleVal * (1LL << 32));

让我们逐步分析这段 C++ 代码，解释 float floatVal = 1.2; double doubleVal = floatVal; (int64_t)(doubleVal * (1LL << 32)); 的执行过程和结果。这涉及浮点数表示、类型转换和位运算。

代码分解

定义和初始化 float 变量：
```
float floatVal = 1.2;
```
- floatVal 是一个单精度浮点数（32 位，IEEE 754 标准），初始化为十进制值 1.2。
- 由于 float 的精度限制（约 6-7 位十进制精度），1.2 可能无法精确表示。
将 float 转换为 double：
```
double doubleVal = floatVal;
```
- doubleVal 是一个双精度浮点数（64 位，IEEE 754 标准），通过隐式转换从 floatVal 初始化。
- 转换过程保留 floatVal 的值，但由于 double 有更高精度（约 15-16 位十进制精度），不会引入额外误差。
计算 (int64_t)(doubleVal * (1LL << 32))：
- (1LL << 32)：1LL 是一个 64 位有符号整数（long long），左移 32 位，得到

$2^{32} = 4,294,967,296$

doubleVal * (1LL << 32)：将 doubleVal 乘以 (2^{32})，将浮点数放大到整数范围。
(int64_t)(...)：将乘法结果（double 类型）转换为 int64_t，通过截断小数部分得到整数。

步骤 1：floatVal = 1.2 的表示 - 十进制 1.2 的二进制表示是无限循环的：1.0011001100110011...（即

$1 + 0.2 = 1 + 2^{-3} + 2^{-4} + 2^{-7} + 2^{-8} + \dots$

在 IEEE 754 单精度浮点数（float）中：
- 符号位：0（正数）。
- 指数：实际指数 (E = 0)（因为

$1.2 \approx 1.00110011... \times 2^0$

，存储指数 (e = E + 127 = 127)（二进制：01111111）。 - 尾数：小数部分 00110011001100110011001...，截取前 23 位：00110011001100110011001。 - 内存布局：0 01111111 00110011001100110011001。 - 十六进制：0x3F99999A。 - 实际存储值：由于尾数截断，floatVal ≈ 1.2000000476837158203125（略大于 1.2，因为 float 精度有限）。

步骤 2：`doubleVal = floatVal`

floatVal 的值（约 1.2000000476837158203125）被复制到 doubleVal。
转换到 double（64 位，11 位指数，52 位尾数）时，doubleVal 精确存储 floatVal 的值，不会引入额外误差。
doubleVal 的值仍然是 1.2000000476837158203125，因为 float 的精度决定了初始值的误差。

步骤 3：`(int64_t)(doubleVal * (1LL << 32))`

计算 (1LL << 32)：
- 1LL 是 64 位整数 1，左移 32 位得到

$2^{32} = 4,294,967,296$

计算 doubleVal * (1LL << 32)：
- doubleVal ≈ 1.2000000476837158203125。

$1.2000000476837158203125 \times 4,294,967,296 \approx 5,159,780,352.000002384185791015625$

结果是一个 double，包含整数部分 5,159,780,352 和小数部分 0.000002384185791015625。
转换为 int64_t：
- (int64_t) 截断小数部分，只保留整数部分。
- 因此，结果是 5,159,780,352（十进制）。

结果

表达式 (int64_t)(doubleVal * (1LL << 32)) 的值是 5,159,780,352。
解释：1.2 被放大 2^32 倍后，理论上应为

$1.2 \times 4,294,967,296 = 5,153,960,755.2$

，但由于 float 精度限制，floatVal 实际值略大于 1.2，导致结果略大。

验证代码

以下代码验证上述计算：

#include <iostream>
#include <iomanip>
int main() {
    float floatVal = 1.2f;
    double doubleVal = floatVal;
    int64_t result = (int64_t)(doubleVal * (1LL << 32));
    std::cout << "floatVal: " << std::fixed << std::setprecision(20) << floatVal << std::endl;
    std::cout << "doubleVal: " << std::fixed << std::setprecision(20) << doubleVal << std::endl;
    std::cout << "Result: " << result << std::endl;
    return 0;
}

输出：

floatVal: 1.20000004768371582031
doubleVal: 1.20000004768371582031
Result: 5159780352

精度误差说明

误差来源：1.2 在 float 中无法精确表示，实际值为 1.2000000476837158203125，导致放大后的结果偏离理论值。
解决方法：若需要精确表示 1.2，可直接初始化 double doubleVal = 1.2;（double 精度更高，误差更小），结果会更接近理论值 5,153,960,755。

总结

内存布局：floatVal = 1.2 的 IEEE 754 表示为 0 01111111 00110011001100110011001（约 1.2000000476837158203125）。
类型转换：doubleVal 继承 floatVal 的值，保持相同精度。
最终计算：(int64_t)(doubleVal * (1LL << 32)) 放大值并截断小数部分，结果为 5,159,780,352。
注意事项：float 精度限制导致结果略偏离理论值。若需更高精度，建议直接使用 double 初始化。

FloatDouble与定点数

C++中整数表示

1. 整数的二进制表示

2. 有符号整数与无符号整数

3. 有符号整数的编码方式

4. 内存存储与字节序

5. 整数溢出

6. C++ 中的整数类型

7. 示例代码

8. 注意事项

C++中float表示原理

1. float 的内存结构

2. 浮点数表示公式

3. 特殊值

4. 范围与精度

5. 字节序

6. 浮点数运算的问题

7. 示例代码

8. 注意事项

C++中double表示原理

相同之处

不同之处

详细解释

示例代码

注意事项

定点数

步骤 2：doubleVal = floatVal

步骤 3：(int64_t)(doubleVal * (1LL << 32))

结果

验证代码

精度误差说明

总结

步骤 2：`doubleVal = floatVal`

步骤 3：`(int64_t)(doubleVal * (1LL << 32))`