英伟达NVIDIA各类型号显卡的ai算例表
发表日期:2025-02-26 13:49:20 | 来源: | | 浏览(44) 分类:AI大模型
本表格按 双精度算力(FP64)从高到低排序。
显卡型号 | 架构 | FP16 (半精度) | FP32 (单精度) | FP64 (双精度) | INT8 | INT4 | 显存 | CUDA 核心数 | 发售时间 | 发售价(人民币) |
---|---|---|---|---|---|---|---|---|---|---|
NVIDIA H100 | Hopper | 134 TFLOPS | 67 TFLOPS | 34 TFLOPS | 2000 TOPS | 4000 TOPS | 80 GB HBM3 | 14,592 | 2022 Q3 | ¥237,600+ |
NVIDIA A100 | Ampere | 312 TFLOPS | 19.5 TFLOPS | 9.7 TFLOPS | 624 TOPS | 1248 TOPS | 40/80 GB HBM2 | 6,912 | 2020 Q2 | ¥79,200+ |
NVIDIA V100 | Volta | 125 TFLOPS | 15.7 TFLOPS | 7.8 TFLOPS | - | - | 16/32 GB HBM2 | 5,120 | 2017 Q3 | ¥57,600+ |
NVIDIA TITAN V | Volta | 110 TFLOPS | 13.8 TFLOPS | 6.9 TFLOPS | - | - | 12 GB HBM2 | 5,120 | 2017 Q4 | ¥21,593 |
NVIDIA RTX 6000 Ada | Ada Lovelace | 91.1 TFLOPS | 45.6 TFLOPS | 0.71 TFLOPS | 730 TOPS | 1460 TOPS | 48 GB GDDR6 | 18,176 | 2022 Q4 | ¥52,560 |
NVIDIA RTX 4090 | Ada Lovelace | 165 TFLOPS | 82.6 TFLOPS | 1.3 TFLOPS | 1322 TOPS | 2644 TOPS | 24 GB GDDR6X | 16,384 | 2022 Q4 | ¥11,513 |
NVIDIA RTX 4080 | Ada Lovelace | 97.4 TFLOPS | 48.7 TFLOPS | 0.76 TFLOPS | 779 TOPS | 1558 TOPS | 16 GB GDDR6X | 9,728 | 2022 Q4 | ¥8,633 |
NVIDIA RTX 3090 Ti | Ampere | 80 TFLOPS | 40 TFLOPS | 0.63 TFLOPS | 320 TOPS | 640 TOPS | 24 GB GDDR6X | 10,752 | 2022 Q1 | ¥14,393 |
NVIDIA RTX 3090 | Ampere | 72 TFLOPS | 36 TFLOPS | 0.56 TFLOPS | 285 TOPS | 570 TOPS | 24 GB GDDR6X | 10,496 | 2020 Q3 | ¥10,793 |
NVIDIA RTX 3080 Ti | Ampere | 68 TFLOPS | 34 TFLOPS | 0.53 TFLOPS | 272 TOPS | 544 TOPS | 12 GB GDDR6X | 10,240 | 2021 Q2 | ¥8,633 |
NVIDIA RTX 3080 | Ampere | 60 TFLOPS | 30 TFLOPS | 0.47 TFLOPS | 238 TOPS | 476 TOPS | 10/12 GB GDDR6X | 8,704 | 2020 Q3 | ¥5,033 |
NVIDIA RTX 3070 Ti | Ampere | 44 TFLOPS | 22 TFLOPS | 0.34 TFLOPS | 174 TOPS | 348 TOPS | 8 GB GDDR6X | 6,144 | 2021 Q2 | ¥4,313 |
NVIDIA RTX 3070 | Ampere | 40 TFLOPS | 20 TFLOPS | 0.31 TFLOPS | 163 TOPS | 326 TOPS | 8 GB GDDR6 | 5,888 | 2020 Q4 | ¥3,593 |
NVIDIA RTX 3060 Ti | Ampere | 32.4 TFLOPS | 16.2 TFLOPS | 0.25 TFLOPS | 129 TOPS | 258 TOPS | 8 GB GDDR6 | 4,864 | 2020 Q4 | ¥2,873 |
NVIDIA RTX 3060 | Ampere | 25.4 TFLOPS | 12.7 TFLOPS | 0.2 TFLOPS | 101 TOPS | 202 TOPS | 12 GB GDDR6 | 3,584 | 2021 Q1 | ¥2,369 |
NVIDIA RTX 2080 Ti | Turing | 26.8 TFLOPS | 13.4 TFLOPS | 0.42 TFLOPS | 107 TOPS | 214 TOPS | 11 GB GDDR6 | 4,352 | 2018 Q3 | ¥7,193 |
NVIDIA RTX 2080 | Turing | 20.2 TFLOPS | 10.1 TFLOPS | 0.32 TFLOPS | 81 TOPS | 162 TOPS | 8 GB GDDR6 | 2,944 | 2018 Q3 | ¥5,033 |
NVIDIA RTX 2070 | Turing | 15.8 TFLOPS | 7.9 TFLOPS | 0.25 TFLOPS | 63 TOPS | 126 TOPS | 8 GB GDDR6 | 2,304 | 2018 Q4 | ¥3,593 |
NVIDIA RTX 2060 | Turing | 13 TFLOPS | 6.5 TFLOPS | 0.2 TFLOPS | 52 TOPS | 104 TOPS | 6 GB GDDR6 | 1,920 | 2019 Q1 | ¥2,513 |
NVIDIA TITAN RTX | Turing | 32.6 TFLOPS | 16.3 TFLOPS | 0.51 TFLOPS | 130 TOPS | 261 TOPS | 24 GB GDDR6 | 4,608 | 2018 Q4 | ¥17,993 |
NVIDIA GTX 1080 Ti | Pascal | 22.6 TFLOPS | 11.3 TFLOPS | 0.35 TFLOPS | - | - | 11 GB GDDR5X | 3,584 | 2017 Q1 | ¥5,033 |
NVIDIA GTX 1080 | Pascal | 17.8 TFLOPS | 8.9 TFLOPS | 0.28 TFLOPS | - | - | 8 GB GDDR5X | 2,560 | 2016 Q2 | ¥4,313 |
NVIDIA GTX 1070 | Pascal | 13 TFLOPS | 6.5 TFLOPS | 0.2 TFLOPS | - | - | 8 GB GDDR5 | 1,920 | 2016 Q2 | ¥2,729 |
NVIDIA GTX 1060 | Pascal | 8.8 TFLOPS | 4.4 TFLOPS | 0.14 TFLOPS | - | - | 6 GB GDDR5 | 1,280 | 2016 Q3 | ¥1,793 |
NVIDIA TITAN Xp | Pascal | 22.6 TFLOPS | 11.3 TFLOPS | 0.35 TFLOPS | - | - | 12 GB GDDR5X | 3,840 | 2017 Q1 | ¥8,640 |
NVIDIA TITAN X | Pascal | 22.6 TFLOPS | 11.3 TFLOPS | 0.35 TFLOPS | - | - | 12 GB GDDR5X | 3,584 | 2016 Q2 | ¥8,640 |
NVIDIA GTX 980 Ti | Maxwell | 11.3 TFLOPS | 5.6 TFLOPS | 0.18 TFLOPS | - | - | 6 GB GDDR5 | 2,816 | 2015 Q2 | ¥4,673 |
NVIDIA GTX 980 | Maxwell | 9.2 TFLOPS | 4.6 TFLOPS | 0.14 TFLOPS | - | - | 4 GB GDDR5 | 2,048 | 2014 Q3 | ¥3,953 |
NVIDIA GTX 970 | Maxwell | 7.0 TFLOPS | 3.5 TFLOPS | 0.11 TFLOPS | - | - | 4 GB GDDR5 | 1,664 | 2014 Q3 | ¥2,369 |
NVIDIA GTX 960 | Maxwell | 4.6 TFLOPS | 2.3 TFLOPS | 0.07 TFLOPS | - | - | 2/4 GB GDDR5 | 1,024 | 2015 Q1 | ¥1,433 |
NVIDIA GTX 750 Ti | Maxwell | 2.2 TFLOPS | 1.1 TFLOPS | 0.03 TFLOPS | - | - | 2 GB GDDR5 | 640 | 2014 Q1 | ¥1,073 |
### **关键说明**
1. **FP16/FP32/FP64**:分别表示半精度、单精度和双精度浮点算力,单位为 TFLOPS。
2. **INT8/INT4**:表示整数精度算力,单位为 TOPS(每秒万亿次操作)。
3. **显存**:显存容量越大,支持的数据集和模型规模越大。
4. **CUDA 核心数**:CUDA 核心越多,显卡的并行计算能力越强。
5. **发售价**:按 **1 美元 ≈ 7.2 人民币** 换算,实际价格可能因市场供需波动。
---
### **精度说明**
1.FP32(单精度):通用计算精度,适用于大多数科学计算和深度学习任务。
2.FP64(双精度):高精度计算,适用于科学模拟和金融计算。
3.FP16(半精度):低精度计算,适用于深度学习训练和推理,性能更高。
4.INT8:整数精度,适用于 AI 推理任务,性能显著提升。
5.INT4:超低精度,适用于特定 AI 推理任务,性能进一步提升。
### **总结**
高性能计算:NVIDIA H100、A100 和 V100 是顶级选择,适合大规模 AI 训练和科学计算。
游戏与 AI:RTX 4090、RTX 3090 Ti 和 RTX 3080 Ti 提供极高的性能,适合高端用户。
性价比:RTX 3060 Ti 和 RTX 3060 是预算有限用户的最佳选择,性能足够应对大多数任务。
物尽其用 :可以看到专业级显卡针对双精度优化,消费级显卡针对半精度、单精度优化,以4090为例在单精度fp32及半精度fp16运算中速度远快于专业卡H100等。因此在一些量化模型中,如果显存够用,4090性能甚至强于单卡H100。