AI大模型英伟达NVIDIA各类型号显卡的ai算例表

英伟达NVIDIA各类型号显卡的ai算例表

发表日期：2025-02-26 13:49:20 | 来源： | | 浏览(44) 分类：AI大模型

本表格按双精度算力（FP64）从高到低排序。

显卡型号	架构	FP16 (半精度)	FP32 (单精度)	FP64 (双精度)	INT8	INT4	显存	CUDA 核心数	发售时间	发售价（人民币）
NVIDIA H100	Hopper	134 TFLOPS	67 TFLOPS	34 TFLOPS	2000 TOPS	4000 TOPS	80 GB HBM3	14,592	2022 Q3	¥237,600+
NVIDIA A100	Ampere	312 TFLOPS	19.5 TFLOPS	9.7 TFLOPS	624 TOPS	1248 TOPS	40/80 GB HBM2	6,912	2020 Q2	¥79,200+
NVIDIA V100	Volta	125 TFLOPS	15.7 TFLOPS	7.8 TFLOPS	-	-	16/32 GB HBM2	5,120	2017 Q3	¥57,600+
NVIDIA TITAN V	Volta	110 TFLOPS	13.8 TFLOPS	6.9 TFLOPS	-	-	12 GB HBM2	5,120	2017 Q4	¥21,593
NVIDIA RTX 6000 Ada	Ada Lovelace	91.1 TFLOPS	45.6 TFLOPS	0.71 TFLOPS	730 TOPS	1460 TOPS	48 GB GDDR6	18,176	2022 Q4	¥52,560
NVIDIA RTX 4090	Ada Lovelace	165 TFLOPS	82.6 TFLOPS	1.3 TFLOPS	1322 TOPS	2644 TOPS	24 GB GDDR6X	16,384	2022 Q4	¥11,513
NVIDIA RTX 4080	Ada Lovelace	97.4 TFLOPS	48.7 TFLOPS	0.76 TFLOPS	779 TOPS	1558 TOPS	16 GB GDDR6X	9,728	2022 Q4	¥8,633
NVIDIA RTX 3090 Ti	Ampere	80 TFLOPS	40 TFLOPS	0.63 TFLOPS	320 TOPS	640 TOPS	24 GB GDDR6X	10,752	2022 Q1	¥14,393
NVIDIA RTX 3090	Ampere	72 TFLOPS	36 TFLOPS	0.56 TFLOPS	285 TOPS	570 TOPS	24 GB GDDR6X	10,496	2020 Q3	¥10,793
NVIDIA RTX 3080 Ti	Ampere	68 TFLOPS	34 TFLOPS	0.53 TFLOPS	272 TOPS	544 TOPS	12 GB GDDR6X	10,240	2021 Q2	¥8,633
NVIDIA RTX 3080	Ampere	60 TFLOPS	30 TFLOPS	0.47 TFLOPS	238 TOPS	476 TOPS	10/12 GB GDDR6X	8,704	2020 Q3	¥5,033
NVIDIA RTX 3070 Ti	Ampere	44 TFLOPS	22 TFLOPS	0.34 TFLOPS	174 TOPS	348 TOPS	8 GB GDDR6X	6,144	2021 Q2	¥4,313
NVIDIA RTX 3070	Ampere	40 TFLOPS	20 TFLOPS	0.31 TFLOPS	163 TOPS	326 TOPS	8 GB GDDR6	5,888	2020 Q4	¥3,593
NVIDIA RTX 3060 Ti	Ampere	32.4 TFLOPS	16.2 TFLOPS	0.25 TFLOPS	129 TOPS	258 TOPS	8 GB GDDR6	4,864	2020 Q4	¥2,873
NVIDIA RTX 3060	Ampere	25.4 TFLOPS	12.7 TFLOPS	0.2 TFLOPS	101 TOPS	202 TOPS	12 GB GDDR6	3,584	2021 Q1	¥2,369
NVIDIA RTX 2080 Ti	Turing	26.8 TFLOPS	13.4 TFLOPS	0.42 TFLOPS	107 TOPS	214 TOPS	11 GB GDDR6	4,352	2018 Q3	¥7,193
NVIDIA RTX 2080	Turing	20.2 TFLOPS	10.1 TFLOPS	0.32 TFLOPS	81 TOPS	162 TOPS	8 GB GDDR6	2,944	2018 Q3	¥5,033
NVIDIA RTX 2070	Turing	15.8 TFLOPS	7.9 TFLOPS	0.25 TFLOPS	63 TOPS	126 TOPS	8 GB GDDR6	2,304	2018 Q4	¥3,593
NVIDIA RTX 2060	Turing	13 TFLOPS	6.5 TFLOPS	0.2 TFLOPS	52 TOPS	104 TOPS	6 GB GDDR6	1,920	2019 Q1	¥2,513
NVIDIA TITAN RTX	Turing	32.6 TFLOPS	16.3 TFLOPS	0.51 TFLOPS	130 TOPS	261 TOPS	24 GB GDDR6	4,608	2018 Q4	¥17,993
NVIDIA GTX 1080 Ti	Pascal	22.6 TFLOPS	11.3 TFLOPS	0.35 TFLOPS	-	-	11 GB GDDR5X	3,584	2017 Q1	¥5,033
NVIDIA GTX 1080	Pascal	17.8 TFLOPS	8.9 TFLOPS	0.28 TFLOPS	-	-	8 GB GDDR5X	2,560	2016 Q2	¥4,313
NVIDIA GTX 1070	Pascal	13 TFLOPS	6.5 TFLOPS	0.2 TFLOPS	-	-	8 GB GDDR5	1,920	2016 Q2	¥2,729
NVIDIA GTX 1060	Pascal	8.8 TFLOPS	4.4 TFLOPS	0.14 TFLOPS	-	-	6 GB GDDR5	1,280	2016 Q3	¥1,793
NVIDIA TITAN Xp	Pascal	22.6 TFLOPS	11.3 TFLOPS	0.35 TFLOPS	-	-	12 GB GDDR5X	3,840	2017 Q1	¥8,640
NVIDIA TITAN X	Pascal	22.6 TFLOPS	11.3 TFLOPS	0.35 TFLOPS	-	-	12 GB GDDR5X	3,584	2016 Q2	¥8,640
NVIDIA GTX 980 Ti	Maxwell	11.3 TFLOPS	5.6 TFLOPS	0.18 TFLOPS	-	-	6 GB GDDR5	2,816	2015 Q2	¥4,673
NVIDIA GTX 980	Maxwell	9.2 TFLOPS	4.6 TFLOPS	0.14 TFLOPS	-	-	4 GB GDDR5	2,048	2014 Q3	¥3,953
NVIDIA GTX 970	Maxwell	7.0 TFLOPS	3.5 TFLOPS	0.11 TFLOPS	-	-	4 GB GDDR5	1,664	2014 Q3	¥2,369
NVIDIA GTX 960	Maxwell	4.6 TFLOPS	2.3 TFLOPS	0.07 TFLOPS	-	-	2/4 GB GDDR5	1,024	2015 Q1	¥1,433
NVIDIA GTX 750 Ti	Maxwell	2.2 TFLOPS	1.1 TFLOPS	0.03 TFLOPS	-	-	2 GB GDDR5	640	2014 Q1	¥1,073

### 关键说明

1. **FP16/FP32/FP64**：分别表示半精度、单精度和双精度浮点算力，单位为 TFLOPS。

2. **INT8/INT4**：表示整数精度算力，单位为 TOPS（每秒万亿次操作）。

3. **显存**：显存容量越大，支持的数据集和模型规模越大。

4. **CUDA 核心数**：CUDA 核心越多，显卡的并行计算能力越强。

5. **发售价**：按 **1 美元 ≈ 7.2 人民币** 换算，实际价格可能因市场供需波动。

---

### 精度说明

1.FP32（单精度）：通用计算精度，适用于大多数科学计算和深度学习任务。

2.FP64（双精度）：高精度计算，适用于科学模拟和金融计算。

3.FP16（半精度）：低精度计算，适用于深度学习训练和推理，性能更高。

4.INT8：整数精度，适用于 AI 推理任务，性能显著提升。

5.INT4：超低精度，适用于特定 AI 推理任务，性能进一步提升。

### 总结

高性能计算：NVIDIA H100、A100 和 V100 是顶级选择，适合大规模 AI 训练和科学计算。

游戏与 AI：RTX 4090、RTX 3090 Ti 和 RTX 3080 Ti 提供极高的性能，适合高端用户。

性价比：RTX 3060 Ti 和 RTX 3060 是预算有限用户的最佳选择，性能足够应对大多数任务。

物尽其用：可以看到专业级显卡针对双精度优化，消费级显卡针对半精度、单精度优化，以4090为例在单精度fp32及半精度fp16运算中速度远快于专业卡H100等。因此在一些量化模型中，如果显存够用，4090性能甚至强于单卡H100。

AI大模型（9）

### **关键说明**

### **精度说明**

### **总结**

### 关键说明

### 精度说明

### 总结