paint-brush
Nvidia RTX A4000 ADA 可以处理机器学习任务吗?经过@hostkey
3,220 讀數
3,220 讀數

Nvidia RTX A4000 ADA 可以处理机器学习任务吗?

经过 Hostkey.com15m2023/06/29
Read on Terminal Reader

太長; 讀書

4 月,Nvidia 推出了一款新产品 RTX A4000 ADA,这是一款专为工作站应用程序设计的小型 GPU。该处理器取代了A2000,可用于复杂的任务,包括科学研究、工程计算和数据可视化。新GPU的20GB内存容量使其能够处理大型环境。
featured image - Nvidia RTX A4000 ADA 可以处理机器学习任务吗?
Hostkey.com HackerNoon profile picture
0-item

4 月, Nvidia推出了一款新产品 RTX A4000 ADA,这是一款专为工作站应用程序设计的小型 GPU。该处理器取代了A2000,可用于复杂的任务,包括科学研究、工程计算和数据可视化。


RTX A4000 ADA 具有 6,144 个 CUDA 核心、192 个 Tensor 和 48 个 RT 核心以及 20GB GDDR6 ECC VRAM。新型 GPU 的主要优势之一是其功效:RTX A4000 ADA 功耗仅为 70W,从而降低了功耗成本和系统热量。得益于 4x Mini-DisplayPort 1.4a 连接,GPU 还允许您驱动多个显示器。





将 RTX 4000 SFF ADA GPU 与同类其他设备进行比较时,需要注意的是,在单精度模式下运行时,它表现出与最新一代 RTX A4000 GPU 相似的性能,后者的功耗是其两倍(140W vs. 70W)。





ADA RTX 4000 SFF 基于 ADA Lovelace 架构和 5 纳米工艺技术构建。这使得下一代 Tensor Core 和光线追踪核心成为可能,通过提供比 RTX A4000 更快、更高效的光线追踪和 Tensor 核心,显着提高性能。此外,ADA 的 RTX 4000 SFF 采用小型封装 - 该卡长 168 毫米,厚度相当于两个扩展槽。





改进的光线追踪内核可在使用该技术的环境(例如 3D 设计和渲染)中实现高效性能。此外,新GPU的20GB内存容量使其能够处理大型环境。





据制造商介绍,第四代 Tensor 核心可提供极高的 AI 计算性能,比上一代性能提高了一倍。新的 Tensor 核心支持 FP8 加速。这一创新功能可能非常适合那些在基因组学和计算机视觉等环境中开发和部署人工智能模型的人。


还值得注意的是,编码和解码机制的增加使 RTX 4000 SFF ADA 成为视频等多媒体工作负载的良好解决方案。



NVIDIA RTX A4000 和 RTX A5000 显卡、RTX 3090 的技术规格


RTX A4000 ADA

NVIDIA RTX A4000

NVIDIA RTX A5000

RTX 3090

建筑学

艾达·洛夫莱斯

安培

安培

安培

技术流程

5纳米

8纳米

8纳米

8纳米

图形处理器

AD104

GA102

GA104

GA102

晶体管数量(百万)

35,800

17,400

28,300

28,300

内存带宽(Gb/秒)

280.0

第448章

第768章

936.2

显存容量(位)

160

256

第384章

第384章

GPU内存(GB)

20

16

24

24

内存类型

GDDR6

GDDR6

GDDR6

GDDR6X

CUDA 核心

6,144

6 144

8192

10496

张量核心

192

192

256

328

RT 核心

48

48

64

82

SP 性能(万亿次浮点运算)

19.2

19,2

27,8

35,6

RT 核心性能(万亿次浮点运算)

44.3

37,4

54,2

69,5

张量性能(万亿次浮点运算)

306.8

153,4

222,2

第285章

最大功率(瓦)

70

140

230

350

界面

PCIe 4.0×16

PCI-E 4.0 x16

PCI-E 4.0 x16

PCIe 4.0 x16

连接器

4 个迷你 DisplayPort 1.4a

DP 1.4 (4)

DP 1.4 (4)

DP 1.4 (4)

构成因素

2 个插槽

1 个插槽

2 个插槽

2-3个插槽

vGPU软件

是的,无限制

是的。有限制

NVlink

2 个 RTX A5000

是的

CUDA支持

11.6

8.6

8.6

8.6

VULKAN 支持

1.3

是的

是的

是的,1.2

价格(美元)

1,250 人

1000

2500

1400



测试环境描述


RTX A4000 ADA

RTX A4000

中央处理器

AMD 锐龙 9 5950X 3.4GHz(16 核)

八核英特尔至强 E-2288G,3.5 GHz

内存

4 个 32 Gb DDR4 ECC SO-DIMM

2 个 32 GB DDR4-3200 ECC DDR4 SDRAM 1600 MHz

驾驶

1Tb NVMe 固态硬盘

三星 SSD 980 PRO 1TB

母板

华擎 X570D4I-2T

华硕P11C-I系列

操作系统

微软Windows 10

微软Windows 10



检测结果


V-Ray 5 基准测试

得分


得分


V-Ray GPU CUDA 和 RTX 测试测量相对 GPU 渲染性能。 RTX A4000 GPU 略落后于 RTX A4000 ADA(分别为 4% 和 11%)。


机器学习


《狗与猫》

为了比较神经网络 GPU 的性能,我们使用了“狗与猫”数据集 - 该测试分析照片的内容并区分照片显示的是猫还是狗。可以找到所有必要的原始数据这里。我们在不同的 GPU 和云服务上运行此测试,得到以下结果:


在本次测试中,RTX A4000 ADA 的性能略胜 RTX A4000 9%,但请记住新 GPU 的小尺寸和低功耗。



人工智能基准测试


AI-Benchmark 允许您在 AI 模型输出任务期间测量设备的性能。测量单位可能会根据测试的不同而有所不同,但通常是每秒操作数(OPS)或每秒帧数(FPS)。


得分




RTX A4000

RTX A4000 ADA

1/19。移动网络-V2

1.1——推论|批次 = 50,大小 = 224x224:38.5 ± 2.4 ms1.2 — 训练 |批次 = 50,大小 = 224x224:109 ± 4 毫秒

1.1——推论|批次 = 50,大小 = 224x224:53.5 ± 0.7 ms1.2 — 训练 |批次 = 50,大小 = 224x224:130.1 ± 0.6 毫秒

2/19。盗梦空间-V3

2.1 — 推理 |批次 = 20,大小 = 346x346:36.1 ± 1.8 ms2.2 — 训练 |批次 = 20,大小 = 346x346:137.4 ± 0.6 毫秒

2.1 — 推理 |批次 = 20,大小 = 346x346:36.8 ± 1.1 ms2.2 — 训练 |批次=20,大小=346x346:147.5 ± 0.8 毫秒

3/19。盗梦空间-V4

3.1——推理|批次 = 10,大小 = 346x346:34.0 ± 0.9 ms3.2 — 训练 |批次=10,大小=346x346:139.4 ± 1.0 毫秒

3.1——推理|批次 = 10,大小 = 346x346:33.0 ± 0.8 ms3.2 — 训练 |批次=10,大小=346x346:135.7 ± 0.9 毫秒

4/19。 Inception-ResNet-V2

4.1 — 推理 |批次 = 10,大小 = 346x346:45.7 ± 0.6 ms4.2 — 训练 |批次=8,大小=346x346:153.4 ± 0.8 毫秒

4.1 — 推理批次=10,大小=346x346:33.6 ± 0.7 ms4.2 — 训练批次=8,大小=346x346:132 ± 1 ms

5/19。 ResNet-V2-50

5.1 — 推理 |批次 = 10,大小 = 346x346:25.3 ± 0.5 ms5.2 — 训练 |批次 = 10,大小 = 346x346:91.1 ± 0.8 毫秒

5.1 — 推理 |批次 = 10,大小 = 346x346:26.1 ± 0.5 ms5.2 — 训练 |批次 = 10,大小 = 346x346:92.3 ± 0.6 毫秒

6/19。 ResNet-V2-152

6.1 — 推理 |批次 = 10,大小 = 256x256:32.4 ± 0.5 ms6.2 — 训练 |批次=10,大小=256x256:131.4 ± 0.7 毫秒

6.1 — 推理 |批次 = 10,大小 = 256x256:23.7 ± 0.6 ms6.2 — 训练 |批次=10,大小=256x256:107.1 ± 0.9 毫秒

7/19。 VGG-16

7.1 — 推理 |批次 = 20,大小 = 224x224:54.9 ± 0.9 ms7.2 — 训练 |批次=2,大小=224x224:83.6 ± 0.7 毫秒

7.1 — 推理 |批次 = 20,大小 = 224x224:66.3 ± 0.9 ms7.2 — 训练 |批次=2,大小=224x224:109.3 ± 0.8 毫秒

8/19。 SRCNN 9-5-5

8.1 — 推理 |批次 = 10,大小 = 512x512:51.5 ± 0.9 ms8.2 — 推理 |批次 = 1,大小 = 1536x1536:45.7 ± 0.9 ms8.3 — 训练 |批次=10,大小=512x512:183 ± 1 毫秒

8.1 — 推理 |批次 = 10,大小 = 512x512:59.9 ± 1.6 ms8.2 — 推理 |批次 = 1,大小 = 1536x1536:53.1 ± 0.7 ms8.3 — 训练 |批次=10,大小=512x512:176 ± 2 毫秒

9/19。 VGG-19 超高清

9.1 — 推理 |批次 = 10,大小 = 256x256:99.5 ± 0.8 ms9.2 — 推理 |批次 = 1,大小 = 1024x1024:162 ± 1 ms9.3 — 训练 |批次 = 10,大小 = 224x224:204 ± 2 毫秒


10/19。 ResNet-SRGAN

10.1 — 推论 |批次 = 10,大小 = 512x512:85.8 ± 0.6 ms10.2 — 推理 |批次 = 1,大小 = 1536x1536:82.4 ± 1.9 ms10.3 — 训练 |批次 = 5,大小 = 512x512:133 ± 1 毫秒

10.1 — 推论 |批次 = 10,大小 = 512x512:98.9 ± 0.8 ms10.2 — 推理 |批次 = 1,大小 = 1536x1536:86.1 ± 0.6 ms10.3 — 训练 |批次 = 5,大小 = 512x512:130.9 ± 0.6 毫秒

11/19。 ResNet-DPED

11.1 — 推论 |批次 = 10,大小 = 256x256:114.9 ± 0.6 ms11.2 — 推理 |批次 = 1,大小 = 1024x1024:182 ± 2 ms11.3 — 训练 |批次=15,大小=128x128:178.1 ± 0.8 毫秒

11.1 — 推论 |批次 = 10,大小 = 256x256:146.4 ± 0.5 ms11.2 — 推理 |批次 = 1,大小 = 1024x1024:234.3 ± 0.5 ms11.3 — 训练 |批次=15,大小=128x128:234.7 ± 0.6 毫秒

12/19。优网

12.1 — 推论 |批次 = 4,大小 = 512x512:180.8 ± 0.7 ms12.2 — 推理 |批次=1,大小=1024x1024:177.0 ± 0.4 ms12.3 — 训练 |批次=4,大小=256x256:198.6 ± 0.5 毫秒

12.1 — 推论 |批次 = 4,大小 = 512x512:222.9 ± 0.5 ms12.2 — 推理 |批次 = 1,大小 = 1024x1024:220.4 ± 0.6 ms12.3 — 训练 |批次 = 4,大小 = 256x256:229.1 ± 0.7 毫秒

13/19。 Nvidia-SPADE

13.1 — 推论 |批次 = 5,大小 = 128x128:54.5 ± 0.5 ms13.2 — 训练 |批次=1,大小=128x128:103.6 ± 0.6 毫秒

13.1 — 推论 |批次 = 5,大小 = 128x128:59.6 ± 0.6 ms13.2 — 训练 |批次=1,大小=128x128:94.6 ± 0.6 毫秒

14/19。集成电路网

14.1 — 推论 |批次 = 5,大小 = 1024x1536:126.3 ± 0.8 ms14.2 — 训练 |批次 = 10,大小 = 1024x1536:426 ± 9 毫秒

14.1 — 推论 |批次 = 5,大小 = 1024x1536:144 ± 4 ms14.2 — 训练 |批次 = 10,大小 = 1024x1536:475 ± 17 毫秒

15/19。 PSP网络

15.1 — 推论 |批次 = 5,大小 = 720x720:249 ± 12 ms15.2 — 训练 |批次=1,大小=512x512:104.6 ± 0.6 毫秒

15.1 — 推论 |批次 = 5,大小 = 720x720:291.4 ± 0.5 ms15.2 — 训练 |批次=1,大小=512x512:99.8 ± 0.9 毫秒

16/19。深度实验室

16.1 — 推论 |批次 = 2,大小 = 512x512:71.7 ± 0.6 ms16.2 — 训练 |批次=1,大小=384x384:84.9 ± 0.5 毫秒

16.1 — 推论 |批次 = 2,大小 = 512x512:71.5 ± 0.7 ms16.2 — 训练 |批次=1,大小=384x384:69.4 ± 0.6 毫秒

17/19。像素RNN

17.1 — 推论 |批次 = 50,大小 = 64x64:299 ± 14 ms17.2 — 训练 |批次=10,大小=64x64:1258 ± 64 毫秒

17.1 — 推论 |批次 = 50,大小 = 64x64:321 ± 30 ms17.2 — 训练 |批次=10,大小=64x64:1278 ± 74 毫秒

18/19。 LSTM-情感

18.1 — 推论 |批次=100,大小=1024x300:395 ± 11 ms18.2 — 训练 |批次=10,大小=1024x300:676 ± 15 毫秒

18.1 — 推论 |批次=100,大小=1024x300:345 ± 10 ms18.2 — 训练 |批次=10,大小=1024x300:774 ± 17 毫秒

19/19。 GNMT-翻译

19.1 — 推论 |批次=1,大小=1x20:119 ± 2 毫秒

19.1 — 推论 |批次=1,大小=1x20:156 ± 1 毫秒


该测试结果表明,RTX A4000 的性能比 RTX A4000 ADA 高出 6%,但需要注意的是,测试结果可能会根据具体任务和所采用的操作条件而有所不同。


火炬


RTX A 4000

标杆管理

模型平均训练时间(毫秒)

训练双精度类型mnasnet0_5

62.995805740356445

训练双精度类型mnasnet0_75

98.39066505432129

训练双精度类型mnasnet1_0

126.60405158996582

训练双精度类型mnasnet1_3

186.89460277557373

训练双精度类型resnet18

428.08079719543457

训练双精度类型resnet34

883.5790348052979

训练双精度类型resnet50

1016.3950300216675

训练双精度类型resnet101

1927.2308254241943

训练双精度类型resnet152

2815.663013458252

训练双精度类型resnext50_32x4d

1075.4373741149902

训练双精度类型resnext101_32x8d

4050.0641918182373

训练双精度类型wide_resnet50_2

2615.9953451156616

训练双精度类型wide_resnet101_2

5218.524832725525

训练双精度类型densenet121

751.9759511947632

训练双精度类型densenet169

910.3225564956665

训练双精度类型densenet201

1163.036551475525

训练双精度类型densenet161

2141.505298614502

训练双精度类型squeezenet1_0

203.14435005187988

训练双精度类型squeezenet1_1

98.04857730865479

训练双精度类型vgg11

1697.710485458374

训练双精度类型vgg11_bn

1729.2972660064697

训练双精度类型vgg13

2491.615080833435

训练双精度类型vgg13_bn

2545.1631927490234

训练双精度类型vgg16

3371.1953449249268

训练双精度类型vgg16_bn

3423.8639068603516

训练双精度类型vgg19_bn

4314.5153522491455

训练双精度类型vgg19

4249.422650337219

训练双精度类型mobilenet_v3_large

105.54619789123535

训练双精度类型mobilenet_v3_small

37.6680850982666

训练双精度类型 shufflenet_v2_x0_5

26.51611328125

训练双精度类型shufflenet_v2_x1_0

61.260504722595215

训练双精度类型 shufflenet_v2_x1_5

105.30067920684814

训练双精度类型shufflenet_v2_x2_0

181.03694438934326

推理双精度类型 mnasnet0_5

17.397074699401855

推理双精度类型 mnasnet0_75

28.902697563171387

推理双精度类型 mnasnet1_0

38.387718200683594

推理双精度类型 mnasnet1_3

58.228821754455566

推理双精度类型resnet18

147.95727252960205

推理双精度类型resnet34

293.519492149353

推理双精度类型resnet50

336.44991874694824

推理双精度类型resnet101

637.9982376098633

推理双精度类型resnet152

948.9351654052734

推理双精度类型 resnext50_32x4d

372.80876636505127

推理双精度类型 resnext101_32x8d

1385.1624917984009

推理双精度类型wide_resnet50_2

873.048791885376

推理双精度类型wide_resnet101_2

1729.2765426635742

推理双精度类型densenet121

270.13323307037354

推理双精度类型densenet169

327.1932888031006

推理双精度型densenet201

414.733362197876

推理双精度类型densenet161

766.3542318344116

推理双精度类型squeezenet1_0

74.86292839050293

推理双精度类型squeezenet1_1

34.04905319213867

推理双精度类型 vgg11

576.3767147064209

推理双精度类型 vgg11_bn

580.5839586257935

推理双精度类型 vgg13

853.4365510940552

推理双精度类型 vgg13_bn

860.3136301040649

推理双精度类型 vgg16

1145.091052055359

推理双精度类型 vgg16_bn

1152.8028392791748

推理双精度类型 vgg19_bn

1444.9562692642212

推理双精度类型 vgg19

1437.0987701416016

推理双精度类型 mobilenet_v3_large

30.876317024230957

推理双精度类型 mobilenet_v3_small

11.234536170959473

推理双精度类型 shufflenet_v2_x0_5

7.425284385681152

推理双精度类型 shufflenet_v2_x1_0

18.25782299041748

推理双精度类型 shufflenet_v2_x1_5

33.34946632385254

推理双精度类型 shufflenet_v2_x2_0

57.84676551818848


RTX A4000 ADA


标杆管理

模型平均列车时间

训练半精度类型mnasnet0_5

20.266618728637695

训练半精度类型mnasnet0_75

21.445374488830566

训练半精度类型mnasnet1_0

26.714019775390625

训练半精度类型mnasnet1_3

26.5126371383667

训练半精度类型resnet18

19.624991416931152

训练半精度类型resnet34

32.46446132659912

训练半精度型resnet50

57.17473030090332

训练半精度型resnet101

98.20127010345459

训练半精度类型resnet152

138.18389415740967

训练半精度类型resnext50_32x4d

75.56005001068115

训练半精度类型resnext101_32x8d

228.8706636428833

训练半精度类型wide_resnet50_2

113.76442432403564

训练半精度类型wide_resnet101_2

204.17311191558838

训练半精度类型densenet121

68.97401332855225

训练半精度类型densenet169

85.16453742980957

训练半精度型densenet201

103.299241065979

训练半精度类型densenet161

137.54578113555908

训练半精度类型squeezenet1_0

16.71830177307129

训练半精度类型squeezenet1_1

12.906527519226074

训练半精度类型vgg11

51.7004919052124

训练半精度类型vgg11_bn

57.63327598571777

训练半精度类型vgg13

86.10869407653809

训练半精度类型vgg13_bn

95.86676120758057

训练半精度类型vgg16

102.91589260101318

训练半精度类型vgg16_bn

113.74778270721436

训练半精度类型vgg19_bn

131.56734943389893

训练半精度类型vgg19

119.70191955566406

训练半精度类型mobilenet_v3_large

31.30636692047119

训练半精度类型mobilenet_v3_small

19.44464683532715

训练半精度类型shufflenet_v2_x0_5

13.710575103759766

训练半精度类型shufflenet_v2_x1_0

23.608479499816895

训练半精度类型shufflenet_v2_x1_5

26.793746948242188

训练半精度类型shufflenet_v2_x2_0

24.550962448120117

推理半精度类型 mnasnet0_5

4.418272972106934

推理半精度类型 mnasnet0_75

4.021778106689453

推理半精度类型 mnasnet1_0

4.42598819732666

推理半精度类型 mnasnet1_3

4.618926048278809

推理半精度类型resnet18

5.803341865539551

推理半精度类型resnet34

9.756693840026855

推理半精度型resnet50

15.873079299926758

推理半精度型resnet101

28.268003463745117

推理半精度类型resnet152

40.04594326019287

推理半精度类型 resnext50_32x4d

19.53421115875244

推理半精度类型 resnext101_32x8d

62.44826316833496

推理半精度类型wide_resnet50_2

33.533992767333984

推理半精度类型wide_resnet101_2

59.60897445678711

推理半精度类型densenet121

18.052735328674316

推理半精度类型densenet169

21.956982612609863

推理半精度型densenet201

27.85182476043701

推理半精度类型densenet161

37.41891860961914

推理半精度类型squeezenet1_0

4.391803741455078

推理半精度类型squeezenet1_1

2.4281740188598633

推理半精度类型 vgg11

17.11493968963623

推理半精度类型 vgg11_bn

18.40585231781006

推理半精度类型 vgg13

28.438148498535156

推理半精度类型 vgg13_bn

30.672597885131836

推理半精度类型 vgg16

34.43562984466553

推理半精度类型 vgg16_bn

36.92122936248779

推理半精度类型 vgg19_bn

43.144264221191406

推理半精度类型 vgg19

40.5385684967041

推理半精度类型 mobilenet_v3_large

5.350713729858398

推理半精度类型 mobilenet_v3_small

4.016985893249512

推理半精度类型 shufflenet_v2_x0_5

5.079126358032227

推理半精度类型 shufflenet_v2_x1_0

5.593156814575195

推理半精度类型 shufflenet_v2_x1_5

5.649552345275879

推理半精度类型 shufflenet_v2_x2_0

5.355663299560547

训练双精度类型mnasnet0_5

50.2386999130249

训练双精度类型 mnasnet0_75

80.66896915435791

训练双精度类型 mnasnet1_0

103.32422733306885

训练双精度类型 mnasnet1_3

154.6230697631836

训练双精度类型resnet18

337.94031620025635

训练双精度类型resnet34

677.7706575393677

训练双精度类型resnet50

789.9243211746216

训练双精度类型resnet101

1484.3351316452026

训练双精度类型resnet152

2170.570478439331

训练双精度类型resnext50_32x4d

877.3719882965088

训练双精度类型resnext101_32x8d

3652.4944639205933

训练双精度类型wide_resnet50_2

2154.612874984741

训练双精度类型wide_resnet101_2

4176.522083282471

训练双精度类型densenet121

607.8699731826782

训练双精度类型densenet169

744.6409797668457

训练双精度类型densenet201

962.677731513977

训练双精度类型densenet161

1759.772515296936

训练双精度类型squeezenet1_0

164.3690824508667

训练双精度类型squeezenet1_1

78.70647430419922

训练双精度类型vgg11

1362.6095294952393

训练双精度类型vgg11_bn

1387.2539138793945

训练双精度类型vgg13

2006.0230445861816

训练双精度类型vgg13_bn

2047.526364326477

训练双精度类型vgg16

2702.2086429595947

训练双精度类型vgg16_bn

2747.241234779358

训练双精度类型vgg19_bn

3447.1724700927734

训练双精度类型vgg19

3397.990345954895

训练双精度类型mobilenet_v3_large

84.65698719024658

训练双精度类型mobilenet_v3_small

29.816465377807617

训练双精度类型 shufflenet_v2_x0_5

27.401342391967773

训练双精度类型shufflenet_v2_x1_0

48.322744369506836

训练双精度类型 shufflenet_v2_x1_5

82.22103118896484

训练双精度类型shufflenet_v2_x2_0

141.7021369934082

推理双精度类型 mnasnet0_5

12.988653182983398

推理双精度类型 mnasnet0_75

22.422199249267578

推理双精度类型 mnasnet1_0

30.056486129760742

推理双精度类型 mnasnet1_3

46.953935623168945

推理双精度类型resnet18

118.04479122161865

推理双精度类型resnet34

231.52336597442627

推理双精度类型resnet50

268.63497734069824

推理双精度类型resnet101

495.2010440826416

推理双精度类型resnet152

726.4922094345093

推理双精度类型 resnext50_32x4d

291.47679328918457

推理双精度类型 resnext101_32x8d

1055.10901927948

推理双精度类型wide_resnet50_2

690.6917667388916

推理双精度类型wide_resnet101_2

1347.5529861450195

推理双精度类型densenet121

224.35829639434814

推理双精度类型densenet169

268.9145278930664

推理双精度型densenet201

343.1972026824951

推理双精度类型densenet161

635.866231918335

推理双精度类型squeezenet1_0

61.92759037017822

推理双精度类型squeezenet1_1

27.009410858154297

推理双精度类型 vgg11

462.3375129699707

推理双精度类型 vgg11_bn

468.4495782852173

推理双精度类型 vgg13

692.8219032287598

推理双精度类型 vgg13_bn

703.3538103103638

推理双精度类型 vgg16

924.4353818893433

推理双精度类型 vgg16_bn

936.5075063705444

推理双精度类型 vgg19_bn

1169.098300933838

推理双精度类型 vgg19

1156.3771772384644

推理双精度类型 mobilenet_v3_large

24.2356014251709

推理双精度类型 mobilenet_v3_small

8.85490894317627

推理双精度类型 shufflenet_v2_x0_5

6.360034942626953

推理双精度类型 shufflenet_v2_x1_0

14.301743507385254

推理双精度类型 shufflenet_v2_x1_5

24.863481521606445

推理双精度类型 shufflenet_v2_x2_0

43.8505744934082


结论

事实证明,新显卡是许多工作任务的有效解决方案。由于其紧凑的尺寸,它非常适合功能强大的 SFF(小型)计算机。此外,值得注意的是,6,144 个 CUDA 核心和 20GB 内存以及 160 位总线使该卡成为市场上生产力最高的卡之一。此外,70W的低TDP有助于降低功耗成本。四个 Mini-DisplayPort 端口允许该卡与多个显示器一起使用或作为多通道图形解决方案。


RTX 4000 SFF ADA 比前几代产品取得了重大进步,其性能相当于卡的两倍,功耗却是后者的两倍。 RTX 4000 SFF ADA 无需 PCIe 电源连接器,可轻松集成到低功耗工作站中,而无需牺牲高性能。