新款NVIDIA Pascal GPU加速深度学习推理

作者： CBISMB

责任编辑：阚智

来源： ISMB

时间： 2016-09-13 16:35

关键字： NVIDIA 深度学习

点赞： 0

收藏： 0

在9月13日的GPU技术大会上NVIDIA宣布，旗下基于Pascal架构的深度学习平台再添新成员：新款NVIDIA Tesla P4和P40 GPU加速器及新软件带来大幅飙升的效率和速度，能更快速地处理人工智能服务的推理工作负载。

NVIDIA联合创始人、总裁兼首席执行官黄仁勋先生向大家介绍新款Tesla P4和P40加速器

语音激活的帮助、垃圾邮件过滤器以及电影和产品推荐引擎等现代AI服务正迅速变得更复杂，需要的计算能力比一年前的神经网络最高高出10倍。目前基于CPU的技术无法提供现代AI服务所需的实时响应能力，导致用户体验较差。

Tesla P4和P40专门设计为执行推理，也即使用经过训练的深度神经网络来识别语音、图像或文字，以响应用户和设备的查询。这两款GPU基于Pascal架构，包含基于8位(INT8)数据的专用推理指令，响应速度比CPU快45倍，并且比发布尚不满一年的GPU解决方案快4倍。

Tesla P4为超大规模数据中心提供极高的能效。它外形小巧，能装入大多数服务器中，而且功耗极低（初始功率只有50瓦特），能效与处理推理工作负载的CPU相比提高40倍。对于视频推理工作负载，一台配备单个Tesla P4的服务器可以取代13台CPU服务器，而且总体拥有成本（包括服务器成本和电力成本）可节省超过800%。

Tesla P40提供非常高的深度学习工作负载处理能力。它包含的INT8指令带来47万亿次运算/秒(TOPS)的推理性能，使得一台配备八个Tesla P40加速器的服务器在性能上可以取代超过140台CPU服务器。按每台服务器的成本大约5,000美元计算，仅服务器购置成本就能节省超过65万美元。

NVIDIA加速计算事业部总经理Ian Buck说道：“凭借Tesla P100以及今天推出的Tesla P4和P40，NVIDIA为数据中心带来了极其罕见的端到端深度学习平台，让各行各业都能淋漓尽致地发挥AI的巨大潜能。它们使训练时间从几天缩短到几小时，让用户能立即洞察玄机，还能实时响应消费者的询问，向他们提供意见或建议。”

能加快推理速度的软件工具

两款创新的软件助力Tesla P4和P40，显著加快AI推理速度，它们就是：NVIDIA TensorRT和NVIDIA DeepStream SDK。

TensorRT是为优化将部署到生产环境的深度学习模型而创建的库，能即时响应极其复杂的网络。它通常以32位或16位数据的形式获取接受训练的神经网络，并针对降低了精度的INT8操作优化这些网络，从而最大程度地提高深度学习应用程序的处理能力和效率。

NVIDIA DeepStream SDK利用Pascal服务器的强大功能同时对最多达93路的高清视频流进行实时解码和分析，相比之下，双CPU服务器只能对7路视频流这样做。这解决了AI领域的一大挑战：在自动驾驶汽车、交互式机器人、过滤和广告投放等应用场合下，理解大批量的视频内容。通过将深度学习能力集成到视频应用程序中，公司能够提供以前不可能提供的创新型智能视频服务。

让客户的服务水平实现飞跃

如今，NVIDIA客户提供越来越新颖的AI服务，这些服务需要极高的计算性能。

百度高级研究人员Greg Diamos说道：“向每个用户提供简单和快速响应的体验对我们很重要。我们在生产环境中部署了NVIDIA GPU，提供由AI驱动的服务，例如我们的Deep Speech 2系统。通过使用GPU，响应速度达到了未经加速的服务器不可企及的水平。具备INT8功能的Pascal将实现更大的飞跃，我们期待它能给用户带来更好的体验。”

规格

以下是Tesla P4和P40 GPU的规格：

开启加速频率

供货情况

NVIDIA Tesla P4和P40分别计划在11月和10月供货，到时会安装在原始设计制造商(ODM)、原始设备制造商(OEM)和渠道合作伙伴提供的合格服务器中。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

新款NVIDIA Pascal GPU加速深度学习推理

相关推荐

智库专家

解决方案