新闻中心 - 深圳亿时空科技有限公司

NVIDIA AI推理平台实现AI服务性能及效率巨大飞跃

发布时间：2019-08-01 13:55:00

人工智能革命如火如荼，为企业带来新的机遇，使他们能够另辟蹊径来解决客户面临的挑战。我们正在奔向一个AI遍地开花的未来，届时每次客户互动、每件产品和每项服务都将融入AI并借助AI实现改进。若要实现这一梦想，我们需要能够加速各种现代AI应用的计算平台，使企业能够创造新的客户体验，重新审视他们如何满足和超越客户需求，以及以经济高效的方式扩展其基于AI的产品和服务。

虽然机器学习领域已历经数十年进步，但深度学习 (DL) 在最近六年才开始蓬勃发展。2012 年，多伦多大学的Alex Krizhevsky凭借使用NVIDIA GPU训练的深度神经网络在ImageNet图像识别大赛中一举夺魁，战胜了所有人类专家呕心沥血数十载研究出的算法。同年，斯坦福大学的吴恩达在认识到“网络越大，认知越广”后，与NVIDIA Research团队合作开发出一种使用大型GPU计算系统训练网络的方法。这些开创性论文迅速点燃现代AI的爆发式发展，进而引发一系列“超人”般的成就。2015 年，Google和Microsoft在ImageNet挑战赛中均超越了人类的最高得分。2016 年，DeepMind的AlphaGo打破历史纪录，战胜了围棋冠军李世石，同时Microsoft的语音识别能力已达到人类水准。

GPU已经证明它们能够极有效地解决某些最复杂的深度学习问题，虽然NVIDIA深度学习平台是业界标准的训练解决方案，但其推理能力并非广为人知。从数据中心到终端，部分全球领先企业已使用NVIDIA GPU构建其推理解决方案。

其中包括以下案例：

SAP的品牌影响力服务已实现40倍的增长，同时其成本降低到原来的 1/32。

Bing视觉搜索已将延迟时间缩短到原来的1/60，并将自身成本降低到 1/10。

思科的Spark Board和Spark Room Kit采用NVIDIA Jetson GPU，已实现无线4K视频共享，同时运用深度学习提供语音和面部识别功能。

TensorRT超大规模推理平台

NVIDIA TensorRT超大规模推理平台旨在让世界各地的每一位开发者和数据科学家都能运用深度学习。该平台率先采用世界精尖的 AI 推理加速器：配备NVIDIA Turing Tensor核心的NVIDA Tesla T4 GPU。Tesla T4依托NVIDIA的全新 Turing架构，能够加速适用于图像、语音、翻译和推荐系统等各种领域的神经网络。Tesla T4支持各种精度，并能加速各大DL框架，包括TensorFlow、PyTorch、MXNet、Chainer和Caffe2。

强大的硬件需要精尖软件的加持，作为高性能深度学习推理平台，NVIDIA TensorRT能为图像分类、分割、物体检测、机器语言翻译、语音和推荐引擎等应用程序提供低延迟、高吞吐量推理。它可以快速优化、验证和部署经过训练的神经网络，从而在超大型数据中心、嵌入式GPU或车用GPU平台上开展推理工作。TensorRT优化程序和运行时支持Turing GPU在各类精度水平下发挥出色性能，从FP32到INT8无一不及。此外TensorRT还集成有TensorFlow，能够支持各类采用ONNX格式的主要框架。

基于 NVIDIA Turing 架构的

Tesla T4 Tensor 核心 GPU

NVIDIA Tesla T4 GPU是全球顶级加速器，适用于所有AI推理工作负载。T4搭载 NVIDIA Turing Tensor核心，能够提供革命性的多精度推理性能以加速各种的现代AI应用程序。T4是NVIDIA AI推理平台的组成部分，能够支持各类AI框架并提供全面的工具和集成功能，从而大幅简化高级AI的开发和部署工作。

Turing Tensor核心专为加速 AI 推理而构建，并且Turing GPU还继承了NVIDIA Volta架构为NVIDIA CUDA平台引入的所有增强功能，从而提升计算应用程序的能力、灵活度、效率和可移植性。Turing GPU架构拥有诸多特性，包括独立线程调度、具有多应用程序地址空间隔离的硬件加速多进程服务 (MPS)、统一内存寻址和地址转换服务以及协作组等。

TensorRT 5 特性

NVIDIA TensorRT超大规模推理平台是一款完整的推理解决方案，包括前沿的Tesla T4推理加速器、TensorRT 5高性能深度学习推理优化器和运行时以及TensorRT推理服务。此款强大的三合一解决方案能够为深度学习推理应用程序提供低延迟和高吞吐量，并能支持它们进行快速部署。该平台还可利用Kubernetes等工具，在多个主机上快速扩展容器化应用程序。借助TensorRT 5，我们能够优化且精确校准低精度神经网络模型的准确度，并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台。在对各大框架中训练的模型进行推理时，GPU上基于TensorRT的应用程序推理性能最高可达CPU的50倍。