在计算机视觉与模式识别(CVPR)大会上,NVIDIA发布了TensorRT 4,它能够加速常见推理应用,如神经机器翻译、推荐系统和语音。用户还可通过ONNX格式轻松地从常见的深度学习框架(如Caffe 2、Chainer、MxNet、Microsoft Cognitive Toolkit和PyTorch)导入模型。
TensorRT特性包括:
• 借助针对多层感知器(MLP)和递归神经网络(RNN)的新层,吞吐量高达CPU的45倍
• 对于TensorRT中使用ONNX解析器导入的ONNX模型,在Tesla V100 GPU上的推理性能相当于仅使用CPU的50倍
• 支持面向自动驾驶汽车的AI计算平台NVIDIA DRIVE Xavier
• 借助用于在Volta Tensor Core上运行的API,FP16自定义图层可实现3倍的推理加速
其他功能包括可使用FP16精度执行自定义神经网络层,以及通过NVIDIA DRIVE AI平台支持Xavier SoC。
TensorRT 4面向NVIDIA Registered Developer Program的所有成员开放,可在TensorRT产品页面免费下载。