TensorRT周りは色々ややこしい。。 TensorFlowに組み込まれたTensorRTがあり、これをTF-TRTという。 TensorRT(TRT)はNVIDIAが開発している深層学習を高速に推論するためのライブラリ。
TF-TRTはTensorRTが対応している部分のみTensorRT化して推論する。 ここで気になるのはモデルのすべての層がTensorRTに変換できる時に、 TF-TRTを使った場合とTRTを使った場合で速度差があるか。
以下ではNVIDIA公式アカウントがTRT vs TF-TRTのベンチマークを取っている途中だと書いてあるが続報はなし。
見つけた中では以下で速度比較がされていた。これによるとTRT>TF-TRT>TFになり、それぞれの速度差も無視できる範囲ではなさそう。 ただし、すべての層がTensorRTに変換できているかは不明。
https://on-demand.gputechconf.com/gtc-cn/2019/pdf/CN9456/presentation.pdf