4×4行列のFMAを1サイクルで行う演算コアです。入力はfp16、出力はfp32です。

D = AB + C

D: fp16 or fp32
A and B: fp16
C: fp16 or fp32

参考:nvidia programming tensor cores in cuda9