量化技术——精度与效率的权衡

交互式体验FP32→INT8→INT4量化过程

Q(x) = round(x/S) + Z, S = (xmax-xmin)/(2^b-1)
模式: FP32原始 | 位宽: 32bit
FP32全精度:23位尾数,8位指数
量化:降低位宽,减少内存和计算量