模型量化算法原理历史版本:

上次修改时间: 2024-07-19 15:05:05

int8）一般都会有精度损失，而反量化（int8-->float32）一般没有信息损失，float32 能保存的数值范围本身就比 uint8 多，因此必定有大量数值无法用 uint8 表示，只能四舍五入成 uint8 型的数值，量化模型和全精度模型的误差也来自四舍五入的 clip 操作\n\n量化的好处包括以下几个方面：\n- 更少的存储开销及带宽需求（float32-->8bit 一般会有 4 倍的模型压缩及内存带宽的提升）\n- 更快的计算速度（对大多数处理器而言，整型运算的速度一般比浮点运算快）\n- 更低的功耗和占用面积，省电费（很多硬件设备，内存访问是主要能耗）\n\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/db068342-4597-11ef-8483-00163e13fc6a.png)\n\n
\n\n\n量化分类: 目前学术界的量化方法都过于花俏，能落地的极少，工业界广泛使用有如下两种：
\n- 后训练量化（Post Training Quantization）：使用 KL 散度、滑动平均等方法确定量化参数且不需要重新训练的定点量化方法\n- 量化感知训练（Quantization Aware Training）：训练过程中对量化进行建模以确定量化参数，它与 Post Training Quantization 模式相比可以提供更高的预测精度（利用 z直通估计器-STE 进行量化重训，解决部分量化算子为0，网络无法更新的问题）\n\n\n量化处理流程：
\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/f0cece10-4597-11ef-8483-00163e13fc6a.png)\n\n
\n\n#### 二、量化原理\n\n##### 1、线性量化公式\n\n常见的线性量化过程可用如下公式表示：
\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/fe583bfe-4597-11ef-8483-00163e13fc6a.png)\n\n
\n\n其中，$R$ 表示真实的浮点值，$Q$ 表示量化后的定点值，$Z$ 表示浮点值 $0$ 对应的量化定点值，$S$则为量化的缩放因子(整数和实数的比例)，我们要做的就是确定合适的$S$ 和 $Z$ 后进行量化处理
\n反量化公式如下：
\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/2c26858e-4598-11ef-8483-00163e13fc6a.png)\n\n
\n\n##### 线性量化分类\n根据 $Z$ 是否为 $Q$，可将线性量化分为两类：对称量化(max-abs 量化)和非对称量化(min-max 量化)
\n\n\n对称量化(max-abs 量化)：
\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/595135b1-4598-11ef-8483-00163e13fc6a.png)\n\n
\n\n在对称量化中，$Q$是用有符号整型数值来表示的，此时$Z=0$，且$R=0$时，恰有$Q =0$，此时缩放因子$S$ 可取：\n\n
\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/7b8386f3-4598-11ef-8483-00163e13fc6a.png)\n\n
\n\n其中，n 为量化后数值的位宽，x 表示浮点样本的值\n
\n\n\n非对称量化(min-max 量化)：
\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/911816fe-4598-11ef-8483-00163e13fc6a.png)\n\n
\n\n在非对称量化中，$Q$ 是用无符号整型数值来表示的，此时![image.png](https://www.testingcloud.club/sapi/api/image_download/a7de36fa-4598-11ef-8483-00163e13fc6a.png) ，此时缩放因子 $S$ 和偏移量 $Z$ 可取：
\n\n![image.png](https://www.testingcloud.club/sapi/api/image_download/b4d99413-4598-11ef-8483-00163e13fc6a.png)\n\n
\n\n其中，n 为量化后数值的位宽，x 表示浮点样本的值\n##### 线性量化的粒度\n\n- 逐层量化：以层为单位，整个 layer 共用一组缩放因子 $S$ 和偏移量 $Z$ ，通常对激活做逐层量化\n- 逐通道量化：以通道为单位，每个 channel 使用一组缩放因子 $S$ 和偏移量 $Z$，通常对权重做逐通道量化\n- 逐组量化：以组为单位，每个 group 使用一组缩放因子 $S$ 和偏移量 $Z$，当 group = 1 时，逐组量化与逐层量化等价，当 group = num_filters 时，逐组量化与逐通道量化等价\n\n\n##### 三、SNPE 量化简介\n\nDefault Quantization Mode\n\n```\n--bias_bitwidth=\n\nselect the bitwidth to use when quantizing the biases, either 8 (default) or 32\nUsing 32 bit biases may sometimes provide a small improvement in accuracy. Can’t mix with --bitwidth\n--weights_bitwidth=\n\nselect the bitwidth to use when quantizing the weights, either 8 (default) or 16\n8w/16a is only supported by the HTA currently. Can’t mix with --bitwidth\n--bias_bitwidth=\n\nselect the bitwidth to use when quantizing the activations, either 8 (default) or 16\n8w/16a is only supported by the HTA currently. Can’t mix with --bitwidth\n--weights_bitwidth=\n\nselect the bitwidth to use when quantizing the weights/activation/bias, either 8 (default) or 16\nCan’t mix with --weights_bitwidth or --act_bitwidth or --bias_bitdwith\n\n```\n\n默认量化方式采用的是：非对称量化(min-max 量化)，原理如下：
\n\n首先，从输入浮点数据（R）中得到最小值和最大值（差值要大于 0.01），计算缩放因子（S ）
\n其次，调整上一步浮点的最小值和最大值为 encoding-min（表示定点 0）和 encoding-max（表示定点 255），使得浮点的 0 能够精确的表示
\n输入全是正数，如 [ 5.0 , 10.0 ] [5.0, 10.0][5.0,10.0]， encoding-min 设置为 0， encoding-max 为 10.0
\n\n输入全是负数，如 [ − 20.0 , − 6.0 ] [-20.0, -6.0][−20.0,−6.0] ， encoding-max设置为 0，encoding-min 为 -20.0
\n\n输入既有正数又有负数，如 [ − 5.1 , 5.1 ] [-5.1, 5.1][−5.1,5.1]，缩放因子 S 为 255 / 10.2 = 25 255/10.2=25255/10.2=25，偏移量 Z 为 − 25 ∗ − 5.1 = 127.5 -25*-5.1=127.5−25∗−5.1=127.5，不为正数，偏移量取 Round 后是 128，反推回去encoding-min 变为 128 / ( − 25 ) = − 5.12 128/(-25) = 5.12128/(−25)=−5.12，为保证最大值和最小值差值不变，encoding-max 调整为 5.08 5.085.08
\n最后，根据根据公式 $Q=Round(S∗R+Z)$进行量化处理得到量化后的数据
\n\n\n```\n# 量化示例 Q = Round(S * R + Z)\ninput values = [-1.8, -1.0, 0, 0.5]\n缩放因子: S = 255 / (0.5 + 1.8) = 110.869565\n偏移量: Z = -110.869565 * (-1.8) = 199,565217，Round(Z) = 200\n反推回去： encoding-min = 200 / (-110.869565) = -1.803922\n最大值和最小值差值不变：encoding-max = 2.3 - 1.803922 = 0.496078\n-1.8 量化后的定点值为：0\n-1.0 量化后的定点值为：Round(-1.0*110.869565 + 200) = 89\n 0 量化后的定点值为：200\n 0.5 量化后的定点值为：255\nquantized values are [0, 89, 200, 255] \n\n\n# 反量化示例 R = (Q - Z) / S\nquantized values = [0, 89, 200, 255] \n 0 反量化后的浮点值为：(0- 200) / 110.869565 = -1.8039\n 89 反量化后的浮点值为：(89 - 200) / 110.869565 = -1.0012\n200 反量化后的浮点值为：0.0000\n255 反量化后的浮点值为：(255 - 200) / 110.869565 = 0.4961\n\n``` -->

0条评�?

发表评论

全部评论

关于博主

an actually real engineer

通信工程专业毕业,7年开发经验

技术栈:

精通c/c++

精通golang

熟悉常见的脚本,js,lua,python,php

熟悉电路基础,嵌入式,单片机

耕耘领域:

服务端开发

嵌入式开发

git

gin接口代码CURD生成工具

模型名称

通用返回值

分页查找批量更新 GORM

sql ddl to struct and markdown,将sql表自动化生成代码内对应的结构体和markdown表格格式,节省宝贵的时间。

输入ddl:

输出代码:

qt .ui文件转css文件

duilib xml 自动生成绑定控件代码

协议调试器

基于lua虚拟机的的协议调试器软件支持的协议有:

串口

tcp客户端/服务端

udp 组播/udp节点

tcp websocket 客户端/服务端

软件界面

使用例子: 通过脚本来获得接收到的数据并写入文件和展示在界面上

下载地址和源码

duilib版本源码 qt qml版本源码二进制包

webrtc easy demo

webrtc c++ native 库 demo 实现功能:

基于QT

webrtc摄像头/桌面捕获功能

opengl渲染/多播放窗格管理

janus meeting room

下载地址和源码

源码二进制包

wifi,蓝牙 - 无线开关

实现功能:

通过wifi/蓝牙实现远程开关电器或者其他电子设备

电路原理图:

实物图:

深度学习验证工具

vtk+pcl 点云编辑工具

实现功能:

1. 点云文件加载显示(.pcd obj stl)

2. 点云重建

3. 点云三角化

4. 点云缩放

下载地址:

源码二进制包

虚拟示波器

硬件实物图:

实现原理

基本性能

采集频率: 取决于外部adc模块和ebaz4205矿板的以太网接口速率,最高可以达到100M/8 约为12.5MPS

上位机实现功能: 采集,显示波形,存储wave文件。

参数可运行时配置

上位机:

显示缓冲区大小可调

刷新率可调节

触发显示刷新可调节

进程守护工具

基本功能:

1. 守护进程,被守护程序崩溃后自动重启。

2. 进程输出获取,显示在编辑框中。

二进制包

openblt 烧录工具

基本功能:

1. 加载openblt 文件,下载到具有openblt bootloader 运行的单片机中。

二进制包

opencv 功能验证工具(开源项目二次开发)

基本功能:

1. 插件化图像处理流程,支持自定义图像处理流程。 2. 完善的日志和权限管理

二进制包

又一个modbus调试工具

最近混迹物联网企业,发现目前缺少一个简易可用的modbus调试工具,本软件旨在为开发者提供一个简单modbus测试工具。
主打一个代码简单易修改。
特点:

1. 基于QT5

2. 基于libmodbus

3. 三方库完全跨平台,linux/windows。

二进制包

屏幕录制工具

1. 基于QT5

2. 基于ffmpeg

3. 支持自定义录屏

源代码

开源plutosdr 板卡

1. 完全开源

2. 提高固件定制服务

3. 硬件售价450 手焊产量有线

测试数据

内部DDS回环测试

接收测试

外部发送500MHZ FM波形

硬件原理图

matlab测试

2TRX版本

大部分plutosdr应用场景都是讲plutosdr板卡作为射频收发器来使用。
实际上plutosdr板卡本身运行linux 操作系统。是具有一定脱机运算的能力。对于一些微型频谱检测,简单射频信号收发等应用完全可以将应用层直接实现在板卡上
相较于通过网卡或者USB口传输具有更稳定,带宽更高等优点。
本开源板卡由于了SD卡启动,较原版pluto支持了自定义启动应用的功能。
提供了应用层开发SDK(编译器，buildroot文件系统)。
通过usb连接电脑,经过RNDIS驱动可以近似为通过网卡连接
(支持固件的开发定制)。

二次开发例子

``` all:
arm-linux-gnueabihf-gcc -mfloat-abi=hard --sysroot=/root/v0.32_2trx/buildroot/output/staging -std=gnu99 -g -o pluto_stream ad9361-iiostream.c -lpthread -liio -lm -Wall -Wextra -lrt
clean:
rm pluto_stream

bsdiff算法补丁生成器

1. 官方bsdiff算法例子自带bzip压缩方式

2. 本例子没有压缩,直接生成补丁文件

3. 图形化界面基于DUILIB

二进制文件

版面分析即分析出图片内的具体文件元素,如文档标题,文档内容,文档页码等,本工具基于cnstd模型