第5节量化 LMDeploy

今天我们开始第5节课的学习啦！第5节课打卡DDL：1月19日（周五）晚20:30 第5节课内容：使用 LMDeploy 量化部署你的 InternLM 大模型，体验极致的推理速度和显存优化文档：https://github.com/InternLM/tutorial/blob/vansin-patch-4/lmdeploy/lmdeploy.md 视频：https://www.bilibili.com/video/BV1iW4y1A77P 第5节课(15班)作业提交地址：https://github.com/InternLM/tutorial/discussions/95 第5节课(15班)笔记提交地址：https://github.com/InternLM/tutorial/discussions/40

作业

基础作业：

进阶作业（可选做）

将第四节课训练自我认知小助手模型使用 LMDeploy 量化部署到 OpenXLab 平台。
对internlm-chat-7b模型进行量化，并同时使用KV Cache量化，使用量化后的模型完成API服务的部署，分别对比模型量化前后（将 bs设置为 1 和 max len 设置为512）和 KV Cache 量化前后（将 bs设置为 8 和 max len 设置为2048）的显存大小。
在自己的任务数据集上任取若干条进行Benchmark测试，测试方向包括：（1）TurboMind推理+Python代码集成（2）在（1）的基础上采用W4A16量化（3）在（1）的基础上开启KV Cache量化（4）在（2）的基础上开启KV Cache量化（5）使用Huggingface推理

Untitled

挑战

Untitled

LMDeploy

Untitled

1 量化的作用

Untitled

大模型是内存性任务

Untitled

核心算法 MIT AWQ or GPTQ