借着热点,简单聊聊大模型的部署方案,作为一个只搞过CV部署的算法工程师,在最近LLM逐渐改变生活的大背景下,猛然意识到LLM部署也是很重要的。大模型很火,而且确实有用(很多垂类场景…
深度好玩
白嫖GPU资源跑StableDiffusion、ChatGPT、模型训练
最近好玩的项目太多了,什么stable-diffusion-webui,什么ControlNet、什么ChatGPT,都是吃显卡吃显存的大户,普通人没个6G以上的显卡都玩不起。 突…
博客技术文章会放到新的地方
博客改造中,之后的文章会放到一个新的地址,分类查找更方便些: 新地址。 嗯,就这样~
深度学习部署神器-triton inference server第一篇
开新坑!准备开始聊triton。 老潘用triton有两年多了,一直想写个教程给大家。顺便自己学习学习,拖了又拖,趁着这次换版本的机会,终于有机会了写了。 triton作为一个NV…
馋了馋NVIDIA Jetson Orin嵌入式AI开发板
最近疯狂迷恋(想买)Jetson Orin,也就是NVIDIA今年新发布的嵌入式AI开发板。 这玩意儿今年3、4月份开始正式销售,官方售价1999美刀,国内嘛,估计16000左右。…
TORCH.FX第二篇——PTQ量化实操
好久不见各位,哈哈,又鸽了好久。 本文紧接上一篇《实践torch.fx第一篇——基于Pytorch的模型优化量化神器》继续说,主要讲如何利用FX进行模型量化。 为什么这篇文章拖了这…
算法工程师老潘的一些经验
之前总结的一些经验,这里整合一下发出来~ 文字较多,都是干货,大家慢慢看哈。 算法工程师50%的时间是和数据打交道,有时候拷贝数据(分别从多个文件夹拷贝到某一文件夹);有时候筛选数…
老潘的笔记本环境配置
还是爱折腾… 前一阵子买了个新的笔记本电脑,幻13-3050TI-1T版本,全能本,CPU是8核心16线程的标压版AMD锐龙9-5900HS,显卡是NVIDIA-305…
实践torch.fx第一篇——基于Pytorch的模型优化量化神器
什么是torch.fx 今天聊一下比较重要的torch.fx,也趁着这次机会把之前的torch.fx笔记整理下,笔记大概拆成三份,分别对应三篇: 什么是torch.fx 基于tor…
一起实践量化番外篇——TensorRT-8的量化细节
好久不见各位~ 这篇文章很久之前写完一直没有整理,最近终于是整理差不多了,赶紧发出来。 本文接着《必看部署系列-神经网络量化教程:第一讲!》这一篇接着来说。上一篇主要说了量化的一些…
一起实践神经网络量化系列教程(一)!
老潘刚开始接触神经网络量化是2年前那会,用NCNN和TVM在树莓派上部署一个简单的SSD网络。那个时候使用的量化脚本是参考于TensorRT和NCNN的PTQ量化(训练后量化)模式…
终于把TensorRT的engine模型的结构图画出来了!
终于把TensorRT的engine模型的结构图画出来了! 大概长这样(截取了最终模型图的输入部分),仔细看看: 可以看到很多层被融合了,比如conv1.weight + Quan…
AI部署系列:你知道模型权重的小秘密吗???
今天简单聊聊模型权重,也就是我们俗称的weight。 深度学习中,我们一直在训练模型,通过反向传播求导更新模型的权重,最终得到一个泛化能力比较强的模型。同样,如果我们不训练,仅仅随…
想要的都在这儿了!英伟达最新技术合集
不得不相信英伟达总能给我们惊喜,老潘作为一名深度学习从业者以及游戏爱好者,对于这种与AI、GPU、并行计算相关的话题一直都是比较感兴趣。作为深度学习第一大硬件平台的英伟达,我们自然…