借着热点,简单聊聊大模型的部署方案,作为一个只搞过CV部署的算法工程师,在最近LLM逐渐改变生活的大背景下,猛然意识到LLM部署也是很重要的。大模型很火,而且确实有用(很多垂类场景…
你在看这个话题:pytorch
实践torch.fx第一篇——基于Pytorch的模型优化量化神器
什么是torch.fx 今天聊一下比较重要的torch.fx,也趁着这次机会把之前的torch.fx笔记整理下,笔记大概拆成三份,分别对应三篇: 什么是torch.fx 基于tor…
一起实践量化番外篇——TensorRT-8的量化细节
好久不见各位~ 这篇文章很久之前写完一直没有整理,最近终于是整理差不多了,赶紧发出来。 本文接着《必看部署系列-神经网络量化教程:第一讲!》这一篇接着来说。上一篇主要说了量化的一些…
想要的都在这儿了!英伟达最新技术合集
不得不相信英伟达总能给我们惊喜,老潘作为一名深度学习从业者以及游戏爱好者,对于这种与AI、GPU、并行计算相关的话题一直都是比较感兴趣。作为深度学习第一大硬件平台的英伟达,我们自然…
逃不过呀!不论是训练还是部署都会让你踩坑的Batch Normalization
简单的Batch Normalization BN、Batch Normalization、批处理化层。 想必大家都不陌生。 BN是2015年论文Batch Normalizati…
老潘的AI部署以及工业落地学习之路
Hello我是老潘,好久不见各位。 最近在复盘今年上半年做的一些事情,不管是训练模型、部署模型搭建服务,还是写一些组件代码,零零散散是有一些产出。 虽然有了一点点成果,但仍觉着缺点…
TensorRT详细入门指北,如果你还不了解TensorRT,过来看看吧!
前言 大名鼎鼎的TensorRT有多牛逼就不多说了,因为确实很好用。 作为在英伟达自家GPU上的推理库,这些年来一直被大力推广,更新也非常频繁,issue反馈也挺及时…
想提速但TensorRT的FP16不得劲?怎么办?在线支招!
问题的开始 前些天尝试使用TensorRT转换一个模型,模型用TensorFlow训练,包含LSTM+Transform+CNN,是一个典型的时序结构模型,包含编码解码结构,暂称为…
Mac mini M1使用体验(编程、游戏、深度学习)
前一阵子忍不住剁手买了M1芯片的mac mini,为了弥补自己的内疚感就卖了自己的旧的mbp2017款。数据也完全迁移到了新机器上,之前的工作也就由mbp2017彻底换成mac m…
利用Caffe推理CenterNet(下篇)
此文章作为存档文章,caffe虽然不是c++版本运行CenterNet的最优方式,但也是一种选择。这里仅仅是记录,承接利用Caffe推理CenterNet(上篇)。 在上文中,虽然…
利用Caffe推理CenterNet(上篇)
本文主要内容是记录一下将CenterNet模型转化为Caffe模型,并且成功推理的过程。虽然Caffe用的不多了吧,但是作为C++端的推理框架还是有不小的用武之地的,所以说本篇也可…
一个Tensor的生命历程(Pytorch版)
文中涉及到大量的Pytorch的C++源码,版本为1.4.0a,适合有一定Pytorch源码基础的童鞋观看,同时也涉及到一些python中的C/C++拓展的一些基础知识,其中每一段…
如何对Pytorch进行“深入”的DEBUG
前言 我们对Pytorch的debug一般都是在python端进行,这对于一般搭建模型的任务来说足够了。但如果我们需要对Pytorch进行一些修改或者研究一下机器或深度学习系统是如…
Pytorch中多GPU训练指北
前言 在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情。Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,…