Home
YeBug's Blog
Cancel

triton-shared CPU后端分析

triton-shared CPU后端编译 triton-shared由triton源码作为子模块编译,大致代码与triton相同。仓库新增了一个CPU后端,挖一下实现流程。 从@triton.jit开始与原生triton一样,一直走到JitFunction封装kernel: # compile the kernel src = ASTSource(self, signature, ...

triton.jit源码分析

Triton.jit源码分析 目标对象 区别于nVidia triton inference server,此处分析openAI的triton complier。 分析原因 阅读官方tutorial时,kernel函数被decorator后语法很有意思,搞得人很迷惑,尝试弄清楚实现机制。 @triton.jit注解 当需要使用triton实现device侧的kernel时,用类pytho...

CUDA软硬件架构

总体架构 硬件设计 SP:Stream Processor即CUDA core,GPU的基本处理单元 SM:Stream Multiprocessor,并行处理单元由多个sp组成,包含SFU,共享内存,寄存器,warp schedule等资源,可执行多个Block Device Kernel:GPU内核,不同架构GPU内核数存在不同 软件设计 Thread:线程,程序指令的基本执行单元 B...

OneFlow备忘录

OneFlow设计 Compile编译期:构造静态图,静态图编译到执行计划Plan,Plan由Actor构成 Runtime运行时:启动运行Actor节点,Actor的生产、消费数据存储于Register Actor:静态图节点,消费或生产数据并存储到Register,节点之间通过包含Register地址的轻量数据交互连接,称为消息 Compile-一致性视角 Placement 每个op...

部署优化策略

背景 基于ROS与Triton搭建的流式推理服务平台,部署模型后执行终端可视化,发现多模型并行推理可视化耗时高,继而优化之。 优化策略 优化对象 模型流水线:preprocess-->inference-->postprocess 多模型并行:三个图像算法,一个点云算法 耗时分析 多模型并行调用,可使用perf_analyzer在Triton上模拟调用,并行调用流水线后观察C...

Torch模型转换

背景 接上一篇部署,最近由于需要移植之前在Jestson设备上部署过的模型,所以重新做了一次模型转换和模型部署的流程,正好一边温习一边记录。 Torch to ONNX ONNX,全称Open Neural Network Exchange,奇奇怪怪的名字不重要,缩写好记就行。简单理解就是一个中间表达,把一些常用的如torch这样的框架统一用中间框架来表达,后续的轻量级框架设计只需要对接O...

Triton部署小记

背景 因项目需求,要在jetson orin上部署一套解决方案,包括多个深度学习模型处理不同的子任务。平台选择使用Triton管理模型,处理请求之类。 开发这部分已经是两个月以前的事情了,今天偶又拾起来,于是记录一下。 Triton & Tensorrt Nvidia的GPU处理加速框架triton。已经集成了多种框架,包括tensorflow,pytorch等。印象里就是一套管理...

《流浪地球2》

《流浪地球2》 剧照 日志 又是一年520,在家蜗居一整天。偶见《流浪地球2》在腾讯视频已经放出,过年那阵事情太多太忙,加之在小镇上影院太少,票虚高且人太多,终究是没有第一时间看。 于是就排了晚上观影的计划。磨磨蹭蹭到晚上11点可算是躺好开看了,近三小时的片子看完以后,有点想法,于是就凑一片短评吧。 观感 第一感觉,特效不错,场面恢弘,机器设备的科技感也上来了,画面感这块儿属实配得上T...