TransformerEngine Module模块-TransformerEngineBaseModule

TE Module模块结构 Module模块主要包括一个TEModule基类和transformer中的基本组件： ├── __init__.py ├── _common.py ├── base.py ├── fp8_padding.py ├── fp8_unpadding.py ├── grouped_linear.py ├── layernorm.py ├── layernorm_lin...

Jul 15, 2025 learning, technology

TransformerEngine FP8调用分析

TE FP8管理结构 TransformerEngine的FP8控制通过类对象FP8GlobalStateMananger进行管理，关联FP8的Recipe和RecipeState两个模块。 FP8 Recipe Recipe定义在transformer_engine/pytorch/fp8/recipe.py中，用以描述FP8的量化策略及其配置参数。不同的量化策略根据对应的配置参数对实现...

Jun 27, 2025 learning, technology

TransformerEngine Tensor模块分析

TE pytorch Tensor模块结构 TransformerEngine的Tensor模块主要用于处理各种量化张量的操作和计算。该模块的目录结构如下： ├── __init__.py ├── _internal │ ├── __init__.py │ ├── float8_blockwise_tensor_base.py │ ├── float8_tensor_base....

Jun 26, 2025 learning, technology

triton-shared CPU后端分析

triton-shared CPU后端编译 triton-shared由triton源码作为子模块编译，大致代码与triton相同。仓库新增了一个CPU后端，挖一下实现流程。从@triton.jit开始与原生triton一样，一直走到JitFunction封装kernel： # compile the kernel src = ASTSource(self, signature, ...

Apr 23, 2024 learning, technology

triton.jit源码分析

Triton.jit源码分析目标对象区别于nVidia triton inference server，此处分析openAI的triton complier。分析原因阅读官方tutorial时，kernel函数被decorator后语法很有意思，搞得人很迷惑，尝试弄清楚实现机制。 @triton.jit注解当需要使用triton实现device侧的kernel时，用类pytho...

Apr 3, 2024 learning, technology

CUDA软硬件架构

总体架构硬件设计 SP：Stream Processor即CUDA core，GPU的基本处理单元 SM：Stream Multiprocessor，并行处理单元由多个sp组成，包含SFU，共享内存，寄存器，warp schedule等资源，可执行多个Block Device Kernel：GPU内核，不同架构GPU内核数存在不同软件设计 Thread：线程，程序指令的基本执行单元 B...

Mar 19, 2024 learning, technology

OneFlow备忘录

OneFlow设计 Compile编译期：构造静态图，静态图编译到执行计划Plan，Plan由Actor构成 Runtime运行时：启动运行Actor节点，Actor的生产、消费数据存储于Register Actor：静态图节点，消费或生产数据并存储到Register，节点之间通过包含Register地址的轻量数据交互连接，称为消息 Compile-一致性视角 Placement 每个op...

Feb 26, 2024 learning, technology

部署优化策略

背景基于ROS与Triton搭建的流式推理服务平台，部署模型后执行终端可视化，发现多模型并行推理可视化耗时高，继而优化之。优化策略优化对象模型流水线：preprocess-->inference-->postprocess 多模型并行：三个图像算法，一个点云算法耗时分析多模型并行调用，可使用perf_analyzer在Triton上模拟调用，并行调用流水线后观察C...

Jul 13, 2023 learning, project

Torch模型转换

背景接上一篇部署，最近由于需要移植之前在Jestson设备上部署过的模型，所以重新做了一次模型转换和模型部署的流程，正好一边温习一边记录。 Torch to ONNX ONNX，全称Open Neural Network Exchange，奇奇怪怪的名字不重要，缩写好记就行。简单理解就是一个中间表达，把一些常用的如torch这样的框架统一用中间框架来表达，后续的轻量级框架设计只需要对接O...

Jun 14, 2023 learning, project

Triton部署小记

背景因项目需求，要在jetson orin上部署一套解决方案，包括多个深度学习模型处理不同的子任务。平台选择使用Triton管理模型，处理请求之类。开发这部分已经是两个月以前的事情了，今天偶又拾起来，于是记录一下。 Triton & Tensorrt Nvidia的GPU处理加速框架triton。已经集成了多种框架，包括tensorflow，pytorch等。印象里就是一套管理...

May 23, 2023 learning, project

1
2
1 / 2