Skip to content

Commit

Permalink
update for format
Browse files Browse the repository at this point in the history
  • Loading branch information
chenzomi12 committed Jun 25, 2024
1 parent 9d4dab7 commit a3983af
Show file tree
Hide file tree
Showing 263 changed files with 995 additions and 388 deletions.
2 changes: 1 addition & 1 deletion 00Others/Editors.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# 编辑和作者(DONE)
# 编辑和作者

## 章节编辑

Expand Down
2 changes: 1 addition & 1 deletion 00Others/Install.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# 本地部署(DONE)
# 本地部署

## Sphinx 环境安装

Expand Down
2 changes: 1 addition & 1 deletion 00Others/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 附录(DONE)
# 附录

本节附录主要是介绍本开源课程的书写规范、使用到的书写工具、还有关于本课程相关配套内容的介绍。

Expand Down
2 changes: 1 addition & 1 deletion 00Others/criterion.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 书写规范(DONE)
# 书写规范

书写规范(Writing Conventions)给出了包含文档内的书写约定。请作者与贡献者参考以下约定检查格式,内容一致性与正确性。

Expand Down
2 changes: 1 addition & 1 deletion 00Others/glossary.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 术语表(DONE)
# 术语表

术语表(Glossary),本词汇表包含与 AI 系统相关的词汇和定义。

Expand Down
8 changes: 4 additions & 4 deletions 00Others/inference.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 参考链接(DONE)
# 参考链接

参考链接(Reference)介绍了 AI 系统相关的链接。

Expand Down Expand Up @@ -114,7 +114,7 @@
6. [简单了解 LLVM IR 基本语法-CSDN 博客](https://blog.csdn.net/qq_42570601/article/details/107157224)
1. https://learning.acm.org/techtalks/computerarchitecture
2. https://segmentfault.com/a/1190000041739045
[^1]: [Roofline Model 与深度学习模型的性能分析 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/34204282)
[^1]: [Roofline Model 与神经网络模型的性能分析 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/34204282)
[^2]: [谈谈对 OpenAI Triton 的一些理解 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/613244988)

[^1]:刘松,卫国,博,.面向局部性和并行优化的循环分块技术[J].计算机研究与发展, 2015, 52(005):1160-1176.DOI:10.7544/issn1000-1239.2015.20131387.
Expand Down Expand Up @@ -680,13 +680,13 @@ learning, pages 448–456, 2015.](https://arxiv.org/abs/1502.03167v3)
1. [深入浅出:AI 框架与计算图的关系](https://developer.baidu.com/article/details/3129186)
2. [4.1. 计算图的设计背景和作用](https://openmlsys.github.io/chapter_computational_graph/background_and_functionality.html#id1)
3. [【AI】推理系统和推理引擎的整体架构](https://blog.csdn.net/weixin_45651194/article/details/132872588)
4. [谈谈AI 框架的数据排布](https://zhuanlan.zhihu.com/p/149464086)
4. [谈谈 AI 框架的数据排布](https://zhuanlan.zhihu.com/p/149464086)
5. [从零构建 AI 推理引擎系列](https://github.com/lucasjinreal/AI-Infer-Engine-From-Zero)
6. [一篇就够:高性能推理引擎理论与实践 (TensorRT)](https://developer.aliyun.com/article/995926)
7. [序列化之 FlatBuffers](https://harmonyhu.com/2018/08/11/flatbuffers/)

1. [【AI】推理引擎的模型转换模块](https://blog.csdn.net/weixin_45651194/article/details/132921090)
2. [深度学习模型转换](https://blog.csdn.net/jasonaidm/article/details/90522615)
2. [神经网络模型转换](https://blog.csdn.net/jasonaidm/article/details/90522615)
3. [deep-learning-model-convertor](https://github.com/ysh329/deep-learning-model-convertor)
4. [hb_mapper_tools_guide](https://developer.horizon.ai/api/v1/fileData/doc/ddk_doc/navigation/ai_toolchain/docs_cn/hb_mapper_tools_guide/01_model_conversion_details.html)
5. [模型转换:由 Pytorch 到 TFlite](https://zhuanlan.zhihu.com/p/363317178)
Expand Down
2 changes: 1 addition & 1 deletion 00Others/instruments.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 书写工具(DONE)
# 书写工具

## 书写工具

Expand Down
2 changes: 1 addition & 1 deletion 01Introduction/00Introduction.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystemtem)版权许可-->

# 本节内容(DONE)
# 本节内容

### 本节介绍

Expand Down
2 changes: 1 addition & 1 deletion 01Introduction/01present.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# AI 的历史与现状(DONE)
# AI 的历史与现状

本节将介绍 AI 的由来、现状和趋势,让大家能够了解 AI 应用的由来与趋势,为后面理解 AI 系统的设计形成初步的基础。在后面章节介绍的人工智能系统(AI System)奠定基础,值得注意的是,这些系统设计原则大部分也适合于机器学习系统(ML System)。

Expand Down
2 changes: 1 addition & 1 deletion 01Introduction/02Develop.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# AI 发展驱动力(DONE)
# AI 发展驱动力

AI 起源于上世纪五十年代,经历了几次繁荣与低谷,直到 2016 年谷歌旗下的 DeepMind 发布 AlphaGo 程序赢得与世界围棋冠军的比赛,大众对 AI 的关注与热情被重新点燃。其实 AI 技术早在这个标志事件之前已经在工业界很多互联网公司中得到了广泛应用与部署。例如,搜索引擎服务中的排序、图片的检索、广告推荐等功能,背后都有 AI 模型的支撑。

Expand Down
4 changes: 2 additions & 2 deletions 01Introduction/03architecture.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# AI 系统全栈架构(DONE)
# AI 系统全栈架构

通过对 AI 的发展、以及模型算法、硬件与数据的趋势介绍,我们已经了解了 AI 系统的重要性。本节将介 AI 系统的设计目标、组成和生态,让读者形成 AI 系统的知识体系,为后续展开每个章节的内容做好铺垫。

Expand Down Expand Up @@ -156,7 +156,7 @@ AI 框架不仅仅是指如 PyTorch 等训练框架,还包括推理框架。

- **广泛用途的高效新型通用 AI 算法**:提供更多样的模型支持,推进和支持模型效果的提升。支持新的算子(例如,控制流等),更加灵活的模型结构(例如,图模型等),模型的融合(例如,多专家系统等)支持。

- **多种AI 框架的支持与进化**:由于多种框架与工具的存在,如何为用户提供更多样的框架的统一支持与优化对提升用户体验,复用已有代码有很强的实用价值。
- **多种 AI 框架的支持与进化**:由于多种框架与工具的存在,如何为用户提供更多样的框架的统一支持与优化对提升用户体验,复用已有代码有很强的实用价值。

- **神经网络编译架构及优化**:在编译期,通过静态分析与优化的方法,提供更优化的编译支持,提升模型的性能,正确性等。类似传统编译器,网络模型的计算图可以通过融合等手段优化,算子内可以应用大量循环优化。同时面向网络模型本身的特点,也逐渐有工作利用一些等价和非等价计算图转换进行优化。

Expand Down
10 changes: 5 additions & 5 deletions 01Introduction/04sample.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# AI 系统与程序代码关系(DONE)
# AI 系统与程序代码关系

模型算法的开发者一般会通过使用 AI 框架提供 Python 等高级语言的 API,来编写对应的人工智能程序,而人工智能程序的底层系统问题被当前层抽象隐藏。到底在每个代码部分具体底层发生了什么?有哪些有意思的系统设计问题?

Expand Down Expand Up @@ -241,7 +241,7 @@ for n in range(batch_size):
[参考实例 cudnn-training](https://github.com/tbennun/cudnn-training/blob/master/lenet.cu),需要~1000 行实现模型结构和内存管理等逻辑。
```C++
// 内存分配,如果用AI 框架此步骤会省略
// 内存分配,如果用 AI 框架此步骤会省略
...
cudaMalloc(&d_data, sizeof(float) * context.m_batchSize * channels * height * width);
cudaMalloc(&d_labels, sizeof(float) * context.m_batchSize * 1 * 1 * 1);
Expand All @@ -256,7 +256,7 @@ cudnnConvolutionForward(cudnnHandle, &alpha, dataTensor,
conv1Tensor, conv1);
...
// 反向传播第一个卷积算子(仍需要写其他算子),如果用AI 框架此步骤会省略
// 反向传播第一个卷积算子(仍需要写其他算子),如果用 AI 框架此步骤会省略
cudnnConvolutionBackwardBias(cudnnHandle, &alpha, conv1Tensor,
dpool1, &beta, conv1BiasTensor, gconv1bias);
Expand All @@ -265,13 +265,13 @@ cudnnConvolutionBackwardFilter(cudnnHandle, &alpha, dataTensor,
conv1bwfalgo, workspace, m_workspaceSize,
&beta, conv1filterDesc, gconv1));
// 第一个卷积权重梯度更新(仍需要写其他算子),如果用AI 框架此步骤会省略
// 第一个卷积权重梯度更新(仍需要写其他算子),如果用 AI 框架此步骤会省略
cublasSaxpy(cublasHandle, static_cast<int>(conv1.pconv.size()),
&alpha, gconv1, 1, pconv1, 1);
cublasSaxpy(cublasHandle, static_cast<int>(conv1.pbias.size()),
&alpha, gconv1bias, 1, pconv1bias, 1);
// 内存释放,如果用AI 框架此步骤会省略
// 内存释放,如果用 AI 框架此步骤会省略
...
cudaFree(d_data);
cudaFree(d_labels);
Expand Down
2 changes: 1 addition & 1 deletion 01Introduction/05Foundation.md
Original file line number Diff line number Diff line change
Expand Up @@ -34,7 +34,7 @@ AI 大模型发展历经三个阶段,分别是萌芽期、探索期和爆发

以 CNN 为代表的传统神经网络模型阶段。1956 年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980 年,卷积神经网络的雏形 CNN 诞生。1998 年,现代卷积神经网络 CNN 的基本结构 LeNet-5 诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型。

在萌芽期阶段,小模型的研究为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续AI 框架的迭代及大模型发展具有开创性的意义。此时在自然语言处理 NLP 的模型研究都是在研究基于给定的数据集,在特定的下游任务,如何设计网络模型结构、调整超参、提升训练技巧可以达到更高的任务分数,因此出现了 Word2vec、RNN、LSTM、GRU 等各种 NLP 模型结构。
在萌芽期阶段,小模型的研究为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续 AI 框架的迭代及大模型发展具有开创性的意义。此时在自然语言处理 NLP 的模型研究都是在研究基于给定的数据集,在特定的下游任务,如何设计网络模型结构、调整超参、提升训练技巧可以达到更高的任务分数,因此出现了 Word2vec、RNN、LSTM、GRU 等各种 NLP 模型结构。

- **探索期(2006-2019)**

Expand Down
2 changes: 1 addition & 1 deletion 01Introduction/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © ZOMI 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 课程概述(DONE)
# 课程概述

## 课程简介

Expand Down
Binary file modified 01Introduction/images/00Architecture.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present01.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present02.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present03.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present04.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present05.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file removed 01Introduction/images/01Present06.jpg
Binary file not shown.
Binary file added 01Introduction/images/01Present06.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present07.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present08.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present09.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/01Present10.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02.Develop07.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop01.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop02.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop03.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop04.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop05.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop06.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop07.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop08.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop09.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/02Develop10.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/03Architecture01.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/03Architecture02.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified 01Introduction/images/03Architecture03.png
Binary file modified 01Introduction/images/03Architecture04.png
Binary file modified 01Introduction/images/03Architecture05.png
Binary file modified 01Introduction/images/03Architecture06.png
Binary file modified 01Introduction/images/03Architecture07.png
Binary file modified 01Introduction/images/04Sample02.png
Binary file modified 01Introduction/images/04Sample04.png
Binary file modified 01Introduction/images/04Sample05.png
Binary file modified 01Introduction/images/04Sample06.png
Binary file modified 01Introduction/images/05Foundation01.png
Binary file modified 01Introduction/images/05Foundation02.png
Binary file modified 01Introduction/images/05Foundation03.png
Binary file modified 01Introduction/images/05Foundation04.png
Binary file modified 01Introduction/images/05Foundation05.png
Binary file modified 01Introduction/images/05Foundation055.png
Binary file modified 01Introduction/images/05Foundation06.png
Binary file modified 01Introduction/images/knowledge_list.png
2 changes: 1 addition & 1 deletion 02Hardware/01Foundation/01Introduction.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 课程内容(DONE)
# 课程内容

在整个 AI 系统的构建中,AI 算法、AI 框架、AI 编译器、AI 推理引擎等都是软件层面的概念,而 AI 芯片则是物理存在的实体,AI 芯片是所有内容的重要基础。

Expand Down
2 changes: 1 addition & 1 deletion 02Hardware/01Foundation/02ArchSlim.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# AI 计算模式(上)(DONE)
# AI 计算模式(上)

了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本节将会通过模型结构、压缩、轻量化和分布式几个内容,来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考,重点围绕经典网络模型和模型量化压缩两方面进行展开。

Expand Down
4 changes: 2 additions & 2 deletions 02Hardware/01Foundation/03MobileParallel.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# AI 计算模式(下)(DONE)
# AI 计算模式(下)

了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本节将会接着从轻量化网络模型和大模型分布式并行两个主题来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考。

Expand Down Expand Up @@ -105,7 +105,7 @@ DDP 是一种分布式训练方法,它允许模型在多个计算节点上进

在 DDP 中,每个节点上的模型副本执行前向和后向传播计算,并计算梯度。然后,这些梯度在不同的节点之间进行通信和平均,以便所有节点都可以使用全局梯度来更新其本地模型参数。这种方法的优点是可以扩展到大量的节点,并且可以显著减少每个节点的内存需求,因为每个节点只需要存储整个模型的一个副本。

DDP 通常与AI 框架(如 PyTorch)一起使用,这些框架提供了对 DDP 的内置支持。例如,在 PyTorch 中,`torch.nn.parallel.DistributedDataParallel` 模块提供了 DDP 实现,它可以自动处理模型和梯度的同步,以及分布式训练的通信。
DDP 通常与 AI 框架(如 PyTorch)一起使用,这些框架提供了对 DDP 的内置支持。例如,在 PyTorch 中,`torch.nn.parallel.DistributedDataParallel` 模块提供了 DDP 实现,它可以自动处理模型和梯度的同步,以及分布式训练的通信。

3. Fully Sharded Data Parallel, FSDP 全分片数据并行

Expand Down
2 changes: 1 addition & 1 deletion 02Hardware/01Foundation/04Metrics.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 关键设计指标(DONE)
# 关键设计指标

前面我们已经对 AI 的计算模式有了初步的认识,那么这些计算模式具体是如何和 AI 芯片设计结合起来的呢?接下来我们将从 AI 芯片关键设计指标的角度来进一步拓展对 AI 计算体系的思考。

Expand Down
2 changes: 1 addition & 1 deletion 02Hardware/01Foundation/05Matrix.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 核心计算之矩阵乘(DONE)
# 核心计算之矩阵乘

AI 模型中往往包含大量的矩阵乘运算,该算子的计算过程表现为较高的内存搬移和计算密度需求,所以矩阵乘的效率是 AI 芯片设计时性能评估的主要参考依据。本节我们一起来看一下矩阵乘运算在 AI 芯片的具体过程,了解它的执行性能是如何被优化实现的。

Expand Down
4 changes: 2 additions & 2 deletions 02Hardware/01Foundation/06BitWidth.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# 计算之比特位宽(DONE)
# 计算之比特位宽

在前面的深度学习计算模式里面我们提到了模型的量化操作,通过建立一种有效的数据映射关系,使得模型以较小的精度损失获得更好的模型执行效率的收益。模型量化的具体操作就是将高比特的数据转换为低比特位宽表示。本节我们将对计算的比特位宽概念做一个更具体的了解。

Expand Down Expand Up @@ -131,7 +131,7 @@ AI 模型在业界长期依赖于 FP16 和 FP32 数据类型的训练,后来 B

## 小结与思考

- FP8 是一种新的 8 位浮点数精度格式,包含 E4M3 和 E5M2 两种编码,旨在减少深度学习模型训练和推理的计算需求,同时保持模型精度。
- FP8 是一种新的 8 位浮点数精度格式,包含 E4M3 和 E5M2 两种编码,旨在减少神经网络模型训练和推理的计算需求,同时保持模型精度。

- FP8 通过减少数据位宽,有效降低内存带宽压力、提升算力利用率,并简化推理部署过程,相比 FP16 和 FP32 混合精度训练,理论上可实现 2 倍速度提升和 50%-75%的内存及通信成本节约。

Expand Down
2 changes: 1 addition & 1 deletion 02Hardware/01Foundation/README.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright © 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# AI 计算体系概述(DONE)
# AI 计算体系概述

《AI 计算体系》深入 AI 的计算模式,从而理解 AI 的“计算”需要什么。通过 AI 芯片关键指标,了解 AI 芯片要更好的支持“计算”,需要关注那些重点工作。最后通过深度学习的计算核心“矩阵乘”来看对“计算”的实际需求和情况,为了提升计算性能、降低功耗和满足训练推理不同场景应用,对“计算”引入 TF32/BF16,甚至是 FP8 等复杂多样比特位宽的数据精度格式。

Expand Down
2 changes: 1 addition & 1 deletion 02Hardware/02ChipBase/01CPUBase.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# CPU 基础 (DONE)
# CPU 基础

CPU 是 Central Processing Unit(中央处理器)的简称,它负责执行指令和计算,控制着计算机的所有组件。CPU 从无到有,从弱小到强大,经历了漫长发展过程,其间发生了无数的故事。

Expand Down
2 changes: 1 addition & 1 deletion 02Hardware/02ChipBase/02CPUISA.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
<!--Copyright 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# CPU 指令集架构 (DONE)
# CPU 指令集架构

我们知道,计算机指令是指挥机器工作的指示和命令,程序就是一系列指令按照顺序排列的集合,执行程序的过程就是计算机的工作过程。从微观上看,我们输入指令的时候,计算机会将指令转换成二进制码存储在存储单元里面,然后在即将执行的时候拿出来。那么计算机是怎么知道我们输入的是什么指令,指令要怎么执行呢?

Expand Down
8 changes: 4 additions & 4 deletions 02Hardware/02ChipBase/03CPUData.md
Original file line number Diff line number Diff line change
@@ -1,8 +1,8 @@
<!--Copyright 适用于[License](https://github.com/chenzomi12/AISystem)版权许可-->

# CPU 计算本质(DONE)
# CPU 计算本质

本节将深入探讨CPU的计算性能,从算力的敏感度和不同技术趋势中分析影响CPU性能的关键因素。我们将通过数据和实例,详细解释CPU算力的计算方法、算力与数据加载之间的平衡点,以及如何通过算力敏感度分析来识别和优化计算系统中的性能瓶颈。此外,我们还将观察服务器、GPU和超级计算机等不同计算平台的性能发展趋势,以及它们如何影响着我们对CPU性能的理解和期望
本节将深入探讨 CPU 的计算性能,从算力的敏感度和不同技术趋势中分析影响 CPU 性能的关键因素。我们将通过数据和实例,详细解释 CPU 算力的计算方法、算力与数据加载之间的平衡点,以及如何通过算力敏感度分析来识别和优化计算系统中的性能瓶颈。此外,我们还将观察服务器、GPU 和超级计算机等不同计算平台的性能发展趋势,以及它们如何影响着我们对 CPU 性能的理解和期望

## 从数据看 CPU 计算

Expand Down Expand Up @@ -177,9 +177,9 @@ $$

## 小结与思考

- 算力衡量CPU性能:通过核心数量、时钟频率和内存带宽等因素衡量CPU算力,算力敏感度分析帮助理解不同参数对性能的影响,优化系统设计。
- 算力衡量 CPU 性能:通过核心数量、时钟频率和内存带宽等因素衡量 CPU 算力,算力敏感度分析帮助理解不同参数对性能的影响,优化系统设计。

- CPU性能和算力发展趋势:随着技术进步,CPU性能持续提升,算力增长推动了高性能计算、服务器、GPU集群和超级计算中心的发展,同时AI大模型训练时间随模型规模指数增长
- CPU 性能和算力发展趋势:随着技术进步,CPU 性能持续提升,算力增长推动了高性能计算、服务器、GPU 集群和超级计算中心的发展,同时 AI 大模型训练时间随模型规模指数增长

## 本节视频

Expand Down
Loading

0 comments on commit a3983af

Please sign in to comment.