《从零构建大模型》

项目动机

本项目是对GitHub项目《LLMs-from-scratch》内容的中文翻译，包括详细的markdown 笔记和相关的jupyter 代码。翻译过程中，我们尽可能保持原意的准确性，同时对部分内容进行了语序和表达的优化，以更贴合中文学习者的阅读习惯。需要特别说明的是，原作者为该项目的主要贡献者，本汉化版本仅作为学习辅助资料，不对原内容进行修改或延伸。

由于个人能力有限，翻译中可能存在不完善之处，欢迎提出宝贵意见并多多包涵希望通过这一翻译项目，更多中文学习者能够从中受益，也希望为国内社区的 LLM 学习和研究贡献一份力量。

本项目的特色： jupyter代码均有详细中文注释，帮助大家更快上手实践。 诸多的附加材料可以拓展知识

本项目所用徽章来自互联网，如侵犯了您的图片版权请联系我们删除，谢谢。

课程简介

提到大语言模型（LLMs），我们可能会将其视为独立于传统机器学习的领域，但实际上，LLMs 是机器学习的一个重要分支。在深度学习尚未广泛应用之前，机器学习在许多领域（如语音识别、自然语言处理、计算机视觉等）的作用相对有限，因为这些领域往往需要大量的专业知识来应对复杂的现实问题。然而，近几年深度学习的快速发展彻底改变了这一状况，使 LLMs 成为推动人工智能技术革命的关键力量。

原项目与地址:《LLMs-from-scratch》 https://github.com/rasbt/LLMs-from-scratch.git

在《LLMs-from-scratch》项目中，不仅关注 LLMs 的基础构建，如 Transformer 架构、序列建模等，还深入探索了 GPT、BERT 等深度学习模型的底层实现。项目中的每一部分均配备详细的代码实现和学习资源，帮助学习者从零开始构建 LLMs，全面掌握其核心技术。

课程资源

英文原版地址：原版地址
教材网址：原版教材
汉化地址：https://github.com/MLNLP-World/LLMs-from-scratch-CN.git

此外，本门课程还有相应的代码实现。每章都有相应的jupyter记事本，提供模型的完整python代码，所有的资源都可在网上免费获取。

原书Readme

从零构建大模型

这个仓库包含了开发、预训练和微调一个类似GPT的LLM（大语言模型）的代码，是《从零构建大模型》这本书的官方代码仓库，书籍链接：从零构建大模型。

在《从零构建大模型》这本书中，您将逐步了解大语言模型（LLMs）如何从内到外工作，自己动手编写代码，逐步构建一个LLM。在这本书中，我将通过清晰的文字、图示和示例，带您完成构建自己LLM的每一个阶段。

本书描述的训练和开发自己的小型功能性模型的方法，旨在教育用途，类似于用于创建大规模基础模型（如ChatGPT背后的模型）的方法。此外，本书还包括加载更大预训练模型权重进行微调的代码。

要下载此仓库的副本，请点击下载ZIP按钮，或者在终端中执行以下命令：

git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git

要下载此仓库汉化版本，请点击下载ZIP按钮，或者在终端中执行以下命令：

git clone --depth 1 https://github.com/MLNLP-World/LLMs-from-scratch-CN.git

(如果您是从Manning网站下载的代码包，请访问官方代码仓库 https://github.com/rasbt/LLMs-from-scratch 获取最新的更新或者汉化版本https://github.com/MLNLP-World/LLMs-from-scratch-CN.git)

章节标题	主要代码（快速访问）	所有代码及补充内容
安装建议	-	-
第1章：理解大型语言模型	无代码	-
第2章：处理文本数据	- ch02.ipynb - dataloader.ipynb（总结） - exercise-solutions.ipynb	ch02
第3章：编码注意力机制	- ch03.ipynb - multihead-attention.ipynb（总结） - exercise-solutions.ipynb	ch03
第4章：从零开始实现 GPT 模型	- ch04.ipynb - gpt.py（总结） - exercise-solutions.ipynb	ch04
第5章：在无标注数据上进行预训练	- ch05.ipynb - gpt_train.py（总结） - gpt_generate.py（总结） - exercise-solutions.ipynb	ch05
第6章：进行文本分类的微调	- ch06.ipynb - gpt_class_finetune.py - exercise-solutions.ipynb	ch06
第7章：进行遵循指令的微调	- ch07.ipynb - gpt_instruction_finetuning.py（总结） - ollama_evaluate.py（总结） - exercise-solutions.ipynb	ch07
附录 A：PyTorch 简介	- code-part1.ipynb - code-part2.ipynb - DDP-script.py - exercise-solutions.ipynb	appendix-A
附录 B：参考文献与进一步阅读	无代码	-
附录 C：习题解答	无代码	-
附录 D：在训练循环中加入附加功能	- appendix-D.ipynb	appendix-D
附录 E：使用 LoRA 进行参数高效微调	- appendix-E.ipynb	appendix-E

下图是本书内容的总结性思维导图。

额外材料

章节	附加资料	翻译者	校对者
设置	- Python 设置提示 - 安装本书中使用的 Python 包和库 - Docker 环境设置指南
第二章：处理文本数据	- 从零开始实现字节对编码（BPE）分词器 - 比较不同字节对编码（BPE）实现 - 理解嵌入层和线性层的区别 - 用简单数字直观理解数据加载器
第三章：编码注意力机制	- 比较高效的多头注意力实现 - 理解 PyTorch 缓冲区
第四章：从零开始实现 GPT 模型	- FLOPS 性能分析
第五章：在未标注数据上进行预训练	- 使用 Transformers 从 Hugging Face 模型库加载替代权重 - 在古腾堡计划数据集上预训练 GPT - 为训练循环添加附加功能 - 优化预训练的超参数 - 构建与预训练 LLM 交互的用户界面 - 将 GPT 转换为 Llama - 从零开始构建 Llama 3.2 - 内存高效的模型权重加载 - 扩展 Tiktoken BPE 分词器，添加新 Token
第六章：用于分类的微调	- 微调不同层并使用更大模型的额外实验 - 在 50k IMDB 电影评论数据集上微调不同模型 - 构建与 GPT 基于垃圾邮件分类器交互的用户界面
第七章：微调以跟随指令	- 查找近重复项和创建被动语态条目的数据集工具 - 使用 OpenAI API 和 Ollama 评估指令响应 - 为指令微调生成数据集 - 改进指令微调数据集 - 使用 Llama 3.1 70B 和 Ollama 生成偏好数据集 - 用于 LLM 对齐的直接偏好优化（DPO） - 构建与指令微调的 GPT 模型交互的用户界面

硬件要求

本书主要章节中的代码设计为能够在常规笔记本电脑上运行，并且不会占用过长时间，因此不需要专门的硬件。这种方式确保了广泛的读者群体能够参与其中。此外，如果有可用的 GPU，代码会自动使用它们。（更多建议请参考 setup 文档。）

问题、反馈和贡献

欢迎各种形式的反馈，最好通过 Manning 论坛或 GitHub 讨论区分享。如果你有任何问题或只是想与他人讨论想法，也请随时在论坛中发布。

请注意，由于本存储库包含与印刷书籍相对应的代码，因此目前无法接受扩展主要章节代码内容的贡献，因为这可能会导致与实体书籍的内容不一致。保持一致性有助于确保每个人的顺畅体验。

引用

如果你发现本书或代码对你的研究有帮助，请考虑引用它。

引用：

Raschka, Sebastian. Build A Large Language Model (From Scratch). Manning, 2024. ISBN: 978-1633437166.

BibTeX 条目：

@book{build-llms-from-scratch-book,
author       = {Sebastian Raschka},
title        = {Build A Large Language Model (From Scratch)},
publisher    = {Manning},
year         = {2024},
isbn         = {978-1633437166},
url          = {https://www.manning.com/books/build-a-large-language-model-from-scratch},
github       = {https://github.com/rasbt/LLMs-from-scratch}
}

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
.ipynb_checkpoints		.ipynb_checkpoints
appendix-A		appendix-A
appendix-D		appendix-D
appendix-E		appendix-E
ch01		ch01
ch02		ch02
ch03		ch03
ch04		ch04
ch05		ch05
ch06		ch06
ch07		ch07
imgs		imgs
setup		setup
.DS_Store		.DS_Store
CITATION.cff		CITATION.cff
LICENSE.txt		LICENSE.txt
README.md		README.md
requirements.txt		requirements.txt
the-verdict.txt		the-verdict.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

《从零构建大模型》

项目动机

课程简介

课程资源

原书Readme

从零构建大模型

目录

额外材料

硬件要求

问题、反馈和贡献

引用

贡献者

About

Releases

Packages

Contributors 4

Languages

License

MLNLP-World/LLMs-from-scratch-CN

Folders and files

Latest commit

History

Repository files navigation

《从零构建大模型》

项目动机

课程简介

课程资源

原书Readme

从零构建大模型

目录

额外材料

硬件要求

问题、反馈和贡献

引用

贡献者

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages