generated from datawhalechina/repo-template
-
Notifications
You must be signed in to change notification settings - Fork 272
Home
Ethan-Chen-plus edited this page Apr 22, 2024
·
7 revisions
官方PDF源文件: Build a Large Language Model (From Scratch) (Sebastian Raschka).pdf
rasbt/LLMs-from-scratch
是一个GitHub项目,提供了一套详细的教程,指导如何从头开始实现类似ChatGPT的大型语言模型(LLM)。这个项目包含了创建GPT-like大语言模型所需的所有代码,覆盖了编码、预训练和微调过程。它不仅是《Build a Large Language Model (From Scratch)》一书的官方代码库,还深入解析了LLM的内部工作原理,并提供了逐步的指导。该项目主要用于教育目的,帮助学习者训练和开发小型但功能性的模型,与创建像ChatGPT这样的大型基础模型的方法相似。其简洁易懂的代码,即使只有PyTorch基础,也能完成大模型的构建,并使读者深入理解大型语言模型的工作原理。
- 理解大型语言模型
-
处理文本数据
- ch02.ipynb
- dataloader.ipynb (摘要)
- exercise-solutions.ipynb
-
编写注意力机制
- ch03.ipynb
- multihead-attention.ipynb (摘要)
- exercise-solutions.ipynb
-
从零开始实现GPT模型
- ch04.ipynb
- gpt.py (摘要)
- exercise-solutions.ipynb
-
使用未标记数据进行预训练
- ch05.ipynb
- train.py (摘要)
- generate.py (摘要)
- exercise-solutions.ipynb
- 技术背景:适合有一定编程基础的人员,特别是对大型语言模型(LLM)感兴趣的开发者和研究者。
- 学习目标:适合那些希望深入了解LLM工作原理,并愿意投入时间从零开始构建和训练自己的LLM的学习者。
- 应用领域:适用于对自然语言处理、人工智能领域感兴趣的开发者,以及希望在教育或研究环境中应用LLM的人员。
-
项目亮点:
- 系统化学习:提供了一个系统化的学习路径,从理论基础到实际编码,帮助学习者全面理解LLM。
- 实践导向:强调实践,让学习者通过实际操作来掌握LLM的开发和训练。
- 深入浅出:以清晰的语言、图表和示例来解释复杂的概念,使得非专业背景的学习者也能较好地理解。
注:本项目已获得作者官方授权。