代码预训练课程回顾

本节课我们邀请到清华大学知识工程实验室的夏箫同学进行代码大模型的技术分析，讲解了代码预训练模型发展历程中，并从数据预处理到模型性能评估完整地回顾了开源大规模多语言代码生成模型CodeGeeX的开发过程。

接下来我们对课程进行简单的回顾，迎接下一节公开课的进一步深入

代码预训连的发展历程

代码预训练任务

代码预训练模型

代码预训练模型处理

CodeGeeX模型架构：基于GPT架构的自回归模型

模型并行是算子层面的并行，它利用某些算子的特性将算子拆分到多个设备上进行计算。

CodeGeeX模型预训练

使用昇思MindSpore + 昇腾910组合进行训练，使用自然语言活代码token作为输入，输出下一个token的概率。

CodeGeeX模型优化策略

代码生成模型性能评估

语义相似性无法正确反应生成代码的质量，需要同时考虑代码功能的正确性。
- 基于相似性（参考生成对比）：BLEU、Rouge、CodeBLEU
- 基于正确性（运行测试用例）：通过率
目前的基准从多任务及多语言两个方面对模型进行评价
- 多任务
  
  通过不同应用场景进行评价，多使用CodeBLEU/BLEU评价相似性
- 多语言
  
  在不同编程语言下评价代码正确性，如HumanEval（仅支持Python）、MultiPL-E（支持16种语言，但为自动翻译并不支持多任务）
HumanEval-X：新的多语言代码生成基准

支持五种编程语言，保证正确性，可进行多语言代码生成及跨语言代码翻译两种下游任务

CodeGeeX代码生成插件