GitHub - PaddlePaddle/PaddleMIX: Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

简体中文 | English

💌目录

💌目录
📰新闻
📣最新进展
🌈简介
✨主要特性
🔍安装
🔥教程
🤔FAQ
📱模型库
📝许可证书
📌社区交流

📰新闻

🔥2025.01.16日直播课飞桨PP系列模型上新！

🎉PaddleMIX推出新一代统一视频生成控制模型PP-VCtrl！高效应用于人物动画、场景转换等视频生成精确控制任务。辅助条件编码器架构实现各类控制模块灵活接入，通过稀疏残差连接实现特征的高效控制传播，保持原训练视频扩散模型生成器架构不变，避免全量重训练。基于高质量可用数据集做recaption、人体关节点提取和视频分割，并采用多样化数据增强和训练策略，依次满足边缘控制、人体姿态与蒙版控制视频编辑任务的数据需求，显著提升适应能力和生成质量。控制能力和视频质量指标超越开源特定任务方法。1月16日（周四）19:00，直播为您详细解读PP-VCtrl的核心技术与产业应用。🚀报名链接：https://www.wjx.top/vm/m4sb0rh.aspx?udsid=664921

🔥2025.01.07日直播课（已结束）飞桨PP系列模型上新！

🔗PaddleMIX的直播回放链接：点击
🎉PaddleMIX推出轻量级多模态文档理解模型PP-DocBee！基于多模态大模型实现端到端文档图像理解，破解业界复杂图表文档解析难题。采用ViT+MLP+LLM架构，优化数据合成策略、数据预处理、训练方式、OCR后处理辅助等环节。OCR小模型与LLM大模型结合、基于渲染引擎生产图像数据等众多策略实现问答质量更高，生成成本可控。支持本地gradio部署、OpenAI服务部署，提供飞桨星河社区在线环境快速体验。1月7日（周二）19:00，直播为您详细解读PP-DocBee的核心技术与产业应用。🚀报名链接：https://www.wjx.top/vm/mlDdpSb.aspx?udsid=309483

点击展开活动海报

📣最新进展

🎉 2025.01.20 喜迎外部开发者在星河(AIStudio)社区开发的创作教程页面更新

自9月6日，已收集星河(AIStudio)社区69个精品项目！快来动手体验应用开发吧～
新增「PaddleMIX套件体验官」和「飞桨PaddleMIX开发大赛」活动推出的22个精品项目，涵盖圣诞主题贺卡生成🎄、人物生成👤等多种应用，期待您的体验！此外，还有AI鉴宝🔍、图生音乐🎶等有趣的应用等待您来探索～
🙏 衷心感谢各位开发者基于套件的精彩创作！🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区

🎉 2025.01.20 支持Aria推理

🎉 2025.01.14 支持deepseek-vl2推理

🎉 2025.01.02 新增自研文档理解模型PP-DocBee推理和训练，支持高性能推理

🎉 2024.12.17 支持GOT-OCR2_0推理和训练

🎉 2024.12.17 支持InternVL2_5(1B、2B、4B、8B)推理

🎉 2024.11.27 支持Janus/JanusFlow推理

🎉 2024.11.21 支持MiniCPM-V-2_6推理

🎉 2024.11.8 支持DenseConnector和Aquila-VL-2B-llava-qwen推理

🎉 2024.11.1 支持LLaVA-OneVision和LLaVA-Critic推理

点击展开更多

🎉 2024.10.31 喜迎外部开发者的创作教程页面更新

🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。
🙏 衷心感谢各位开发者基于套件的精彩创作！🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区！

🔥2024.10.11 发布PaddleMIX v2.1

支持PaddleNLP 3.0 beta版本，抢先体验其最新功能。
新增Qwen2-VL、InternVL2、Stable Diffusion 3 (SD3)等前沿模型。
发布自研多模数据能力标签模型PP-InsCapTagger；可用于数据的分析和过滤，试验案例表明在保持模型效果的条件下可减少50%的数据量，大幅提高训练效率。
多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B，提供国产计算芯片上的训推能力。

2024.07.25 发布PaddleMIX v2.0

多模态理解：新增LLaVA系列，Qwen-VL等；新增Auto模块统一SFT训练流程；新增mixtoken训练策略，SFT吞吐量提升5.6倍。
多模态生成：发布PPDiffusers 0.24.1版本，支持视频生成能力，文生图模型新增LCM。新增飞桨版peft，accelerate后端。提供基于飞桨开发的ComfyUI插件。
多模态数据处理工具箱DataCopilot：支持自定义数据结构，数据转换，离线格式检查；支持基本的统计信息，数据可视化功能。

2023.10.7 发布 PaddleMIX v1.0

新增图文预训练模型分布式训练能力，BLIP-2支持千亿规模训练
新增跨模态应用流水线AppFlow，一键支持自动标注，图像编辑，音生图等11种跨模态应用
PPDiffusers发布 0.19.3 版本，新增SDXL及相关任务

🌈简介

PaddleMIX是基于飞桨的多模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练，微调，文生图，文生视频，多模态理解等丰富的多模态任务。它提供开箱即用的开发体验，同时支持灵活定制，满足不同需求，助力探索通用人工智能。

PaddleMIX工具链包括数据处理、模型开发、预训练、精调和推理部署，支持主流多模态模型如 EVA-CLIP、BLIP-2、Stable Diffusion 等。通过跨模态任务流水线 AppFlow 和文生图应用 pipeline，开发者可以快速构建多模态应用。

多模态理解效果示例如下：

多模态理解🤝融合了视觉👀和语言💬处理能力。包含基础感知、细粒度图像理解和复杂视觉推理🧠等功能。我们的模型库调用提供了单图、多图和视频推理的功能实际应用，功能包括自然图像摘要📝、问答🤔、OCR🔍、情感识别❤️😢、专业图像分析🔬和代码解析💻。这些技术可应用于教育📚、医疗🏥、工业🏭等多个领域，实现从静态图像🖼️到动态视频🎥的全面智能分析。欢迎您的体验和探索～

多模态生成效果示例如下：

多模态生成✍️融合了文本💬与视觉👀的创造能力。涵盖了从文字生成图像🖼️到文字生成视频🎥的各类技术，包括 Stable Diffusion 3、Open-Sora等先进模型。我们在ppdiffusers提供了单图生成、多图合成和视频生成的实际应用，功能涉及艺术创作🎨、动画制作📽️、内容生成📝等。通过这些技术，可以在教育📚、娱乐🎮、广告📺等领域实现从静态图像到动态视频的创意生成。欢迎您的体验和探索～

特色应用效果示例如下（点击标题可快速跳转在线体验）：

ComfyUI创作工作流	艺术风格二维码模型	Mix叠图

二次元文生图	AI绘画｜50+Lora风格叠加	ControlNet｜图片局部重绘

✨主要特性

📱丰富的多模态功能

PaddleMIX支持大量最新主流的算法基准以及预训练模型，覆盖图文预训练，文生图，跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能。传送门：📱模型库

🧩简洁的开发体验

PaddleMIX 提供统一的模型开发接口，支持开发者快速集成和定制模型。借助 Auto 模块，用户可以高效加载预训练模型、实现 Tokenization，并通过简化的 API 轻松完成模型的训练、微调（SFT）、推理与部署。此外，Auto 模块支持开发者自定义模型的自动化集成，确保灵活性与可扩展性，同时提升开发效率。

💡高性能分布式训推能力

PaddleMIX提供高性能分布式训练与推理能力，融合✨Fused Linear✨、✨Flash Attention✨等加速算子，支持🌀BF16混合精度训练和4D混合并行策略，并通过优化推理性能，包括卷积布局、GroupNorm融合及旋转位置编码优化，显著提升大规模预训练和高效推理性能。

🔧特色功能与工具

多模态数据处理工具箱DataCopilot，加速模型迭代升级。让开发者根据特定任务以低代码量实现数据的基本操作。传送门：🏆特色模型|工具

🔍安装

1. 克隆PaddleMIX仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

3. ‼️安装PaddlePaddle

方法 1: 一键安装（GPU/CPU推荐）

CUDA 11.x或12.3
PaddlePaddle 3.0.0b1

sh build_paddle_env.sh

方法 2: 手动安装

关于PaddlePaddle安装的详细教程请查看Installation。

4. ‼️安装依赖

方法 1: 一键安装（推荐）

运行以下命令来自动安装所有必要的依赖:

sh build_env.sh

方法 2: 手动安装

# 安装 PaddleMIX
pip install -e .
# 安装 ppdiffusers
cd ppdiffusers
pip install -e .
cd ..

5. ‼️验证安装

sh check_env.sh

环境和依赖推荐版本:
- paddlepaddle: 3.0.0b2或develop版本
- paddlenlp: 3.0.0b2
- ppdiffusers: 0.29.0
- huggingface_hub: 0.23.0

6. 安装自定义算子（可选）

部分模型需要安装自定义算子（FastLayerNorm、FusedLayerNorm），例如EVA-CLIP、DIT_LLAMA等。
非CUDA环境（例如昇腾环境）则跳过

cd paddlemix/external_ops
python setup.py install

🔥教程

快速开始

实操演练&范例

多硬件使用

昇腾910B支持的模型列表和使用方式，可以参考昇腾硬件使用

数据准备&训练微调

模型训练与微调技巧

推理部署

部署指南：从开发到生产环境

📱模型库

多模态理解

多模态生成

多模态大一统

图文预训练

开放世界视觉模型

更多模态预训练模型

ImageBind

数据分析

PP-InsCapTagger

文生图

文生视频

音频生成

统一多模态模型

Janus

更多模型能力，可参考模型能力矩阵

📊多模数据处理工具箱DataCopilot

基础能力

数据分析

数据生成

使用文档

DataCopilot

能力标签模型

PP-InsCapTagger

文档类数据生成方案

PP-InfinityDocData

更多数据相关功能，可参考DataCopilot主页

🏆特色模型|工具

💎跨模态任务流水线AppFlow

简介(点击展开)

AppFlow作为PaddleMIX的跨模态应用任务流水线，具备强大的功能与易用性。通过接入LLaVA、Stable Diffusion等前沿算法，AppFlow已全面覆盖图像、文本、音频、视频等多种模态，并通过流水线式的灵活组合，构建了10余种多模态应用，涵盖图文生成、文本视频生成、文本音频生成、图像理解等多个方面，为用户提供丰富的demo示例。AppFlow的特色在于其一键预测功能，用户无需繁琐训练与大量编码，仅需简单命令即可完成模型推理，极大地降低了使用门槛。同时，AppFlow充分利用飞桨框架动静统一优势，用户只需设置简单参数，即可自动完成模型的动转静导出及高性能推理，提高工作效率并优化模型性能，实现一站式应用部署。

传送门：应用文档示例。

💎多模态数据处理工具箱DataCopilot

简介(点击展开)

在真实的应用场景有大量使用专有数据微调多模态大模型来提升模型效果的需求，此过程中数据要素成为核心。基于此PaddleMIX提供了数据处理和分析的工具DataCopilot，使开发者可在PaddleMIX套件完成端到端的开发体验。

PP-InsCapTagger(Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型，用于为多模态数据实例能力打标，通过实例能力分布对数据集进行优化，可以提高模型训练效率，为数据集分析和评价提供了一种高效的方案。结合模型推理打标结果对LLaVA SFT数据集进行优化，可以提高LLaVA模型SFT阶段50%的训练效率。

传送门：应用文档示例。

PP-InsCapTagger(点击展开)

Model	ScienceQA	TextVQA	VQAv2	GQA	MMMU	MME
llava-1.5-7b (origin)	66.8	58.2	78.5	62	-	-
llava-1.5-7b (rerun)	69.01	57.6	79	62.95	36.89	1521 323
llava-1.5-7b (random 50%)	67.31	55.6	76.89	61.01	34.67	1421 286
llava-1.5-7b (our 50%)	70.24 (+2.93)	57.12 (+1.52)	78.32 (+1.43)	62.14 (+1.13)	37.11 (+2.44)	1476 (+55) 338 (+52)

传送门：应用文档示例。

🤔FAQ

关于我们项目的一些常见问题解答，请参考FAQ。如果您的问题没有得到解答，请随时在Issues中提出

❤️致谢

PaddleMIX的部分模块和案例设计借鉴了 Hugging Face 的Transformers🤗关于预训练模型使用的优秀设计，在此对 Hugging Face 作者及其开源社区表示感谢。
PaddleMIX 的部分案例和代码由以下优秀社区开发者贡献，（完整的贡献者请参考: Contributors）： co63oc， CrazyBoyM， KPCOFGS， pkhk-1， 1649759610， DrRyanHuang， zhiboniu， cocoshe， sneaxiy， yangrongxinuser， cheng221， Liyulingyue， zhoutianzi666， Birdylx， FeixLiu， Tsaiyue， fightfat， warrentdrew， swagger-coder ...
感谢星河(AIStudio)社区的项目达人们开发了众多有趣的应用，为PaddleMIX的发展创造了更多可能性。特别感谢以下活跃的项目达人（完整名单请参见AIStudio 项目达人推荐榜）：好想成为PPDE（已成为版），旭_1994， knoka，魔术师，非鱼子焉 ...

📝许可证书

本项目的发布受Apache 2.0 license许可认证。

📌社区交流

微信扫描二维码并填写问卷，即可加入交流群与众多社区开发者以及官方团队深度交流。

Name		Name	Last commit message	Last commit date
Latest commit History 1,046 Commits
.travis		.travis
PaddleNLP @ 879180b		PaddleNLP @ 879180b
applications		applications
comfyui		comfyui
deploy		deploy
docs		docs
paddlemix		paddlemix
ppdiffusers		ppdiffusers
scripts		scripts
tests		tests
.copyright.hook		.copyright.hook
.flake8		.flake8
.gitignore		.gitignore
.gitmodules		.gitmodules
.pre-commit-config.yaml		.pre-commit-config.yaml
.style.yapf		.style.yapf
.travis.yml		.travis.yml
CITATION.cff		CITATION.cff
LICENSE		LICENSE
README.md		README.md
README_EN.md		README_EN.md
VERSION		VERSION
build_env.sh		build_env.sh
build_paddle_env.sh		build_paddle_env.sh
check_env.sh		check_env.sh
paddlemix_applications.md		paddlemix_applications.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.py		setup.py

License

PaddlePaddle/PaddleMIX

Folders and files

Latest commit

History

Repository files navigation

💌目录

📰新闻

📣最新进展

🌈简介

多模态理解效果示例如下：

多模态生成效果示例如下：

特色应用效果示例如下（点击标题可快速跳转在线体验）：

✨主要特性

📱丰富的多模态功能

🧩简洁的开发体验

💡高性能分布式训推能力

🔧特色功能与工具

🔍安装

1. 克隆PaddleMIX仓库

2. 创建虚拟环境

3. ‼️安装PaddlePaddle

方法 1: 一键安装（GPU/CPU推荐）

方法 2: 手动安装

4. ‼️安装依赖

方法 1: 一键安装（推荐）

方法 2: 手动安装

5. ‼️验证安装

6. 安装自定义算子（可选）

🔥教程

📱模型库

📊多模数据处理工具箱DataCopilot

🏆特色模型|工具

💎跨模态任务流水线AppFlow

💎多模态数据处理工具箱DataCopilot

🤔FAQ

❤️致谢

📝许可证书

📌社区交流

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 2

Packages 0

Contributors 78

Languages

Packages