RAP-MLLM: Retrieval-Augmented Personalization for Multimodal Large Language Model

Paper | Project Page | Model | Data (Coming soon)

News

2024.11.24 Release code and model weights.

Personalize Your Multimodal Large Language Model via Retrieval Augmented Generation.


Introduce some user-specific concepts to our RAP-LLaVA, it can remember them and achieve excellent performance in a variety of personalized multimodal generation tasks.

Visit our Project Page for more demostrations.

BibTeX

@misc{hao2024rememberretrievegenerateunderstanding,
        title={Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant}, 
        author={Haoran Hao and Jiaming Han and Changsheng Li and Yu-Feng Li and Xiangyu Yue},
        year={2024},
        eprint={2410.13360},
        archivePrefix={arXiv},
        primaryClass={cs.CV},
        url={https://arxiv.org/abs/2410.13360}, 
  }

Acknowledgement

LLaVA, MyVLM, YoLLaVA

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
eval		eval
example_database		example_database
images		images
llava		llava
scripts		scripts
README.md		README.md
cli.py		cli.py
detector.py		detector.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
retriever.py		retriever.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RAP-MLLM: Retrieval-Augmented Personalization for Multimodal Large Language Model

Paper | Project Page | Model | Data (Coming soon)

News

Personalize Your Multimodal Large Language Model via Retrieval Augmented Generation.

Contents

Install

Models

Demo

Evaluation

Prepare Data

Evaluation on Image Captioning

Evaluation on Question Answering

BibTeX

Acknowledgement

About

Releases

Packages

Languages

Hoar012/RAP-MLLM

Folders and files

Latest commit

History

Repository files navigation

RAP-MLLM: Retrieval-Augmented Personalization for Multimodal Large Language Model

Paper | Project Page | Model | Data (Coming soon)

News

Personalize Your Multimodal Large Language Model via Retrieval Augmented Generation.

Contents

Install

Models

Demo

Evaluation

Prepare Data

Evaluation on Image Captioning

Evaluation on Question Answering

BibTeX

Acknowledgement

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages