Skip to content

Latest commit

 

History

History
99 lines (55 loc) · 3.6 KB

README.md

File metadata and controls

99 lines (55 loc) · 3.6 KB

Интенсив по воспроизведению state‑of‑the‑art научных результатов 2024, Яндекс, Сириус

Multi-objective LLM Alignment for Machine Translation

Related papers

X-ALMA: PLUG & PLAY MODULES AND ADAPTIVE REJECTION FOR QUALITY TRANSLATION AT SCALE

Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization (MODPO)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO)

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation (CPO)

Aligning language models to follow instructions

xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection

Постановка задачи

  1. Выбрать существующую LLM модель машинного перевода
  2. Произвести Alignment способами DPO, CPO, MODPO, MOCPO
  3. Сравнить результаты

RU-EN перевод

Модель

X-ALMA-13B-Pretrain, GitHub репозиторий

SotA Machine Translation, 50 языков, архитектура LLaMA2

Alignment

CPO

Contrastive preference optimization

Идея: повысить вероятность удачного варианта, понизить - неудачного

Для обучения необходим датасет вида <source, winner, loser>. Отобраны 2009 ru-en пар из ALMA-preference.

DPO

Direct preference optimization

Идея: как CPO, но не пытаемся повысить вероятность winner

MO (Multi Objective)

Идея: взвешенная оптимизация по нескольким метрикам

Датасет для Multi Objective

Метрики

XCOMET-XL, KIWI, Fluency

Валидация

FLORES-200 1012 пар

Модель XCOMET Fluency
CPO 3 metrics 96.26 97.38
CPO xcomet 96.29 97.28
CPO kiwi 96.25 97.27
MODPO 93.77 93.58
X-ALMA 95.12 94.57
MOCPO 95.71 96.73

Выводы

  • Любой Alignment превосходит SFT X-ALMA
  • CPO > DPO
  • Гипотеза о улучшении засчёт учёта нескольких направлений выравнивания одновременно не подтвердилась

Подготовка датасета для CPO, DPO

Train CPO, DPO

метрики1 метрики2 метрики3

TrainMOCPO

TrainMODPO