Fine-tuning в OpenAI: от данных до DPO · Урок 3
Direct Preference Optimization: обучение на предпочтениях
DPO выравнивает модель по субъективным критериям (тон, стиль, брендовый голос) с помощью пар preferred/rejected ответов — без reward model и RL.