ПродвинутыйИнженерия
Fine-tuning в OpenAI: от данных до DPO
Официальные примеры OpenAI по дообучению: подготовка данных, fine-tuning чат-моделей, Direct Preference Optimization, дистилляция моделей и Reinforcement Fine-Tuning. Реальный код от команды OpenAI.
3модуля
5уроков
175 минобщее время
ML-инженеры и разработчики, адаптирующие OpenAI-моделикому подходит
Модуль 1
Подготовка данных и базовый fine-tuning
Загрузка, валидация и подсчёт токенов для датасета тонкой настройки чат-моделей; запуск полного цикла fine-tuning на примере извлечения ингредиентов.
Модуль 2
DPO и предпочтения
Техника Direct Preference Optimization: когда и почему SFT недостаточно, формат датасета с парами preferred/rejected и полный цикл DPO job через API.
Модуль 3
Дистилляция и Reinforcement Fine-Tuning
Дистилляция знаний большой модели в меньшую через Store API и Structured Outputs; Reinforcement Fine-Tuning с verifiable graders на примере медицинских данных.