Сообщить об ошибке

Что пошло не так?

Fine-tuning в OpenAI: от данных до DPO — AI Academy

AI Academy/Курсы/Fine-tuning в OpenAI: от данных до DPO

⌘K

EN Войти Регистрация

ПродвинутыйИнженерия

Fine-tuning в OpenAI: от данных до DPO

Официальные примеры OpenAI по дообучению: подготовка данных, fine-tuning чат-моделей, Direct Preference Optimization, дистилляция моделей и Reinforcement Fine-Tuning. Реальный код от команды OpenAI.

3модуля

5уроков

175 минобщее время

ML-инженеры и разработчики, адаптирующие OpenAI-моделикому подходит

Прогресс

0%0 / 5 уроков

Войдите, чтобы сохранять прогресс.

Модуль 1

Подготовка данных и базовый fine-tuning

Загрузка, валидация и подсчёт токенов для датасета тонкой настройки чат-моделей; запуск полного цикла fine-tuning на примере извлечения ингредиентов.

Подготовка данных для fine-tuning чат-моделей

Полный pipeline проверки и анализа JSONL-датасета перед тонкой настройкой: форматные ошибки, статистика токенов и оценка стоимости обучения.

Fine-tuning чат-моделей: полный цикл

Конец-в-конец: подготовка JSONL, загрузка файлов через Files API, запуск fine-tuning job, отслеживание прогресса и инференс на дообученной модели.

Модуль 2

DPO и предпочтения

Техника Direct Preference Optimization: когда и почему SFT недостаточно, формат датасета с парами preferred/rejected и полный цикл DPO job через API.

1

Direct Preference Optimization: обучение на предпочтениях

DPO выравнивает модель по субъективным критериям (тон, стиль, брендовый голос) с помощью пар preferred/rejected ответов — без reward model и RL.

35 мин

Модуль 3

Дистилляция и Reinforcement Fine-Tuning

Дистилляция знаний большой модели в меньшую через Store API и Structured Outputs; Reinforcement Fine-Tuning с verifiable graders на примере медицинских данных.

Дистилляция моделей: gpt-4o → gpt-4o-mini

Дистилляция использует store=True в Chat Completions для захвата выходов большой модели, затем fine-tuning меньшей модели на этих данных — снижение стоимости и латентности без потери точности.

Reinforcement Fine-Tuning: обучение с верифицируемым reward

RFT использует RL-цикл с grader для оптимизации рассуждений модели на задачах с измеримым качеством: медицина, право, финансы, код.

AAI AcademyRU Начать обучениеКаталог

Обзор

AI Academy Прогресс Достижения Рейтинг Аналитика Заметки Уведомления Команда API Тарифы Настройки

Обучение

Треки8 Курсы51

Библиотеки

Промпты30 Воркфлоу12 Инструменты22 Сравнение Блог

Обновлено · 14 мая 2026

Сохранить прогресс