Подготовка данных для fine-tuning чат-моделей
Полный pipeline проверки и анализа JSONL-датасета перед тонкой настройкой: форматные ошибки, статистика токенов и оценка стоимости обучения.
Возьмите любой свой JSONL-файл диалогов, прогоните скрипт валидации и подсчёта токенов, исправьте все найденные ошибки и вычислите примерную стоимость обучения на 3 эпохи.
Проверка задания
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Ты проверяешь JSONL-датасет для fine-tuning OpenAI. Запусти полный скрипт валидации из урока ft-data-prep. Выведи сводку: кол-во примеров, ошибки (если есть), мин/макс/среднее токенов, кол-во примеров выше лимита 16 385 токенов, и оценочную стоимость обучения за 3 эпохи по текущим ценам OpenAI.
Песочница промптов
Забывают проверить наличие хотя бы одного сообщения assistant в каждом примере; не учитывают, что примеры длиннее 16 385 токенов будут усечены, а не отброшены.