Evaluations 101: зачем измерять промпты
Разница между бенчмарками и customer evals. Четыре компонента eval-набора: input, golden answer, output, score. Три подхода к оценке: human-based, code-based, model-based.
Возьмите реальную задачу (классификация, извлечение данных, генерация текста). Составьте 10 тест-кейсов с golden answers. Запустите базовый промпт и зафиксируйте accuracy как baseline.
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Помоги разработать eval-набор. Задача промпта: <опишите, что должен делать промпт> Примеры входных данных: <3-5 примеров> Критерии правильного ответа: <как определить успех> Предложи: 1. Структуру eval_data (Python dict) 2. Метод оценки (code/model/human) 3. Минимальный порог accuracy для production
- Тест-кейсы слишком простые — eval не выявляет граничные случаи.
- Слишком мало примеров (<20) — высокая дисперсия результатов.
- Golden answers созданы тем же LLM — circular validation.
- Не фиксируют baseline — невозможно понять, улучшился ли промпт.