Оценка промптов: официальный курс Anthropic · Урок 1

Evaluations 101: зачем измерять промпты

Разница между бенчмарками и customer evals. Четыре компонента eval-набора: input, golden answer, output, score. Три подхода к оценке: human-based, code-based, model-based.

30 мин чтения3 вопроса в квизеГотовый промпт включёнВ работе

Практическое задание

Что сделать после урока

Возьмите реальную задачу (классификация, извлечение данных, генерация текста). Составьте 10 тест-кейсов с golden answers. Запустите базовый промпт и зафиксируйте accuracy как baseline.

Проверка задания

Возьмите реальную задачу (классификация, извлечение данных, генерация текста). Составьте 10 тест-кейсов с golden answers. Запустите базовый промпт и зафиксируйте accuracy как baseline.

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

Помоги разработать eval-набор.

Задача промпта: <опишите, что должен делать промпт>
Примеры входных данных: <3-5 примеров>
Критерии правильного ответа: <как определить успех>

Предложи:
1. Структуру eval_data (Python dict)
2. Метод оценки (code/model/human)
3. Минимальный порог accuracy для production

Песочница промптов

Prompt

Типичные ошибки

На чём чаще всего спотыкаются

Почему evals — фундамент production-LLM

По словам Solutions Architects Anthropic:

«Неспособность команд измерять качество моделей — главный блокер production-применений LLM и превращает промптинг в искусство вместо науки.»

Бенчмарки (ARC, MMLU, TruthfulQA) показывают общие способности модели. Customer evals — насколько конкретный промпт решает вашу задачу.

Четыре компонента eval

eval_data = [ { "complaint": "The app crashes every time I try to upload a photo", "golden_answer": ["Software Bug"] }, { "complaint": "My printer isn't recognized by my computer", "golden_answer": ["Hardware Malfunction"] }, { "complaint": "I can't figure out how to change my password", "golden_answer": ["User Error"] } ]

Example Input — реальный сценарий из вашего приложения

Golden Answer — эталонный ответ от эксперта

Model Output — фактический ответ LLM

Score — числовая оценка качества

Три подхода к оценке

| Метод | Когда применять | |---|---| | Human-based | Субъективные критерии, экспертная проверка | | Code-based | Точные совпадения, regex, числа | | Model-based | Тон, релевантность, сложные правила |

Eval-цикл

Создать тест-кейсы с golden answers

Написать черновик промпта

Запустить eval → получить baseline score

Улучшить промпт → повторить

Anthropic рекомендует минимум 100 пар input/golden_answer для достоверных результатов.

Сообщить об ошибке