ПродвинутыйИнженерияclaude

Оценка промптов: официальный курс Anthropic

Как измерять и улучшать качество промптов: code-graded evals, model-graded оценки, workbench-тесты, PromptFoo. Методология Anthropic для production-систем.

4модуля

8уроков

240 минобщее время

AI-инженеры, строящие надёжные LLM-пайплайныкому подходит

Модуль 1

Основы оценки промптов

Что такое evals, зачем они нужны и как устроены.

Evaluations 101: зачем измерять промпты

Разница между бенчмарками и customer evals. Четыре компонента eval-набора: input, golden answer, output, score. Три подхода к оценке: human-based, code-based, model-based.

30 мин

Workbench Evals: быстрое прототипирование

Anthropic Workbench для ручного тестирования промптов. Запуск eval по нескольким test case, сравнение версий промпта (v1 vs v2), человеческая оценка по шкале 1-5.

30 мин

Модуль 2

Code-Graded Evals

Автоматическая программная оценка — быстрая, масштабируемая, объективная.

Code-Graded Eval: от нуля до baseline

Сообщить об ошибке

Оценка промптов: официальный курс Anthropic

Основы оценки промптов

Code-Graded Evals

PromptFoo: Масштабируемые Evals

Model-Graded Evals