ПродвинутыйИнженерияclaude
Оценка промптов: официальный курс Anthropic
Как измерять и улучшать качество промптов: code-graded evals, model-graded оценки, workbench-тесты, PromptFoo. Методология Anthropic для production-систем.
4модуля
8уроков
240 минобщее время
AI-инженеры, строящие надёжные LLM-пайплайныкому подходит
Модуль 1
Основы оценки промптов
Что такое evals, зачем они нужны и как устроены.
Модуль 2
Code-Graded Evals
Автоматическая программная оценка — быстрая, масштабируемая, объективная.
Модуль 3
PromptFoo: Масштабируемые Evals
Фреймворк PromptFoo для автоматизированных evals с дашбордом, CSV-тестами и кастомными грейдерами.
Модуль 4
Model-Graded Evals
LLM-as-judge: когда code-graded недостаточно и нужны субъективные критерии.