Оценка промптов: официальный курс Anthropic · Урок 8
Кастомный LLM-judge: multi-metric scoring
Написание собственной функции llm_eval() для оценки по нескольким метрикам (conciseness, accuracy, tone 1-5). get_assert() для PromptFoo. Prefill <json> для надёжного JSON-вывода. Сравнение basic vs better vs best summarization prompt.