Оценка промптов: официальный курс Anthropic · Урок 3
Code-Graded Eval: от нуля до baseline
Построение code-graded eval с нуля. Тест с подсчётом ног животного. Prompt v1 vs v2 vs v3 (chain-of-thought). Извлечение ответа из тегов <answer>.
Построение code-graded eval с нуля. Тест с подсчётом ног животного. Prompt v1 vs v2 vs v3 (chain-of-thought). Извлечение ответа из тегов <answer>.