Workbench Evals: быстрое прототипирование
Anthropic Workbench для ручного тестирования промптов. Запуск eval по нескольким test case, сравнение версий промпта (v1 vs v2), человеческая оценка по шкале 1-5.
Откройте Anthropic Workbench. Создайте промпт с двумя переменными. Добавьте 3 тест-кейса, оцените результаты (1-5), улучшите промпт и сравните версии через Add Comparison.
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
You are a skilled programmer translating code to Python.
<source_code>
{{SOURCE_CODE}}
</source_code>
Source language: {{SOURCE_LANGUAGE}}
Translate to Python. Format:
<python_code>
[translation here]
</python_code>
Only output the <python_code> tags, no preamble or explanation.- Оценивают только один тест-кейс — нерепрезентативно.
- Не версионируют промпты — забывают, что именно изменили.
- Субъективная оценка без критериев — разные люди оценивают по-разному.