Обзор моделей Gemini и выбор под задачу

Gemini 2.0 Flash против 1.5 Pro, 1.5 Flash и Ultra: контекст, цена, скорость и как выбрать модель под задачу и бюджет.

22 мин чтения4 вопроса в квизеГотовый промпт включёнВ работе

Практическое задание

Что сделать после урока

Напишите скрипт, который через genai.list_models() печатает все модели с поддержкой generateContent, их input/output лимиты, и для трёх сценариев (дешёвый чат, анализ 200-страничного PDF, массовая классификация 100k записей) выводит рекомендованную модель с обоснованием.

Проверка задания

Напишите скрипт, который через genai.list_models() печатает все модели с поддержкой generateContent, их input/output лимиты, и для трёх сценариев (дешёвый чат, анализ 200-страничного PDF, массовая классификация 100k записей) выводит рекомендованную модель с обоснованием.

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

Помоги выбрать модель Gemini.
Задача: <описание>
Средний размер входа: <токены>
Объём запросов: <в день/мес>
Бюджет: <если есть>

Сравни gemini-2.0-flash / 1.5-pro / 1.5-flash / 1.5-flash-8b по контексту,
цене input/output, скорости. Дай рекомендацию с обоснованием и оценкой стоимости.

Семейство моделей

| Модель | Контекст | Сильная сторона | Когда брать | |---|---|---|---| | gemini-2.0-flash | 1M токенов | Быстрая, мультимодальная, дёшево, native tool use | Дефолт для большинства задач | | gemini-1.5-pro | 2M токенов | Максимальное качество рассуждений, огромный контекст | Сложный анализ, длинные документы/видео | | gemini-1.5-flash | 1M токенов | Дешевле и быстрее pro, хорошее качество | Высоконагруженные простые задачи | | gemini-1.5-flash-8b | 1M токенов | Самая дешёвая, классификация/извлечение | Массовые простые операции |

Ultra исторически анонсировалась, но в публичном API основная линейка — 2.0 Flash и 1.5 Pro/Flash. Не закладывайтесь на «Ultra» в коде.

Контекст до 2M токенов

1.5 Pro принимает до 2 миллионов токенов — это ~1.5 часа видео, ~19 часов аудио или ~2 млн слов текста. Это меняет архитектуру: иногда дешевле и проще закинуть весь документ в контекст, чем строить RAG.

Цена — input ≠ output

Стоимость считается отдельно за input и output токены, и для 1.5 Pro тариф растёт после 128k токенов контекста. Перед выбором модели прикиньте: средний размер входа, частота запросов, нужен ли 2M-контекст.

Эвристика выбора

Нужно дёшево и быстро, задача типовая -> gemini-2.0-flash Глубокий анализ / >1M контекста -> gemini-1.5-pro Массовая классификация/извлечение -> gemini-1.5-flash-8b Нужен Live API (голос реалтайм) -> gemini-2.0-flash (live)

Список моделей программно

for m in genai.list_models(): if "generateContent" in m.supported_generation_methods: print(m.name, m.input_token_limit, m.output_token_limit)

Не хардкодьте «последнюю» модель строкой без понимания: алиасы вроде gemini-2.0-flash указывают на актуальную стабильную версию, а -001/-exp суффиксы фиксируют конкретный снапшот для воспроизводимости.

Сообщить об ошибке