Семейство моделей
| Модель | Контекст | Сильная сторона | Когда брать |
|---|---|---|---|
| gemini-2.0-flash | 1M токенов | Быстрая, мультимодальная, дёшево, native tool use | Дефолт для большинства задач |
| gemini-1.5-pro | 2M токенов | Максимальное качество рассуждений, огромный контекст | Сложный анализ, длинные документы/видео |
| gemini-1.5-flash | 1M токенов | Дешевле и быстрее pro, хорошее качество | Высоконагруженные простые задачи |
| gemini-1.5-flash-8b | 1M токенов | Самая дешёвая, классификация/извлечение | Массовые простые операции |
Ultra исторически анонсировалась, но в публичном API основная линейка — 2.0 Flash и 1.5 Pro/Flash. Не закладывайтесь на «Ultra» в коде.
Контекст до 2M токенов
1.5 Pro принимает до 2 миллионов токенов — это ~1.5 часа видео, ~19 часов аудио или ~2 млн слов текста. Это меняет архитектуру: иногда дешевле и проще закинуть весь документ в контекст, чем строить RAG.
Стоимость считается отдельно за input и output токены, и для 1.5 Pro тариф растёт после 128k токенов контекста. Перед выбором модели прикиньте: средний размер входа, частота запросов, нужен ли 2M-контекст.
Эвристика выбора
Нужно дёшево и быстро, задача типовая -> gemini-2.0-flash
Глубокий анализ / >1M контекста -> gemini-1.5-pro
Массовая классификация/извлечение -> gemini-1.5-flash-8b
Нужен Live API (голос реалтайм) -> gemini-2.0-flash (live)
Список моделей программно
for m in genai.list_models():
if "generateContent" in m.supported_generation_methods:
print(m.name, m.input_token_limit, m.output_token_limit)
Не хардкодьте «последнюю» модель строкой без понимания: алиасы вроде gemini-2.0-flash указывают на актуальную стабильную версию, а -001/-exp суффиксы фиксируют конкретный снапшот для воспроизводимости.