Gemini Cookbook: официальные quickstarts
Официальные quickstarts Google Gemini: function calling, аудио, File API, кэширование, code execution, embeddings и Live API. Реальный Python-код от команды Google.
Начало работы с Google GenAI SDK
Установка нового Google GenAI SDK, инициализация клиента, текстовые и мультимодальные промпты, system instructions, токены и параметры генерации.
Function Calling
Подключаем Python-функции как инструменты модели, изучаем автоматический и ручной режимы вызова, разбираем историю чата и схемы FunctionDeclaration.
Работа с аудио
Загружаем аудиофайлы через File API, работаем с inline-аудио, запрашиваем транскрипцию с временными метками и анализируем YouTube-видео.
File API
Загрузка и управление файлами через Gemini File API: изображения, текст, код, GCS-объекты, работа с несколькими файлами и прямые HTTPS-URL.
Context Caching
Кэшируем большие документы для многократного использования: создание CachedContent, управление TTL, использование кэша в generate_content и chat, мониторинг токенов.
Code Execution
Подключаем инструмент выполнения Python-кода, работаем с файлами через File I/O, используем code execution в чате и мультимодальных сценариях.
Embeddings
Создаём текстовые и мультимодальные embeddings, управляем размерностью, вычисляем семантическое сходство и строим простую RAG-систему с task_type.
Live API
Реалтаймовые голосовые и мультимодальные сессии через WebSocket: text-to-text, text-to-audio, async AudioLoop, управление сессией и обработка потоков.