Сообщить об ошибке

Что пошло не так?

OpenAI Audio и Vision: Whisper и GPT-4V — AI Academy

AI Academy/Курсы/OpenAI Audio и Vision: Whisper и GPT-4V

⌘K

EN Войти Регистрация

СреднийИнженерия

OpenAI Audio и Vision: Whisper и GPT-4V

Официальные примеры OpenAI для работы со звуком и изображениями: транскрипция с Whisper, промптинг для лучших результатов, Realtime API, суммаризация звонков и теггинг изображений с GPT-4V.

3модуля

5уроков

125 минобщее время

Разработчики, работающие с аудио и изображениями через OpenAIкому подходит

Прогресс

0%0 / 5 уроков

Войдите, чтобы сохранять прогресс.

Модуль 1

Транскрипция с Whisper

Предобработка аудио и постобработка транскриптов: обрезка тишины, сегментация, пунктуация и исправление доменной лексики.

Whisper: предобработка и постобработка аудио

Улучшаем качество транскрипции Whisper через обрезку начальной тишины, разбивку длинных файлов на сегменты и GPT-постобработку: добавление пунктуации, исправление финансовых терминов и удаление non-ASCII артефактов.

Модуль 2

Промптинг и методы транскрипции

Тонкая настройка Whisper через параметр prompt, выбор метода транскрипции (batch vs streaming vs Realtime) и сравнение подходов.

Whisper: промптинг для улучшения транскрипции

Используем необязательный параметр prompt API Whisper для управления стилем вывода и правильного написания имён, брендов и терминов. Разбираем, как GPT может генерировать фиктивные промпты для Whisper.

2

Методы Speech-to-Text: batch, streaming и Realtime

Сравниваем три метода транскрипции через OpenAI API: блокирующая загрузка файла, потоковая (stream=True) и Realtime WebSocket. Разбираем компромиссы латентности, сложности и ограничений каждого подхода.

25 мин

Модуль 3

Realtime API и Vision

Суммаризация длинных голосовых диалогов через Realtime API и теггинг изображений с GPT-4V.

Realtime API: суммаризация контекста для голосового бота

Строим голосового бота на Realtime API с автоматической суммаризацией старых витков диалога: когда окно токенов заполняется, старые сообщения сжимаются в одно и удаляются с сервера.

GPT-4V: теггинг и подписи к изображениям

Используем GPT-4o-mini vision для генерации тегов и описаний товаров на e-commerce датасете. Дедуплицируем теги через эмбеддинги и превращаем описания в краткие captions через few-shot промптинг.

AAI AcademyRU Начать обучениеКаталог

Обзор

AI Academy Прогресс Достижения Рейтинг Аналитика Заметки Уведомления Команда API Тарифы Настройки

Обучение

Треки8 Курсы51

Библиотеки

Промпты30 Воркфлоу12 Инструменты22 Сравнение Блог

Обновлено · 14 мая 2026

Сохранить прогресс