СреднийИнженерия
OpenAI Audio и Vision: Whisper и GPT-4V
Официальные примеры OpenAI для работы со звуком и изображениями: транскрипция с Whisper, промптинг для лучших результатов, Realtime API, суммаризация звонков и теггинг изображений с GPT-4V.
3модуля
5уроков
125 минобщее время
Разработчики, работающие с аудио и изображениями через OpenAIкому подходит
Модуль 1
Транскрипция с Whisper
Предобработка аудио и постобработка транскриптов: обрезка тишины, сегментация, пунктуация и исправление доменной лексики.
Модуль 2
Промптинг и методы транскрипции
Тонкая настройка Whisper через параметр prompt, выбор метода транскрипции (batch vs streaming vs Realtime) и сравнение подходов.
Модуль 3
Realtime API и Vision
Суммаризация длинных голосовых диалогов через Realtime API и теггинг изображений с GPT-4V.