OpenAI Embeddings: полное руководство · Урок 1

Эмбеддинги: базовое использование

Получаем векторные представления текста через OpenAI API. Разбираем модель text-embedding-3-small, экспоненциальный backoff с tenacity и лучшие практики батч-обработки.

25 мин чтения3 вопроса в квизеГотовый промпт включёнВ работе

Практическое задание

Что сделать после урока

Напишите функцию get_embedding с @retry, получите эмбеддинги для 5 разных фраз и посчитайте косинусное сходство между ними. Сравните семантически близкие и далёкие пары.

Проверка задания

Напишите функцию get_embedding с @retry, получите эмбеддинги для 5 разных фраз и посчитайте косинусное сходство между ними. Сравните семантически близкие и далёкие пары.

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

from tenacity import retry, wait_random_exponential, stop_after_attempt
from openai import OpenAI
import numpy as np

client = OpenAI()

@retry(wait=wait_random_exponential(min=1, max=20), stop=stop_after_attempt(6))
def get_embedding(text: str, model="text-embedding-3-small") -> list[float]:
    return client.embeddings.create(
        input=[text], model=model
    ).data[0].embedding

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

texts = [
    "The cat sat on the mat",
    "A feline rested on the rug",
    "Python is a programming language",
]
embeddings = [get_embedding(t) for t in texts]
print(cosine_similarity(embeddings[0], embeddings[1]))  # ~0.92
print(cosine_similarity(embeddings[0], embeddings[2]))  # ~0.6

Что такое эмбеддинги

Эмбеддинг — это вектор чисел с плавающей точкой, представляющий смысл текста. Чем ближе два вектора в пространстве, тем более семантически похожи тексты. OpenAI предоставляет модели text-embedding-3-small (1536 измерений) и text-embedding-3-large (3072 измерения).

from openai import OpenAI client = OpenAI() embedding = client.embeddings.create( input="Your text goes here", model="text-embedding-3-small" ).data[0].embedding print(len(embedding)) # 1536

Надёжный вызов с retry

Для production-кода используйте tenacity, чтобы обходить rate limits:

from tenacity import retry, wait_random_exponential, stop_after_attempt from openai import OpenAI client = OpenAI() @retry(wait=wait_random_exponential(min=1, max=20), stop=stop_after_attempt(6)) def get_embedding(text: str, model="text-embedding-3-small") -> list[float]: return client.embeddings.create( input=[text], model=model ).data[0].embedding embedding = get_embedding("Your text goes here") print(len(embedding)) # 1536

Антипаттерн: цикл запросов

# НЕ делайте так — медленно и может упасть по rate limit for i in range(10000): emb = client.embeddings.create( input="text", model="text-embedding-3-small" ).data[0].embedding

Вместо этого передавайте список строк в input батчем или используйте декоратор @retry с экспоненциальным backoff.

Практическое применение

Эмбеддинги используются для: семантического поиска, классификации, кластеризации, обнаружения аномалий, рекомендательных систем и поиска по коду. Вектор возвращается один раз — его можно кешировать и переиспользовать многократно.

Сообщить об ошибке

Эмбеддинги: базовое использование

Проверка задания

Песочница промптов

Квиз — 3 вопроса

Обсуждение

Что такое эмбеддинги

Простой вызов API

Надёжный вызов с retry

Антипаттерн: цикл запросов

Практическое применение