Контекст, память и токены

Разбираем, что такое контекст, как считаются токены и почему модель «забывает» начало разговора.

15 мин чтения2 вопроса в квизеГотовый промпт включёнВ работе

Окно контекста

Контекст — это всё, что модель видит при генерации ответа: системный промпт, история переписки, документы, которые вы прикрепили. Размер этого «окна» измеряется в токенах.

Один токен ≈ 0.75 английского слова или 0.3-0.5 русского слова. Длинный документ в 100 000 слов — это примерно 200-300 тысяч токенов. Модели с маленьким контекстом физически не могут «видеть» весь длинный документ — он не помещается.

Что бывает с разными моделями

ChatGPT: 128k–400k токенов в зависимости от тарифа.
Claude: до 200k токенов в Pro, до 1M в Enterprise/API.
Gemini: до 1M токенов в Pro, экспериментально до 2M.

Почему модель «забывает»

Если разговор длинный — старые сообщения могут вытесняться более новыми. У некоторых клиентов (например, ChatGPT в браузере) включается автоматическое сжатие старой истории. У других — старые сообщения просто отрезаются, когда заканчивается окно.

Что такое «память»

Не путайте окно контекста с «памятью» ассистента. Память — это отдельная фича: модель сохраняет факты о вас между чатами в специальное хранилище. Это просто аккуратно подмешанные в системный промпт заметки.

Практическое задание

Что сделать после урока

Откройте свой любимый ассистент. Спросите, какой у него предельный размер контекста. Затем прикрепите длинный документ и проверьте, действительно ли модель отвечает с учётом конца документа (попросите процитировать последний абзац).

Проверка задания

Откройте свой любимый ассистент. Спросите, какой у него предельный размер контекста. Затем прикрепите длинный документ и проверьте, действительно ли модель отвечает с учётом конца документа (попросите процитировать последний абзац).

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

Я работаю с длинным документом. Прежде чем отвечать на мой вопрос, процитируй последние два предложения документа. Это нужно мне как доказательство, что ты видишь его до конца, а не только первые страницы.

Вопрос:
<…>

Песочница промптов

Prompt

Типичные ошибки

На чём чаще всего спотыкаются

Прикрепляют 500-страничный документ к модели с маленьким контекстом и удивляются, что ответ неточный.
Думают, что «память» = «всё помнит». На самом деле это узкая фича с лимитами.
Не понимают, что русский текст в токенах «дороже» английского.

Лайфхаки

Что работает, но в гайдах не пишут

Для длинных документов используйте Claude или Gemini, не короткие модели.
Если документ всё ещё не помещается — сначала пройдитесь по нему частями, потом сделайте сводную «карту».
В длинных чатах периодически просите модель самой составить краткую сводку текущего контекста.

Когда использовать

Работа с длинными документами, юр-контрактами, кодом, аналитикой — там, где важно сохранить весь контекст в одном окне.

Когда не использовать

Когда документов больше, чем влезает в окно. В этом случае нужны RAG или поэтапная обработка.

Официальные источники

Квиз — 2 вопроса

1.Что измеряется в токенах?

2.Если у модели контекст 200k токенов, а вы вставили документ на 500k токенов, что произойдёт?

Отвечено: 0 из 2

Войдите, чтобы сохранять прогресс и отмечать пройденные уроки.

Войти

← Что такое большая языковая модель Границы модели и галлюцинации →

Обсуждение

Войдите, чтобы оставить комментарий.

Пока нет комментариев. Будьте первым!