Контекст, память и токены
Разбираем, что такое контекст, как считаются токены и почему модель «забывает» начало разговора.
Окно контекста
Контекст — это всё, что модель видит при генерации ответа: системный промпт, история переписки, документы, которые вы прикрепили. Размер этого «окна» измеряется в токенах.
Один токен ≈ 0.75 английского слова или 0.3-0.5 русского слова. Длинный документ в 100 000 слов — это примерно 200-300 тысяч токенов. Модели с маленьким контекстом физически не могут «видеть» весь длинный документ — он не помещается.
Что бывает с разными моделями
- ChatGPT: 128k–400k токенов в зависимости от тарифа.
- Claude: до 200k токенов в Pro, до 1M в Enterprise/API.
- Gemini: до 1M токенов в Pro, экспериментально до 2M.
Почему модель «забывает»
Если разговор длинный — старые сообщения могут вытесняться более новыми. У некоторых клиентов (например, ChatGPT в браузере) включается автоматическое сжатие старой истории. У других — старые сообщения просто отрезаются, когда заканчивается окно.
Что такое «память»
Не путайте окно контекста с «памятью» ассистента. Память — это отдельная фича: модель сохраняет факты о вас между чатами в специальное хранилище. Это просто аккуратно подмешанные в системный промпт заметки.
Откройте свой любимый ассистент. Спросите, какой у него предельный размер контекста. Затем прикрепите длинный документ и проверьте, действительно ли модель отвечает с учётом конца документа (попросите процитировать последний абзац).
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Я работаю с длинным документом. Прежде чем отвечать на мой вопрос, процитируй последние два предложения документа. Это нужно мне как доказательство, что ты видишь его до конца, а не только первые страницы. Вопрос: <…>
- Прикрепляют 500-страничный документ к модели с маленьким контекстом и удивляются, что ответ неточный.
- Думают, что «память» = «всё помнит». На самом деле это узкая фича с лимитами.
- Не понимают, что русский текст в токенах «дороже» английского.
- Для длинных документов используйте Claude или Gemini, не короткие модели.
- Если документ всё ещё не помещается — сначала пройдитесь по нему частями, потом сделайте сводную «карту».
- В длинных чатах периодически просите модель самой составить краткую сводку текущего контекста.
Работа с длинными документами, юр-контрактами, кодом, аналитикой — там, где важно сохранить весь контекст в одном окне.
Когда документов больше, чем влезает в окно. В этом случае нужны RAG или поэтапная обработка.