RAG и работа с документами · Урок 1
Что такое RAG и когда он нужен
Главная идея: подмешать в контекст релевантные документы перед ответом.
Идея в одной фразе
RAG = ищем релевантные фрагменты в нашей базе документов и подмешиваем их в промпт. Модель отвечает с опорой на найденное.
Когда RAG лучше длинного контекста
- Много документов (не помещаются в окно).
- Документы обновляются (не хочется их встраивать в промпт каждый раз).
- Важна прозрачность («покажи, на чём основан ответ»).
Когда длинный контекст лучше RAG
- Один документ, который надо полностью «понять».
- Когда чанки рвут смысл.
- Когда вопросы требуют видеть весь контекст одновременно.
Минимальная схема RAG
- Документы → чанки (например, по 500-1000 токенов).
- Чанки → embeddings → векторная БД.
- Вопрос → embedding → поиск top-K чанков.
- Промпт: «Ответь на основе этих чанков».
- Ответ + ссылки на источники.
Практическое задание
Что сделать после урока
Соберите простой RAG над 5-10 PDF: разбейте на чанки, посчитайте embeddings, найдите top-3 на тестовом вопросе.
Готовый промпт
Шаблон под задачу урока
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Ответь на вопрос пользователя строго на основе предоставленных фрагментов документов. Фрагменты: <…> Вопрос: <…> Правила: 1. Если ответа нет во фрагментах — скажи «не нашёл в документах». 2. Указывай источник (имя документа / страница) для каждого утверждения. 3. Не дополняй из общих знаний.
Типичные ошибки
На чём чаще всего спотыкаются
- Делают RAG, когда хватило бы длинного контекста.
- Чанкинг — куски рвут смысл.
- Не указывают источники в ответе.
Лайфхаки
Что работает, но в гайдах не пишут
- Гибридный поиск (BM25 + embeddings) часто лучше чистых embeddings.
- Делайте reranker'ом второй шаг поиска.
- Сначала простой baseline, потом улучшайте по eval-набору.
Когда использовать
Большие корпусы документов, обновляемые знания, требование source-citation.
Когда не использовать
Один длинный документ, на который умеют отвечать длинноконтекстные модели.
Официальные источники
Квиз — 2 вопроса
1.RAG лучше длинного контекста, когда:
2.Что обязательно в ответе RAG?
Отвечено: 0 из 2