RAG и работа с документами · Урок 2
Chunking, embeddings, retrieval
Где живут типичные ошибки RAG и как их избегать.
Chunking
- 500-1000 токенов на чанк — стартовая точка.
- Перекрытие 50-100 токенов снижает «обрыв смысла».
- Логические границы (параграф, раздел) лучше произвольных.
- Сохраняйте метаданные: doc_id, page, section.
Embeddings
- Подойдут современные модели: OpenAI text-embedding-3-large, Cohere embed v3, Voyage embed-v2.
- Один project = одна модель embeddings (несовместимы между собой).
- Кэшируйте embeddings — это сильно экономит.
Retrieval
- Чистый cosine similarity часто шумит.
- Используйте hybrid (BM25 + vector).
- Reranker (cohere-rerank, BGE) на втором проходе сильно поднимает качество.
- top-K = 5-10 для большинства задач.
Что меряем
- Recall@K: попадает ли реально нужный чанк в top-K.
- Answer quality на eval-наборе.
- Latency.
Практическое задание
Что сделать после урока
Сделайте eval-набор 30 пар «вопрос — эталонный чанк». Прогоните на разных стратегиях chunking. Измерьте Recall@10.
Готовый промпт
Шаблон под задачу урока
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Помоги настроить chunking. Документы: <…> Тип контента (юр / тех / маркетинг): <…> Средняя длина абзаца: <…> Дай: - Стратегию разбиения. - Размер чанка и перекрытие. - Какие метаданные сохранить. - Как валидировать.
Типичные ошибки
На чём чаще всего спотыкаются
- Слишком крупные чанки — теряется точность.
- Слишком мелкие — теряется контекст.
- Не сохраняют метаданные.
Лайфхаки
Что работает, но в гайдах не пишут
- Перекрытие 50-100 токенов — простой fix против «обрыва».
- Reranker почти всегда улучшает результат.
- Метаданные = возможность фильтрации по source/тегу.
Когда использовать
Любая RAG-система.
Когда не использовать
Не RAG.
Официальные источники
Квиз — 2 вопроса
1.Что значительно поднимает качество retrieval?
2.Что лучше всего хранить вместе с чанком?
Отвечено: 0 из 2