RAG и векторные базы данных · Урок 5
Загрузчики документов: PDF, DOCX, HTML, Markdown, код
Извлечение чистого текста из PDF (PyMuPDF, pdfplumber), DOCX, HTML (BeautifulSoup), Markdown и кода с сохранением структуры.
Извлечение чистого текста из PDF (PyMuPDF, pdfplumber), DOCX, HTML (BeautifulSoup), Markdown и кода с сохранением структуры.