Запуск LLM локально с Ollama
Установка Ollama, выбор модели (Llama 3, Mistral), квантизация Q4/Q8 и трейдоффы локального инференса против API.
Установите Ollama, запустите `llama3` и вызовите его через Python-клиент OpenAI. Сравните скорость ответа Q4_K_M и Q8_0 на одном запросе.
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Ты — ассистент для разработчиков. Отвечай кратко и с примерами кода. Вопрос: {{user_question}}- Забывают что Ollama по умолчанию слушает только localhost — для удалённого доступа нужен `OLLAMA_HOST=0.0.0.0`. 2. Используют F16 на GPU с недостаточным VRAM — модель вылетает, нужна квантизация.
- `ollama show llama3 --modelfile` — посмотреть системный промпт модели и параметры. 2. `OLLAMA_NUM_PARALLEL=4` — параллельные запросы на многоядерном CPU.