Запуск LLM локально с Ollama

Установка Ollama, выбор модели (Llama 3, Mistral), квантизация Q4/Q8 и трейдоффы локального инференса против API.

35 мин чтения2 вопроса в квизеГотовый промпт включёнВ работе

Практическое задание

Что сделать после урока

Установите Ollama, запустите `llama3` и вызовите его через Python-клиент OpenAI. Сравните скорость ответа Q4_K_M и Q8_0 на одном запросе.

Установите Ollama, запустите `llama3` и вызовите его через Python-клиент OpenAI. Сравните скорость ответа Q4_K_M и Q8_0 на одном запросе.

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

Ты — ассистент для разработчиков. Отвечай кратко и с примерами кода. Вопрос: {{user_question}}

Prompt

Типичные ошибки

На чём чаще всего спотыкаются

Забывают что Ollama по умолчанию слушает только localhost — для удалённого доступа нужен `OLLAMA_HOST=0.0.0.0`. 2. Используют F16 на GPU с недостаточным VRAM — модель вылетает, нужна квантизация.

Лайфхаки

Что работает, но в гайдах не пишут

`ollama show llama3 --modelfile` — посмотреть системный промпт модели и параметры. 2. `OLLAMA_NUM_PARALLEL=4` — параллельные запросы на многоядерном CPU.

Обсуждение