Local LLM: Ollama, LM Studio, private stack · Урок 1

Ollama: первые 30 минут

Как поставить Ollama, выбрать модель и сделать первый запрос.

15 мин чтения2 вопроса в квизеГотовый промпт включёнВ работе

Установка

curl -fsSL https://ollama.com/install.sh | sh — Linux. На Mac — brew install ollama или dmg с сайта. На Windows — официальный installer.

Первый запуск

ollama run llama3.1:8b — скачивает модель и стартует чат.

После этого Ollama держит OpenAI-совместимый API на http://localhost:11434. Это значит, что любой клиент, поддерживающий OpenAI API, можно перенастроить на локальную модель.

Что попробовать в первый день

llama3.1:8b — универсальная, быстрая.
qwen2.5:7b — отличная мультиязычность.
deepseek-coder:6.7b — код.
nomic-embed-text — embeddings.

Железо

8B-модели — комфортно на 16GB RAM + GPU 8GB+ или Apple Silicon M1 Pro.
13B-модели — 24GB RAM + GPU 12GB+ или M2 Pro+.
70B+ — серьёзная workstation или сервер.

Принцип

Начните с маленькой модели. Если не справляется на ваших задачах — поднимайте размер.

Практическое задание

Что сделать после урока

Поставьте Ollama. Запустите llama3.1:8b. Сделайте 5 типовых запросов. Сравните с ChatGPT/Claude.

Проверка задания

Поставьте Ollama. Запустите llama3.1:8b. Сделайте 5 типовых запросов. Сравните с ChatGPT/Claude.

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

(Через localhost API Ollama)

POST http://localhost:11434/api/chat
{
  "model": "qwen2.5:7b",
  "messages": [
    { "role": "system", "content": "Ты — мой ассистент по разработке. Отвечай по-русски." },
    { "role": "user", "content": "<задача>" }
  ]
}

Песочница промптов

Prompt

Типичные ошибки

На чём чаще всего спотыкаются

Запускают огромную модель на слабом GPU — 1 токен в секунду.
Сравнивают с GPT-5 — ожидание не оправдывается.
Не выходят на quantized-версии моделей.

Лайфхаки

Что работает, но в гайдах не пишут

Quantized (Q4_K_M) — почти то же качество, в разы меньше памяти.
Apple Silicon отлично подходит для маленьких/средних моделей.
Связка: локальная модель для чувствительных данных + облако для тонкой работы.

Когда использовать

Прайваси-сценарии, эксперименты, дешёвая обработка больших объёмов.

Когда не использовать

Если у вас слабое железо и не критична приватность — облако дешевле в работе.

Официальные источники

Ollama

Квиз — 2 вопроса

1.Чем хороша Ollama для старта?

2.Quantized-модель — это:

Отвечено: 0 из 2

Войдите, чтобы сохранять прогресс и отмечать пройденные уроки.

Войти

Железо: что покупать и зачем →

Обсуждение

Войдите, чтобы оставить комментарий.

Пока нет комментариев. Будьте первым!