Ollama: первые 30 минут
Как поставить Ollama, выбрать модель и сделать первый запрос.
Установка
curl -fsSL https://ollama.com/install.sh | sh — Linux.
На Mac — brew install ollama или dmg с сайта.
На Windows — официальный installer.
Первый запуск
ollama run llama3.1:8b — скачивает модель и стартует чат.
После этого Ollama держит OpenAI-совместимый API на http://localhost:11434. Это значит, что любой клиент, поддерживающий OpenAI API, можно перенастроить на локальную модель.
Что попробовать в первый день
- llama3.1:8b — универсальная, быстрая.
- qwen2.5:7b — отличная мультиязычность.
- deepseek-coder:6.7b — код.
- nomic-embed-text — embeddings.
Железо
- 8B-модели — комфортно на 16GB RAM + GPU 8GB+ или Apple Silicon M1 Pro.
- 13B-модели — 24GB RAM + GPU 12GB+ или M2 Pro+.
- 70B+ — серьёзная workstation или сервер.
Принцип
Начните с маленькой модели. Если не справляется на ваших задачах — поднимайте размер.
Поставьте Ollama. Запустите llama3.1:8b. Сделайте 5 типовых запросов. Сравните с ChatGPT/Claude.
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
(Через localhost API Ollama)
POST http://localhost:11434/api/chat
{
"model": "qwen2.5:7b",
"messages": [
{ "role": "system", "content": "Ты — мой ассистент по разработке. Отвечай по-русски." },
{ "role": "user", "content": "<задача>" }
]
}- Запускают огромную модель на слабом GPU — 1 токен в секунду.
- Сравнивают с GPT-5 — ожидание не оправдывается.
- Не выходят на quantized-версии моделей.
- Quantized (Q4_K_M) — почти то же качество, в разы меньше памяти.
- Apple Silicon отлично подходит для маленьких/средних моделей.
- Связка: локальная модель для чувствительных данных + облако для тонкой работы.
Прайваси-сценарии, эксперименты, дешёвая обработка больших объёмов.
Если у вас слабое железо и не критична приватность — облако дешевле в работе.