Local LLM: Ollama, LM Studio, private stack · Урок 2
Железо: что покупать и зачем
Простой гайд по выбору GPU/Mac для локального запуска.
Главное правило
VRAM (или unified memory на Apple) — главный лимит. Модель должна помещаться в память целиком, иначе всё проседает.
Опции по бюджету
- Apple Silicon (M2/M3/M4 Pro / Max). 16-32GB unified — комфортно для 7B-13B. Лучший «всё-в-одном» вариант. Тише, экономнее.
- NVIDIA GPU (4070-4090). 12-24GB VRAM. Очень быстрый inference, но дорогой и громкий.
- Серверные GPU (A100, H100). Только если у вас есть бизнес-нагрузка. Цена соответствующая.
- CPU-only. Возможно для маленьких моделей (Phi-3, Gemma-2-2B), но медленно.
Что НЕ покупать
- Старые GPU с 8GB VRAM ради 70B-моделей — не влезет.
- Профессиональные карты, если не нужны — overhead.
Калькулятор по памяти
| Модель | FP16 (полная) | Q4 (квантованная) | | --- | --- | --- | | 7B | ~14GB | ~4-5GB | | 13B | ~26GB | ~7-8GB | | 30B | ~60GB | ~17-20GB | | 70B | ~140GB | ~40-45GB |
Принцип
Покупайте железо под реальные задачи, не «на вырост». Если задачи не решились — облако дешевле, чем сидеть с неиспользуемой 4090.
Практическое задание
Что сделать после урока
Сделайте небольшую таблицу: ваши задачи → ожидаемые модели → нужная память. Сравните со своим текущим железом.
Готовый промпт
Шаблон под задачу урока
Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.
Помоги выбрать железо для локального LLM. Бюджет: <…> Задачи: <…> Размер моделей, который мне нужен: <…> Шум / тепло / энергопотребление имеют значение: <…> Дай рекомендацию: Apple Silicon / NVIDIA / CPU-only.
Типичные ошибки
На чём чаще всего спотыкаются
- Покупают карту с 8GB ради 30B — не работает.
- Игнорируют энергопотребление и шум — потом не пользуются.
- Берут «топ за всё» там, где хватило бы middle.
Лайфхаки
Что работает, но в гайдах не пишут
- Apple Mini M2 Pro 32GB — недооценённая рабочая лошадка.
- Б/у RTX 3090 24GB — хороший value, если шум не пугает.
- Облако (Vast.ai, Runpod) для разовых тяжёлых задач.
Когда использовать
Системные локальные сценарии.
Когда не использовать
Эпизодические — облако дешевле.
Квиз — 2 вопроса
1.Главный лимит для локального LLM?
2.Хороший «всё-в-одном» вариант для большинства разработчиков?
Отвечено: 0 из 2