Local LLM: Ollama, LM Studio, private stack · Урок 2

Железо: что покупать и зачем

Простой гайд по выбору GPU/Mac для локального запуска.

15 мин чтения2 вопроса в квизеГотовый промпт включёнВ работе

Главное правило

VRAM (или unified memory на Apple) — главный лимит. Модель должна помещаться в память целиком, иначе всё проседает.

Опции по бюджету

Apple Silicon (M2/M3/M4 Pro / Max). 16-32GB unified — комфортно для 7B-13B. Лучший «всё-в-одном» вариант. Тише, экономнее.
NVIDIA GPU (4070-4090). 12-24GB VRAM. Очень быстрый inference, но дорогой и громкий.
Серверные GPU (A100, H100). Только если у вас есть бизнес-нагрузка. Цена соответствующая.
CPU-only. Возможно для маленьких моделей (Phi-3, Gemma-2-2B), но медленно.

Что НЕ покупать

Старые GPU с 8GB VRAM ради 70B-моделей — не влезет.
Профессиональные карты, если не нужны — overhead.

Калькулятор по памяти

| Модель | FP16 (полная) | Q4 (квантованная) | | --- | --- | --- | | 7B | ~14GB | ~4-5GB | | 13B | ~26GB | ~7-8GB | | 30B | ~60GB | ~17-20GB | | 70B | ~140GB | ~40-45GB |

Принцип

Покупайте железо под реальные задачи, не «на вырост». Если задачи не решились — облако дешевле, чем сидеть с неиспользуемой 4090.

Практическое задание

Что сделать после урока

Сделайте небольшую таблицу: ваши задачи → ожидаемые модели → нужная память. Сравните со своим текущим железом.

Проверка задания

Сделайте небольшую таблицу: ваши задачи → ожидаемые модели → нужная память. Сравните со своим текущим железом.

Ваш ответ

Готовый промпт

Шаблон под задачу урока

Скопируйте и адаптируйте под свой контекст. Текст в треугольных скобках — то, что нужно заменить.

Помоги выбрать железо для локального LLM.

Бюджет: <…>
Задачи: <…>
Размер моделей, который мне нужен: <…>
Шум / тепло / энергопотребление имеют значение: <…>

Дай рекомендацию: Apple Silicon / NVIDIA / CPU-only.

Песочница промптов

Prompt

Типичные ошибки

На чём чаще всего спотыкаются

Покупают карту с 8GB ради 30B — не работает.
Игнорируют энергопотребление и шум — потом не пользуются.
Берут «топ за всё» там, где хватило бы middle.

Лайфхаки

Что работает, но в гайдах не пишут

Apple Mini M2 Pro 32GB — недооценённая рабочая лошадка.
Б/у RTX 3090 24GB — хороший value, если шум не пугает.
Облако (Vast.ai, Runpod) для разовых тяжёлых задач.

Когда использовать

Системные локальные сценарии.

Когда не использовать

Эпизодические — облако дешевле.

Квиз — 2 вопроса

1.Главный лимит для локального LLM?

2.Хороший «всё-в-одном» вариант для большинства разработчиков?

Отвечено: 0 из 2

Войдите, чтобы сохранять прогресс и отмечать пройденные уроки.

Войти

← Ollama: первые 30 минут Реальные сценарии →

Обсуждение

Войдите, чтобы оставить комментарий.

Пока нет комментариев. Будьте первым!