LLM Engineer: от локального запуска до продакшна · Урок 7
Оптимизация инференса: vLLM, батчинг, Flash Attention
vLLM PagedAttention, continuous batching, Flash Attention 2 и квантизация GPTQ/AWQ для production-инференса.
vLLM PagedAttention, continuous batching, Flash Attention 2 и квантизация GPTQ/AWQ для production-инференса.