Локальная Llama 3.3

О проекте

Клиент получил приватную LLM-платформу, полностью развёрнутую на собственной серверной инфраструктуре с двумя видеокартами RTX. Никаких утечек данных, предсказуемый latency.

Стек

2× NVIDIA RTX (24 GB VRAM)
vLLM как сервер инференса с батчингом
AWQ-квантование 4-bit
nginx + auth-прокси с rate-limit
Prometheus + Grafana для метрик

Бенчмарки

Метрика	Значение
Latency p50	42 ms
Tokens/s	187
Контекст	32 768
Загрузка GPU	78%

Результаты

Приватный AI-стек с окупаемостью за 4–5 месяцев против OpenAI API. После — экономия в разы.

42 ms

latency p50

187 t/s

throughput

4-5 мес

окупаемость

Локальная Llama 3.3

О проекте

Стек

Бенчмарки

Результаты

Другие проекты

Aliterra

n8n Контент-завод YouTube

Унификация