ITOQ
Локальная Llama 3.3
Все проекты
Локальные решения · IT-инфра 2025

Локальная Llama 3.3

Приватная LLM-платформа на собственной инфраструктуре с двумя RTX и API.

О проекте

Клиент получил приватную LLM-платформу, полностью развёрнутую на собственной серверной инфраструктуре с двумя видеокартами RTX. Никаких утечек данных, предсказуемый latency.

Стек

  • 2× NVIDIA RTX (24 GB VRAM)
  • vLLM как сервер инференса с батчингом
  • AWQ-квантование 4-bit
  • nginx + auth-прокси с rate-limit
  • Prometheus + Grafana для метрик

Бенчмарки

Метрика Значение
Latency p50 42 ms
Tokens/s 187
Контекст 32 768
Загрузка GPU 78%

Результаты

Приватный AI-стек с окупаемостью за 4–5 месяцев против OpenAI API. После — экономия в разы.

42 ms
latency p50
187 t/s
throughput
4-5 мес
окупаемость

Другие проекты