О проекте
Клиент получил приватную LLM-платформу, полностью развёрнутую на собственной серверной инфраструктуре с двумя видеокартами RTX. Никаких утечек данных, предсказуемый latency.
Стек
- 2× NVIDIA RTX (24 GB VRAM)
- vLLM как сервер инференса с батчингом
- AWQ-квантование 4-bit
- nginx + auth-прокси с rate-limit
- Prometheus + Grafana для метрик
Бенчмарки
| Метрика | Значение |
|---|---|
| Latency p50 | 42 ms |
| Tokens/s | 187 |
| Контекст | 32 768 |
| Загрузка GPU | 78% |
Результаты
Приватный AI-стек с окупаемостью за 4–5 месяцев против OpenAI API. После — экономия в разы.
42 ms
latency p50
187 t/s
throughput
4-5 мес
окупаемость



