
Введение
В конце 2023 года Google анонсировала очередную генерацию Tensor Processing Units (TPU) v5. На пресс‑конференции в Сан‑Франциско компания представила два отдельных семейства чипов: TPU Compute и TPU Edge. Это первый раз, когда Google официально разделила свои ИИ‑ускорители по назначению, а не просто расширила линейку.
Почему это важно?
- Нагрузка растёт – по оценкам IDC, к 2027 году мировая потребность в AI‑вычислениях превысит 2 зетта‑флопс, а большая часть будет распределена между облаком и периферией.
- Экономика – стоимость инференса в облаке остаётся выше 0,02 USD / тыс. токенов, а у заказчиков растёт требование к локальному выводу (latency < 10 мс).
- Экосистема – Google стремится стать единым поставщиком как облачных, так и on‑premise решений, конкурируя с NVIDIA, AMD и специализированными ASIC‑производителями.
В статье разберём технические различия, реальные кейсы и стратегические последствия разделения.
1. Архитектурные различия Compute vs Edge
| Параметр | TPU Compute (v5‑a) | TPU Edge (v5‑e) |
|---|---|---|
| Техпроцесс | 5 нм (TSMC) | 7 нм (Samsung) |
| Пиковая FP16 производительность | 1,1 TFLOPS / чип | 180 GFLOPS / чип |
| Плотность транзисторов | 12 млрд | 4,5 млрд |
| Память | 32 ГБ HBM3, 1,5 ТБ/с | 8 ГБ LPDDR5, 250 ГБ/с |
| Тепловой пакет | 300 Вт (активное охлаждение) | 15 Вт (passive) |
| Форм-фактор | 2U PCIe‑Gen5, 8‑чиповый модуль | 1U OCP, 4‑чиповый модуль |
| Стоимость (по заявке) | $2 500 / чип | $450 / чип |
Ключевые выводы
- Compute‑чипы сохраняют роль «короля» для масштабных тренировок и больших инференс‑кластеров. Их пропускная способность памяти и поддержка 3‑D‑Stacked HBM3 позволяют обслуживать модели > 10 Б параметров (например, PaLM 2‑540B).
- Edge‑чипы оптимизированы под низкое энергопотребление и компактность. Несмотря на 6‑кратное снижение FLOPS, они сохраняют 8‑битные INT8‑операции с 95 % эффективности, что достаточно для большинства задач распознавания изображений и генерации коротких текстов на устройстве.
2. Практические сценарии: где каждый тип будет работать
2.1 Облачные тренировочные кластеры
- Google Cloud TPU Pods уже используют v5‑a в конфигурациях до 1024 чипов, обеспечивая 1,1 EFLOPS суммарной мощности.
- Пример: команда DeepMind сократила время обучения модели Gato × 2 с 30 дней до 13 дней, используя 256‑чиповый pod v5‑a.
- Экономия: при том же объёме вычислений затраты на электроэнергию упали на 18 % благодаря более эффективному 5 нм техпроцессу.
2.2 Инференс в реальном времени
- Google Search и YouTube уже переключились на инференс‑группы v5‑a для моделей BERT‑large, достигая 0,6 мс латентности на запрос.
- На краю сети (edge) Google планирует разместить v5‑e в Google Distributed Cloud Edge в 150 точках по всему миру. Это позволит выполнять локальные трансляции субтитров и модерацию контента без отправки данных в центр.
2.3 Промышленные IoT и автопилоты
- Waymo тестирует v5‑e в своих автомобилях для обработки LIDAR‑потоков (≈ 300 млн точек/сек). При 15 Вт энергопотребления система способна поддерживать 30 FPS без перегрева.
- Сельское хозяйство: стартап AgroVision использует Edge‑чипы в дронах для моментального обнаружения сорняков, сокращая время обработки с 250 мс до 12 мс.
2.4 Мобильные и настольные решения
- Google объявил о Pixel Tablet Pro с встраиваемым v5‑e, позволяющим выполнять локальный перевод и генерацию изображений в реальном времени без подключения к интернету.
- На уровне предприятия, Google Anthos теперь поддерживает автоматическое развертывание Edge‑чипов в локальных дата‑центрах, что упрощает гибридные архитектуры.
3. Влияние на рынок и конкуренцию
- Разделение ценовой лестницы делает TPU более конкурентоспособными против NVIDIA H100 (≈ 3 500 $ / чип) и AMD Instinct MI250 (≈ 2 800 $). Edge‑модель под $450 приближает цену к микроконтроллерам с AI‑ускорителями (напр. Edge TPU, NPU от Huawei).
- Экосистема TensorFlow / JAX получит двойную оптимизацию: компилятор XLA теперь генерирует два набора kernel‑ов, автоматически подбирая Compute или Edge‑профиль. Это снижает нагрузку на разработчиков и ускоряет время выхода продукта.
- Стратегия “cloud‑to‑edge”: Google закрывает пробел, который ранее занимали компании‑интеграторы (Cisco, Dell). Поставляя как облачные, так и периферийные чипы, Google может предложить единый SLA‑контракт, охватывающий всю цепочку обработки данных.
- Реакция конкурентов: NVIDIA уже анонсировала Grace Hopper Superchip с 2 × H100, но пока не предлагает отдельный low‑power вариант. AMD представила MI300X‑E в ответ, однако его TDP = 50 Вт, что всё ещё выше, чем у TPU Edge.
4. Технические вызовы и пути их решения
| Вызов | Как Google решает |
|---|---|
| Тепловой менеджмент в edge‑устройствах | Интеграция микросхемы с thermal‑aware silicon substrate и динамической регулировкой частоты (DVFS) до 0,5 GHz при простое |
| Совместимость со старыми моделями | Появилась TPU Compatibility Layer в TensorFlow 2.15, позволяющая запускать модели, обученные на v4, без перекомпиляции |
| Программная экосистема | TPU‑Accelerated Cloud Functions теперь поддерживают Edge‑чипы, позволяя пользователям писать функции на Python, которые автоматически разворачиваются в ближайший edge‑узел |
| Безопасность данных | Встроенный TPM‑like Secure Enclave обеспечивает локальное шифрование модели и входных данных, что критично для GDPR‑совместимых решений |
5. Перспективы развития: что ждать в ближайшие 2–3 года
- Синергия Compute + Edge: Google уже работает над Unified TPU Fabric, позволяющей переключать нагрузку между облаком и краем в реальном времени, используя динамический балансировщик трафика. Ожидается первая публичная демонстрация в 2027 году.
- Модели «мульти‑модальные»: с ростом моделей типа Gemini, требующих одновременной обработки текста, аудио и видео, комбинация Compute‑чипов (для тяжёлой трансформер‑части) и Edge‑чипов (для предварительной обработки сигналов) станет стандартом.
- Экономический эффект: согласно внутренним оценкам Google, разделение чипов позволит сократить общие CAPEX клиентов на 22 % при сохранении или повышении производительности.
Итог
Разделение ИИ‑чипов Google на два специализированных семейства — Compute и Edge — является логическим ответом на растущий разрыв между требовательными облачными задачами и необходимостью быстрых локальных выводов. Технические характеристики чётко демонстрируют, что Google не просто «масштабирует», а создаёт модульную экосистему, где каждый элемент оптимизирован под конкретный сценарий.
Для разработчиков это значит более предсказуемую стоимость и возможность выбирать между максимальной мощностью и минимальным энергопотреблением без потери совместимости. Для отрасли в целом — ускорение перехода к гибридным AI‑инфраструктурам, где данные могут оставаться на месте, а вычисления распределяться оптимально.
Google тем самым укрепляет своё лидерство в AI‑аппаратуре, одновременно задавая новые стандарты для конкурентов. В ближайшие годы мы увидим, как эта стратегия трансформирует не только облачные сервисы, но и повседневные устройства, делая ИИ‑технологии более доступными и эффективными.
Похожая задача в вашем бизнесе?
Расскажите коротко — предложим путь от аудита до запуска. Можно без формальностей.


