Google Cloud
Google周四(12/7)发表了新的张量处理器(Tensor Processing Unit)Cloud TPU v5p、超级电脑架构AI Hypercomputer,以及资源管理工具Dynamic Workload Scheduler,以协助组织执行与处理AI任务。
Google甫於今年11月推出Cloud TPU v5e,再於本周发表Cloud TPU v5p,前者强调的是成本效益,後者号称是迄今最强大的TPU。每个TPU v5p pod具备8,960个晶片,晶片间的互连速度达4,800 Gbps,相较於上一代的TPU v4,Cloud TPU v5p提供了2倍的FLOPS与3倍的高频宽记忆体(HBM)。
由於Cloud TPU v5p是效能取向,因此在训练大型LLM模型时的速度,比TPU v4快了2.8倍,在第二代 SparseCores的助益下,TPU v5p训练嵌入式密集模型的速度,也比TPU v4快了1.9倍。
至於AI Hypercomputer则是个超级电脑架构,它整合了最佳化效能的硬体、开源软体、主要的各种机器学习框架,以及灵活的消费模式。Google解释,传统上通常藉由强化分散的元件来处理严苛要求的AI任务,然而,AI Hypercomputer则是利用系统上的协同设计来提高AI在训练、微调与服务上的效率及生产力。
在硬体效能的最佳化上,AI Hypercomputer具备基於超大规模资料中心基础设施在运算、储存与网路设备的最佳化设计;亦允许开发者透过开源软体来存取相关硬体,以微调与管理AI任务,包括支援JAX、TensorFlow与PyTorch等机器学习框架,以及Multislice Training与Multihost Inferencing等软体,并深度整合了Google Kubernetes Engine(GKE)与Google Compute Engine。
AI Hypercomputer提供了更灵活的消费模式,除了特定用量的折扣(Committed Use Discounts,CUD),以及随选(On-Demand)与竞价(Spot)之外,AI Hypercomputer也藉由全新的Dynamic Workload Scheduler,来提供专为AI任务设计的两种消费模式,Flex Start与Calendar。
Dynamic Workload Scheduler为一资源管理及任务调度平台,它支援Cloud TPU与Nvidia GPU,可同时调度所需的所有加速器来协助用户最佳化支出。其中的Flex Start主要用来微调模型、实验、较短的训练任务、蒸馏、离线推理及批次任务,并在准备执行请求GPU与TPU容量,是一种相对经济的选择。
而Calendar模式则可替AI任务预留开始时间,适用於需要精确开始时间,与特定持续期间的训练及实验性任务,可於此一固定时间的区域中请求GPU容量,所持续的期间可以是7天或14天,最早可提前8周购买。
图片来源/Google Cloud