Cloud TPU 消耗选项
本文档介绍了 Cloud TPU 支持的消耗选项。消耗选项是用于请求容量的方法。选择消耗选项时,请考虑以下因素:
- 您需要容量的速度
- 您需要容量的时长
- 您需要固定还是灵活的时间段的容量
- 您的容量是否会被抢占
- 价格
如果您使用的是 Cloud TPU API,则对于每种使用方法,您都需要按需或抢占式配额来满足您要使用的 Cloud TPU 核心数。每个 TPU 版本都有不同的默认按需配额和抢占式配额。如需了解详情,请参阅 Cloud TPU 配额。
如果您将 TPU 与 Google Kubernetes Engine (GKE) 搭配使用,则需要使用 Compute Engine API 配额,这是一种不同的配额。如需详细了解您在 GKE 中为 TPU 使用的配额,请参阅确保您有 TPU 配额。
使用选项 | 工作原理 | 最佳用途 | 支持的 TPU 版本和可用区 | Cloud TPU API 的配额类型 |
---|---|---|---|---|
长期预订 | 您提前请求一年或更长时间的 TPU 资源。 这些资源在该时间段内将专供您使用。 预留可为容量提供最高级别的保障,且具有成本效益,价格低于按需资源。 长期 TPU 预留会附加承诺使用折扣 (CUD)。CUD 提供折扣价格,以换取购买承诺使用合约。如需了解详情,请参阅申请长期预订。 |
长期预留非常适合长时间运行的训练作业和推理工作负载。 | 所有 TPU 版本:请参阅 TPU 区域和可用区 | 按需配额 |
短期预订(日历模式下的未来预订)(预览版) | 您可以请求特定的开始时间和时长(介于 1 到 90 天之间)的 TPU 资源。 这些资源在该时间段内将专供您使用。 预留可为容量提供最高级别的保障,且具有成本效益,价格低于按需资源。 如需了解详情,请参阅使用日历模式申请短期预订。 |
短期预订非常适合需要精确开始时间且具有明确时长的训练和实验工作负载。 | 用于训练和服务的 v6e (Trillium):asia-northeast1-b、us-east5-a 用于训练和服务的 v5p:us-east5-a 用于训练的 v5e:us-west4-a 用于分发的 v5e:us-central1-a |
无需配额 |
按需 | 您请求的 TPU 资源可尽快使用,并且可使用多长时间由您决定。 “按需”模式的灵活性最高。按需资源不会被抢占,但无法保证有足够的可用 TPU 资源来满足您的请求。创建 TPU 资源时,默认是“按需”。如需详细了解如何创建和使用按需 TPU,请参阅 管理 TPU 资源。 |
按需作业非常适合紧急作业和需要灵活结束时间的工作负载。 | 所有 TPU 版本:请参阅 TPU 区域和可用区 | 按需配额 |
灵活启动(预览版) | 您可以请求使用特定时长的 TPU 资源(最长 7 天),而无需提前预留容量。 灵活启动资源来自专用容量池,因此这些资源的可用性高于按需资源。如需详细了解如何将 Flex-start 与 TPU 搭配使用,请参阅 使用 Flex-start 请求 Cloud TPU。 如需详细了解如何将 Flex-start 与 Google Kubernetes Engine (GKE) 搭配使用,请参阅 关于使用 Flex-start 预配模式预配 GPU 和 TPU。 |
灵活开始非常适合实验、小规模测试、为推理工作负载动态预配 TPU、模型微调,以及运行时间少于 7 天的工作负载。 |
用于训练和服务的 v6e (Trillium):asia-northeast1-b、us-east5-a 用于训练的 v5e:us-west4-a 用于分发的 v5e:us-central1-a |
抢占式配额 |
Spot | 您请求的 TPU 资源可能会被抢占。 Spot 虚拟机的价格远低于按需资源。与按需资源相比,Spot 虚拟机可能更容易获取,但可能会随时被抢占(关停)。运行时长度没有限制。如需详细了解 TPU Spot 虚拟机,请参阅 管理 TPU Spot 虚拟机。 |
Spot 非常适合安排低优先级的工作负载,例如模型预训练、模型微调和对可用性中断具有容错性的模拟作业。 | 所有 TPU 版本:请参阅 TPU 区域和可用区 | 抢占式配额 |
后续步骤
您可以通过以下方式开始使用 TPU: