新闻中心

  • 首页 i(name 治理大规模 ML 生命周期:第二部分:多账户基础 机器学习博客

治理大规模 ML 生命周期:第二部分:多账户基础 机器学习博客

2026-01-27 14:32:46

规模化管理机器学习生命周期:多账户基础架构第二部分

关键要点

在AWS上,多账户策略是您基础环境的核心。通过战略性地将工作负载分组到多个AWS账户中,您可以实现资源隔离、成本跟踪和管理简化,从而安全、高效地操作。本文提供有关实施多账户基础架构的指导,内容涵盖数据湖基础、机器学习平台服务、使用案例开发等模块。

在这一部分中,我们将重点讨论:

如何实现推荐的账户和组织单位OU结构,以提供AWS资源的隔离和成本可视化。使用AWS Control Tower来实现基线登机区,以支持数据和ML工作负载的扩展和治理。如何利用AWS安全参考架构确保多账户环境中的数据和ML工作负载安全。使用AWS服务目录在多账户环境中扩展、共享和重用ML。创建网络架构以支持多账户环境,促进多租户环境中的网络隔离和通信。

通过这个多账户基础架构,您可以创建一个灵活的环境,使团队能够快速访问所需资源,同时保持安全性和合规性。

在这一系列的第一部分中,您学习了在AWS上管理和治理机器学习ML和分析工作负载的最佳实践。在这篇文章中,我们将提供实施多账户基础架构的指导,帮助您有效组织、构建和治理多个工作模块,包括数据湖基础、ML平台服务、ML使用案例开发、ML运营、集中特征存储、日志记录和可观察性。

组织单位和账户设计

您可以使用AWS Organizations在AWS环境中集中管理账户。创建组织后,您可以在组织单位OUs内创建账户的层次结构分组。每个OU通常设计为包含一组具有共同操作需求或需相似控制的账户。

推荐的OU结构和账户结构应基于AWS白皮书使用多个账户组织AWS环境。以下图示展示了解决方案架构。

这里只展示与ML和数据平台相关的OU。您还可以增加与推荐OU外的其他OU。接下来的章节将讨论这些推荐OU如何服务于您的ML和数据工作负载,以及您在这些OU内应考虑创建的特定账户。

治理大规模 ML 生命周期:第二部分:多账户基础 机器学习博客

以下图片分别展示了设置多账户基础架构的账户结构以及在AWS Organizations中的实现示例。

推荐的组织单位OUs

推荐的OU包括安全、基础设施、工作负载、部署和沙盒。如果您部署AWS Control Tower强烈推荐,它会创建两个默认的OU:安全OU和沙盒OU。您应使用这些默认OU并创建其余的三个。详细说明请参见创建新OU。

安全OU

安全OU存储与安全AWS环境相关的各种账户。此OU及其中的账户通常由安全团队拥有。

您应该考虑为此OU设置以下初始账户:

安全工具账户:包含通用安全工具及与数据和ML工作负载相关的安全工具。比如,您可以在该账户中使用Amazon Macie为组织的所有成员账户保护数据。日志归档账户:如果您部署AWS Control Tower,该账户将被默认创建并放置于安全OU内。此账户旨在集中接收和归档您整个组织的日志。

基础设施OU

与在AWS上运行的其他类型工作负载类似,您的数据和ML工作负载需要基础设施才能正常运作。基础设施OU包含在您的AWS环境中共享基础设施服务的账户。这些账户通常由基础设施、网络或云卓越中心CCOE团队拥有。

您应考虑为此OU设置以下初始账户:

网络账户:为了促进数据和ML工作负载的可扩展网络架构,建议在该账户中创建传输网关,并在整个组织中共享该传输网关。这将允许以中心辐射的网络架构,私下连接多账户环境中的VPC并在需要时与本地资源沟通。共享服务账户:此账户托管企业级共享服务,例如AWS Managed Microsoft AD和AWS Service Catalog,您可以使用这些服务来促进共享服务的分发。

工作负载OU

工作负载OU的目的是存放不同团队用于创建ML和数据应用的账户。在ML和数据平台的情况下,您将使用以下账户:

ML团队开发/测试/生产账户:每个ML团队可能会有各自的三账户,用于ML Ops生命周期的开发、测试和生产阶段。可选ML中央部署账户:还有可能由ML Ops中央团队或ML CCOE全权管理ML模型的部署。该团队可以为整个组织或特定团队处理部署;无论如何,他们都会有自己的部署账户。数据湖账户:此账户由数据工程或平台团队管理。可以根据业务领域组织多个数据湖账户。本账户位于工作负载OU中。数据治理账户:此账户同样由数据工程或平台团队管理。它充当数据访问的中央治理层。本账户也在工作负载OU中。

部署OU

部署OU包含支持如何构建、验证、推广和发布对工作负载变更的资源和工作负载。在ML和数据应用的情况下,此OU将包含主办您产品的管道和部署机制的账户。这些将包括以下账户:

DevOps账户:此账户托管用于部署提取、转换和加载ETL作业及其他应用的管道。ML共享服务账户:这是为平台ML工程师创建的主要账户,存放与模型开发和部署相关的产品组合。

如果同一团队管理ML工程资源也负责管道和部署,则可以将这两个账户合并为一个。然而,每个账户应由一个团队负责;一旦有不同的独立团队处理这些过程,就应该有独立的账户。这可以确保单个团队对其账户内的资源负责,从而在每个团队中实现适当的计费、安全性和合规性。

沙盒OU

沙盒OU通常包含与您组织内的个人或团队相关的账户,用于概念验证。在我们的ML平台中,这可以是平台和数据科学家团队希望创建的ML或数据服务的概念验证。我们建议使用合成数据进行概念验证,并避免在沙盒环境中使用生产数据。

AWS Control Tower

AWS Control Tower使您能够快速开始实施ML平台的最佳实践。当您部署AWS Control Tower时,您的多账户AWS环境将根据预定义的最佳实践进行初始化。AWS Control Tower配置和编排其他AWS服务,包括Organizations、AWS Service Catalog和AWS IAM Identity Center。AWS Control Tower帮助您创建基线登机区,这是一个基于安全性和合规性最佳实践的良好架构的多账户环境。作为初始化多账户基础架构的第一步,您应设置AWS Control Tower。

针对我们的ML平台,AWS Control Tower帮助我们完成四项基本任务和配置:

组织结构:根据前面讨论的账户和OU,AWS Control Tower为您提供安全和沙盒OU及安全工具和日志账户。账户供应:这使您可以轻松地创建符合组织最佳实践的新账户并进行扩展。它允许您通过AWS Service Catalog提供自己的引导模板如下一节所述。访问管理:AWS Control Tower与IAM身份中心集成,为您的登机区的基本操作提供初始权限集和组。控制:AWS Control Tower实施预防性、侦测性和积极控制,帮助您治理资源并监控多个AWS账户组的合规性。

通过IAM身份中心进行访问和身份管理

在使用AWS Control Tower建立登机区并创建必要的额外账户和OU后,下一步就是向ML和数据平台的各类用户授予访问权限。建议主动确定哪些用户需要访问特定账户,并概述这些决定的理由。在IAM身份中心中,组、角色和权限集的概念使您能够为平台内不同角色创建细粒度访问。

用户可以组织为两个主要组:平台范围的和团队特定的用户组。平台范围的用户组包含一些中央团队,如ML工程和登机区安全,它们被分配访问平台的基础账户。团队特定组在团队层面运作,称为团队管理员和数据科学家等角色。这些组是动态的,创建新团队后为它们分配相应的账户。

以下表格展示了一些平台范围内的用户组示例。

用户组描述权限集账户AWSControlTowerAdmins负责管理登机区中的AWS Control TowerAWSControlTowerAdmins 和 AWSSecurityAuditors管理账户AWSNetworkAdmins管理登机区的网络资源NetworkAdministrator网络账户AWSMLEngineers负责管理平台的ML中心资源PowerUserAccessML共享服务账户AWSDataEngineers负责管理平台的数据湖、ETL和数据流程PowerUserAccess数据湖账户

下表展示了部分团队特定组的示例。

用户组描述权限集账户TeamLead管理员团队的组AdministratorAccess团队账户DataScientists数据科学家的组。此组添加为团队SageMaker域的访问权限DataScientist团队账户MLEngineers团队可能有其他角色,专注于与匹配的平台范围团队相关的特定任务MLEngineering团队账户DataEngineersDataEngineering团队账户

AWS Control Tower会自动生成IAM身份中心组,并为创建的各个登机区账户配置权限集关系。您可以使用这些预配置的组作为平台的中央团队,或创建自定义组。有关这些组的更多见解,请参见IAM身份中心组和AWS Control Tower。以下截图展示了AWS Control Tower控制台的示例,您可以查看账户并确定每个账户上哪些组具有权限。

IAM身份中心还提供登录页面,供登机区用户访问不同资源,如账户或SageMaker域,并根据您授予他们的不同权限访问。

飞机专用加速器免费版

AWS安全参考架构

AWS SRA是在多账户环境中部署AWS安全服务的全面指南集。它可以帮助您设计、实施和管理AWS安全服务,以符合AWS推荐的最佳实践。

为了帮助扩展安全操作并在组织内全面应用安全工具,建议您使用AWS SRA配置所需的安全服务和工具。您可以使用AWS SRA设置关键安全工具服务,如Amazon GuardDuty、Macie和AWS Security Hub。AWS SRA允许您在整个多账户环境内应用这些服务并集中可见性。此外,当将来创建账户时,您可以使用AWS SRA配置所需的自动化,以扩展到新的账户。

以下图表展示了AWS SRA的集中部署。

通过AWS服务目录扩展您的ML工作负载

在您组织内,可能会有不同的团队对应不同的业务单元。这些团队将有类似的基础设施和服务需求,可能会随着时间的推移而变化。通过AWS服务目录,您可以通过允许IT管理员创建、管理和分发经批准产品的组合,来扩展您的ML工作负载,最终用户可以在个性化门户中访问所需的产品。AWS服务目录与AWS Control Tower和SageMaker有直接集成。

建议您使用AWS服务目录的组合和产品来增强和扩展AWS环境中的以下能力:

账户供应:云基础设施团队应该在共享基础设施账户中维护一组账户引导产品组合。这些产品是包含账户创建时应部署的基本基础设施的模板,例如VPC配置、标准IAM角色和控制。此组合可以与AWS Control Tower和管理账户本地共享,因此可以在创建新账户时直接使用这些产品。更多详细信息,请参见通过AWS服务目录供应账户。分析基础设施自助服务:该组合应由中央分析团队或ML共享服务团队创建和维护。此组合旨在托管不同系列分析产品的模板,以供平台ML和分析团队使用。此组合与整个工作负载OU共享有关更多信息,请参见共享组合。产品示例包括根据组织最佳实践配置的SageMaker域,或供团队进行高级分析的Amazon Redshift集群。ML模型构建和部署:该能力映射到两个不同的组合,由平台ML共享服务团队维护:模型构建组合:此组合包含用于构建、训练、评估和注册您模型的产品,供所有ML团队使用。此组合与工作负载OU共享,并集成 SageMaker项目模板。模型部署组合:该组合包含在可靠且一致的方式中按规模部署模型的产品。它将包含用于不同类型的部署的产品,如实时推断、批推断和多模型端点。此组合可以由中心ML工程团队在ML共享服务账户内隔离以实现更集中化的ML战略,或与工作负载OU账户共享并集成SageMaker项目模板,从而将责任分发到各个ML团队。

让我们探讨如何在我们的平台中处理AWS服务目录的产品和组合。以下两个架构展示了如何使用AWS云开发工具包AWS CDK和AWS CodePipeline治理AWS服务目录的产品。每个组合都有自己的独立管道和代码库。管道将AWS CDK服务目录产品构建块合成实际的AWS服务目录产品,并将其部署到组合中,之后可供消费和使用。有关实施的更多详细信息,请参见通过AWS服务目录治理CI/CD最佳实践。

以下图表展示了账户供应组合的架构。

![账户供应组合的架构](https//d290