Tác giả: Pradeep Misra, Ramesh H Singh, và Sandhya Edupuganti
Ngày phát hành: 28 MAR 2025
Chuyên mục: Amazon SageMaker Lakehouse, Analytics, Announcements, Technical How-to
Thế hệ tiếp theo của SageMaker tập hợp các khả năng machine learning và analytics của AWS được áp dụng rộng rãi, mang lại trải nghiệm tích hợp với quyền truy cập thống nhất vào tất cả dữ liệu. Amazon SageMaker Lakehouse hỗ trợ truy cập dữ liệu thống nhất, và Amazon SageMaker Catalog, được xây dựng trên Amazon DataZone, cung cấp các tính năng catalog và governance để đáp ứng nhu cầu security của doanh nghiệp. Amazon SageMaker Catalog hiện hỗ trợ các quy tắc metadata cho phép các tổ chức thực thi các tiêu chuẩn metadata trên các quy trình xuất bản và đăng ký dữ liệu.
Một quy tắc là một thỏa thuận chính thức thực thi các yêu cầu metadata cụ thể trên các workflow của người dùng (ví dụ: xuất bản assets vào catalog, yêu cầu truy cập dữ liệu) trong cổng Amazon SageMaker Unified Studio. Chẳng hạn, một quy tắc thực thi metadata có thể chỉ định thông tin cần thiết để tạo một subscription request hoặc publishing a data asset hoặc một data product vào catalog, đảm bảo sự phù hợp với các tiêu chuẩn của tổ chức. Các quy tắc metadata cũng cho phép tạo các workflow phê duyệt tùy chỉnh cho việc đăng ký assets, sử dụng metadata đã thu thập để tạo điều kiện cho các quyết định truy cập hoặc tự động hoàn thành – bên ngoài SageMaker.
Bằng cách chuẩn hóa các thực hành metadata, Amazon SageMaker Catalog cho phép khách hàng đáp ứng các yêu cầu compliance, nâng cao khả năng sẵn sàng audit và hợp lý hóa các workflow truy cập để đạt hiệu quả và kiểm soát tốt hơn. Một khách hàng như vậy là Amazon Shipping Tech, sử dụng SageMaker Catalog để cataloging, khám phá, chia sẻ và governance trên toàn bộ hệ sinh thái dữ liệu của họ:
“Chúng tôi đang xây dựng một Analytics Ecosystem để thúc đẩy khám phá trong toàn tổ chức – nhưng nếu không có metadata nhất quán, ngay cả dữ liệu giá trị nhất của chúng tôi cũng có thể không được sử dụng. Tính năng này trao quyền cho nhiều nhóm hơn để tích cực đóng góp vào việc quản lý metadata với governance phù hợp. Nó cho phép chúng tôi đặt ra các tiêu chuẩn rõ ràng cho các data producer đồng thời hợp lý hóa việc thu thập các chi tiết đăng ký cần thiết – không cần thêm template. Bằng cách thực thi các thuộc tính metadata tiêu chuẩn, chúng tôi cải thiện khả năng khám phá, thêm context vào mỗi request và tăng cường hỗ trợ cho các giải pháp analytics và GenAI.”
— Saurabh Pandey, Kỹ sư dữ liệu chính tại Amazon Shipping Tech
Các trường hợp sử dụng mẫu
Các quy tắc metadata có thể giúp ích trong các trường hợp sử dụng sau:
- Một producer tại một công ty ô tô đang chuẩn bị xuất bản một dataset mới vào data catalog của tổ chức. Chủ sở hữu domain cho domain ô tô yêu cầu producer phải bao gồm các trường metadata như Model Year, Region và Compliance Status. Trước khi dataset có thể được xuất bản, các kiểm tra tự động đảm bảo rằng các trường này được điền chính xác theo các tiêu chuẩn đã định trước.
- Một consumer đang yêu cầu quyền truy cập vào các data assets trong SageMaker. Để đáp ứng các tiêu chuẩn của tổ chức và hỗ trợ nhu cầu audit và reporting, họ phải hoàn thành subscription request, điền vào một biểu mẫu chi tiết bao gồm project purpose và đính kèm một liên kết email với bằng chứng pre-approval và compliance training để yêu cầu đăng ký cho data product tài chính. Chủ sở hữu dữ liệu xem xét request, kiểm tra xem tất cả metadata cần thiết đã được cung cấp trước khi cấp quyền truy cập.
Các lợi ích chính
Các lợi ích chính của các quy tắc thực thi metadata mới bao gồm:
- Kiểm soát nâng cao cho chủ sở hữu domain (unit) – Admin có thể thực thi các trường metadata bổ sung trên các workflow đăng ký và xuất bản, mà người dùng dữ liệu phải tuân thủ. Quá trình này hỗ trợ các đánh giá kỹ lưỡng và thực thi compliance của tổ chức.
- Hỗ trợ workflow tùy chỉnh – Bạn có thể tạo các workflow tùy chỉnh để thực hiện đăng ký trên các assets không được quản lý bằng cách thu thập metadata cần thiết từ data consumer. Metadata này được sử dụng để cấu hình quyền truy cập hoặc hỗ trợ các yêu cầu kinh doanh cụ thể.
Trong bài viết này, chúng tôi hướng dẫn bạn qua hai workflow: thiết lập các quy tắc thực thi metadata cho một domain cụ thể và xuất bản một asset hoặc data product trong một catalog, và thiết lập các quy tắc thực thi metadata cho một domain cụ thể và đăng ký một asset hoặc data product thuộc sở hữu của một project trong domain đó.
Tổng quan giải pháp: Thực thi metadata cho việc xuất bản
Trong giải pháp này, chúng tôi sẽ hướng dẫn bạn qua hai workflow: thiết lập thực thi metadata cho việc xuất bản và thiết lập thực thi metadata cho việc đăng ký.
Điều kiện tiên quyết
Để làm theo bài viết này, bạn nên có một domain SageMaker Unified Studio được thiết lập với quyền domain owner hoặc domain unit owner. Để biết hướng dẫn, hãy tham khảo hướng dẫn Bắt đầu sau.
Thiết lập thực thi metadata cho việc xuất bản
Trong phần này, chúng tôi sẽ chỉ cho bạn cách thiết lập các quy tắc metadata cho một domain cụ thể với tư cách là domain admin. Chúng tôi cũng giải thích điều gì xảy ra khi bạn xuất bản một asset hoặc data product trong một catalog với các quy tắc này được áp dụng.
Tạo một đơn vị miền cho nhóm marketing
Với tư cách là domain admin, hãy hoàn thành các bước sau:
- Trên console SageMaker Unified Studio, chọn menu thả xuống Govern và chọn Domain units.

- Chọn CREATE DOMAIN UNIT.

- Cung cấp các chi tiết được hiển thị trong ảnh chụp màn hình sau và chọn CREATE DOMAIN UNIT.

Bạn có thể thấy domain unit như được hiển thị trong ảnh chụp màn hình sau.

Bật chính sách tạo biểu mẫu metadata trong đơn vị miền Marketing
Hoàn thành các bước sau:
- Điều hướng đến tab AUTHORIZATION POLICIES trong domain unit Marketing và chọn Metadata form creation policy.

- Chọn ADD POLICY GRANT.

- Chọn All projects in a domain unit và thêm một policy grant.
- Bạn cũng có thể chọn các project cụ thể có thể tạo biểu mẫu metadata.
- Chọn ADD POLICY GRANT.

Bạn có thể thấy policy hiện đã được tạo cho domain unit Marketing.

Tạo một biểu mẫu metadata để thực thi cho các tài sản trước khi xuất bản
Để tạo một biểu mẫu metadata, hãy hoàn thành các bước sau:
- Trong project
publish-1, chọn Metadata entities dưới Project catalog trong navigation pane. - Trên tab Metadata forms, chọn CREATE METADATA FORM.

- Cung cấp display name, technical name và description.
- Chọn CREATE METADATA FORM.

- Sau khi bạn tạo biểu mẫu, bạn có thể chọn CREATE FIELD để thực thi các field phải có trong tất cả các assets đã xuất bản.
- Cung cấp các chi tiết như được hiển thị trong ảnh chụp màn hình sau.
- Chọn Searchable, Required và Publishing vì các field này là bắt buộc trước khi xuất bản.
- Chọn CREATE FIELD.

- Thêm một field khác như được hiển thị trong ảnh chụp màn hình sau.

Cả hai field được tạo với hành động Publishing sẽ yêu cầu giá trị trước khi xuất bản vào catalog.

Tạo quy tắc cho việc xuất bản tài sản
Hoàn thành các bước sau:
- Trong project
publish-1, dưới Domain Management trong navigation pane, chọn Domain units. - Chọn domain unit Marketing.

- Trên tab Rules, chọn ADD.

- Tạo cấu hình rule với các chi tiết trong ảnh chụp màn hình sau và thêm biểu mẫu metadata đã tạo ở bước trước.
- Bạn có thể chọn scope của enforcement theo asset type và project.
- Chọn ADD RULE để tạo rule.

Quy tắc thực thi xuất bản publish_rules hiện đã được tạo.

Tạo một dự án trong đơn vị miền Marketing
Tạo một project có tên publish-1 trong domain unit Marketing. Để tìm hiểu cách tạo một project, hãy tham khảo Tạo một project.
Tạo một tài sản trong dự án
Các rule hoạt động trên các assets được quản lý bởi SageMaker Catalog hoặc trên các custom assets. Để tạo một asset, hãy hoàn thành các bước sau:
- Trong project
publish-1, chọn Assets dưới Project catalog trong navigation pane. - Trên menu thả xuống Create, chọn Create asset.

- Cung cấp asset name và description, sau đó chọn Next.

Đối với giải pháp này, bạn sẽ tạo một bộ sưu tập đối tượng Amazon Simple Storage Service (Amazon S3).
- Đối với Asset type, chọn S3 object collection.
- Đối với S3 location ARN, nhập Amazon Resource Name (ARN) của đối tượng S3.
- Chọn Next.

- Chọn CREATE.

Tài sản marketing_campaign_asset hiện đã được tạo. Đây vẫn là một inventory asset và chưa được xuất bản vào catalog.

Thực thi quy tắc xuất bản
Chi tiết asset hiện cho thấy các giá trị bắt buộc bị thiếu đối với biểu mẫu bắt buộc Publish_form.

Bạn có thể thử xuất bản mà không có các field bắt buộc và hệ thống sẽ báo lỗi để thực thi các quy tắc metadata xuất bản, như được hiển thị trong ảnh chụp màn hình sau.

Để khắc phục sự cố, hãy chỉnh sửa giá trị cho biểu mẫu metadata để cung cấp thông tin cần thiết.

Cung cấp chi tiết cho các field và chọn SAVE.

Chọn PUBLISH ASSET ngay bây giờ và asset sẽ được xuất bản vào catalog.

Bạn có thể thấy asset được xuất bản với các field bắt buộc được thực thi bằng các rule.

Thiết lập thực thi metadata cho các yêu cầu đăng ký
Trong phần này, chúng tôi sẽ chỉ cho bạn cách thiết lập các quy tắc metadata cho một domain cụ thể với tư cách là domain admin. Chúng tôi cũng giải thích điều gì xảy ra khi bạn đăng ký một asset hoặc data product với các quy tắc này được áp dụng.
Tạo quy tắc cho việc đăng ký tài sản
Hoàn thành các bước sau:
- Điều hướng đến project được sử dụng trong phần trước và chọn Metadata entities dưới Project catalog trong navigation pane.
- Trên tab Metadata forms, chọn CREATE METADATA FORM để tạo một biểu mẫu mới.

- Cung cấp form name và description.’
- Sau đó chọn CREATE METADATA FORM.

- Sau khi bạn tạo biểu mẫu, bạn có thể chọn CREATE FIELD để thực thi các field phải có trong tất cả các assets đã xuất bản.

- Cung cấp các chi tiết như được hiển thị trong ảnh chụp màn hình sau.
- Chọn Searchable, Required và Publishing vì các field này là bắt buộc trước khi xuất bản.
- Chọn CREATE FIELD.

- Thêm một field khác như được hiển thị trong ảnh chụp màn hình sau.

Cả hai field được tạo với hành động Publishing sẽ yêu cầu giá trị trước khi xuất bản vào catalog.

Tạo quy tắc cho việc đăng ký tài sản
Hoàn thành các bước sau:
- Trên trang project, chọn Domain units dưới Domain Management trong navigation pane.
- Chọn domain unit Marketing.

- Trên tab Rules, chọn ADD để thêm một rule mới.

- Cung cấp chi tiết cho rule mới.
- Chỉ định action là Subscription request.
- Thêm biểu mẫu metadata đã tạo ở các bước trước (
Subscribe_form). - Chọn scope và project để enforcement như được hiển thị trong ảnh chụp màn hình sau.
- Chọn ADD RULE.

Bạn sẽ thấy subscription enforcement rule hiện đã được tạo.

Đăng ký tài sản
Hoàn thành các bước sau để đăng ký tài sản:
- Trên trang project, điều hướng đến marketing asset.
- Chọn SUBSCRIBE.

Biểu mẫu đăng ký hiện được đính kèm trong request để người dùng cung cấp thông tin.

Sau khi data consumer gửi subscription request, data producer sẽ nhận được request đó cùng với metadata đã cung cấp – chẳng hạn như Use Case. Điều này cho phép các producer xem xét request trước khi cấp quyền truy cập.
Dọn dẹp
Để tránh phát sinh thêm chi phí, hãy xóa domain Amazon SageMaker. Tham khảo Xóa miền để biết quy trình.
Kết luận
Trong bài viết này, chúng tôi đã thảo luận về các quy tắc metadata và cách triển khai chúng cho cả việc xuất bản và đăng ký assets trên các domain khác nhau, thể hiện các thực hành metadata governance hiệu quả.
Quy tắc thực thi metadata mới trong Amazon SageMaker tăng cường data governance bằng cách cho phép domain unit owner thiết lập các yêu cầu metadata rõ ràng cho người dùng dữ liệu, hợp lý hóa tình trạng catalog và nâng cao quy trình data governance cho access request. Tính năng này cho phép các tổ chức tuân thủ các tiêu chuẩn metadata của tổ chức, triển khai các custom workflow và cung cấp trải nghiệm data workflow nhất quán, được quản trị.
Tính năng này được hỗ trợ tại các AWS Commercial Region nơi Amazon SageMaker hiện có sẵn. Để bắt đầu với các quy tắc metadata—
- Đọc hướng dẫn sử dụng để tạo quy tắc trong workflow xuất bản
- Đọc hướng dẫn sử dụng để tạo quy tắc trong các subscription request
Về tác giả

Pradeep Misra là Kiến trúc sư Giải pháp Phân tích Chính tại AWS. Anh làm việc trên khắp Amazon để kiến trúc và thiết kế các giải pháp nền tảng phân tích phân tán hiện đại và AI/ML. Anh đam mê giải quyết các thách thức của khách hàng bằng cách sử dụng dữ liệu, phân tích và AI/ML. Ngoài công việc, Pradeep thích khám phá những địa điểm mới, thử các món ăn mới và chơi trò chơi board game với gia đình. Anh cũng thích làm thí nghiệm khoa học, xây dựng LEGO và xem anime với các con gái của mình.

Ramesh H Singh là Giám đốc Sản phẩm Kỹ thuật Cấp cao (Dịch vụ Bên ngoài) tại AWS ở Seattle, Washington, hiện đang làm việc với nhóm Amazon SageMaker. Anh đam mê xây dựng các sản phẩm ML/AI và phân tích hiệu suất cao giúp khách hàng doanh nghiệp đạt được các mục tiêu quan trọng của họ bằng công nghệ tiên tiến. Kết nối với anh ấy trên LinkedIn.

Sandhya Edupuganti là Trưởng nhóm Kỹ thuật Cấp cao dẫn dắt Amazon DataZone (hay còn gọi là) SageMaker Catalog. Cô ấy sống ở khu vực Seattle Metro và đã làm việc tại Amazon hơn 17 năm, lãnh đạo các sáng kiến chiến lược trong Amazon Advertising, Amazon-Retail, Latam-Expansion và AWS Analytics.