Xây dựng nền tảng đáng tin cậy cho dữ liệu và AI bằng Alation và Amazon SageMaker Unified Studio

Tác giả: Anthony Lempelius, James Mesney, Divij Bhatia, Leonardo Gomez
Ngày phát hành: 29 JAN 2026
Chuyên mục: Advanced (300), Amazon SageMaker Data & AI Governance, Amazon SageMaker Unified Studio, Technical How-to

Bài viết này được đồng tác giả bởi Anthony Lempelius và James Mesney từ Alation.

Khi một nhóm muốn tái sử dụng một tập dữ liệu, cho dù là để xây dựng một pipeline mới, khởi chạy một dashboard, chạy phân tích hay cung cấp năng lượng cho một ứng dụng AI, thách thức đầu tiên hiếm khi là mã nguồn. Các kỹ sư dữ liệu cần hiểu về nguồn gốc, các phép biến đổi và kỳ vọng vận hành. Các nhà phân tích dữ liệu và kỹ sư BI cần các định nghĩa, số liệu nhất quán và các nguồn đáng tin cậy. Các nhà khoa học dữ liệu và kỹ sư AI cần biết về nguồn gốc, chất lượng, các ràng buộc truy cập và cách dữ liệu hoặc các tính năng được tạo ra. Trong nhiều tổ chức, ngữ cảnh đó được ghi lại ở các nơi khác nhau bởi các nhóm khác nhau, thường là trên các giải pháp như AlationSageMaker Unified Studio, cả hai đều có thể đóng vai trò là hệ thống ghi nhận ngữ cảnh kinh doanh tùy thuộc vào người thực hiện công việc và nơi họ hoạt động hàng ngày. Khi những góc nhìn đó không được kết nối, mọi người sẽ xác thực lại cùng một thông tin, tranh luận về các định nghĩa và sao chép tài liệu trên các công cụ. Một nền tảng siêu dữ liệu hợp nhất sẽ tập hợp các góc nhìn dành riêng cho từng vai trò này lại với nhau để ngữ cảnh kinh doanh, siêu dữ liệu kỹ thuật và quản trị luôn được căn chỉnh trên các nền tảng, giúp dữ liệu dễ tin cậy hơn, dễ tìm hơn và dễ sử dụng hơn trong phân tích và AI.

Tích hợp Alation mới với Amazon SageMaker Unified Studio giải quyết những thách thức này bằng cách đồng bộ hóa siêu dữ liệu danh mục giữa cả hai hệ thống. Việc đồng bộ hóa này tạo ra trải nghiệm siêu dữ liệu hợp nhất, nơi các nhóm kỹ thuật làm việc trong SageMaker Unified Studio và các nhóm kinh doanh làm việc trong Alation cộng tác trên cùng một siêu dữ liệu. Bạn có thể xác minh cách các tài sản ML và phân tích được tạo, hiểu các phụ thuộc và duy trì khả năng truy xuất nguồn gốc trong suốt vòng đời dữ liệu của bạn bất kể hệ thống nào mà nhóm của bạn ưu tiên sử dụng.

Trong bài đăng này, chúng tôi trình bày những ai được hưởng lợi từ tích hợp này, cách thức hoạt động, siêu dữ liệu cụ thể mà nó đồng bộ hóa và cung cấp hướng dẫn triển khai đầy đủ cho môi trường của bạn.

Giá trị của quản trị siêu dữ liệu hợp nhất

Các tổ chức quản lý khối lượng công việc phân tích và ML quy mô lớn phải đối mặt với những thách thức nghiêm trọng khi siêu dữ liệu bị phân mảnh trên nhiều hệ thống. Khi siêu dữ liệu tồn tại trong các silo, các nhà khoa học dữ liệu dành thời gian quý báu để tìm kiếm các tập dữ liệu phù hợp. Các nhóm sao chép các nỗ lực quản lý siêu dữ liệu, tạo ra các định nghĩa không nhất quán và các số liệu mâu thuẫn trong toàn tổ chức.

Các yêu cầu quy định đòi hỏi nguồn gốc rõ ràng. Nếu không có quản trị siêu dữ liệu hợp nhất, các tổ chức gặp khó khăn trong việc chứng minh sự tuân thủ, truy tìm nguồn gốc dữ liệu và duy trì nhật ký kiểm toán trên các pipeline ML và phân tích của họ. Khám phá dữ liệu trở thành một nút thắt cổ chai khi các nhóm không thể nhanh chóng tìm, hiểu và tin cậy dữ liệu họ cần, làm chậm quá trình phát triển mô hình và giảm giá trị kinh doanh tổng thể của các khoản đầu tư dữ liệu.

Việc áp dụng các chính sách quản trị nhất quán trên các hệ thống rời rạc gần như không thể nếu không có lớp siêu dữ liệu hợp nhất. Điều này tạo ra các lỗ hổng bảo mật, các vấn đề về chất lượng dữ liệu và các điểm mù về tuân thủ. Một phương pháp quản trị siêu dữ liệu hợp nhất giúp giảm bớt những thách thức này bằng cách cung cấp một nguồn sự thật duy nhất cho siêu dữ liệu trên các hệ thống ML và phân tích, cho phép khám phá dữ liệu nhanh hơn, quản trị nhất quán và tuân thủ tự tin đồng thời giảm gánh nặng vận hành cho các nhóm dữ liệu và ML.

Tổng quan giải pháp

Tích hợp Alation và SageMaker Unified Studio hợp nhất trải nghiệm người dùng, đồng bộ hóa siêu dữ liệu từ các tài sản được lập danh mục giữa cả hai hệ thống.

Tích hợp Giai đoạn 1 này trích xuất siêu dữ liệu từ Amazon SageMaker Catalog vào Alation, cung cấp cho bạn một nơi để khám phá các tài sản.

Tích hợp kết nối thông qua xác thực AWS Identity and Access Management (IAM) và đồng bộ hóa các yếu tố siêu dữ liệu chính, bao gồm miền, dự án, tên tài sản, mô tả, chủ sở hữu, thuật ngữ trong bảng chú giải và các trường siêu dữ liệu tùy chỉnh. Mỗi bản cập nhật siêu dữ liệu bao gồm thông tin nguồn gốc: dịch vụ gốc, người thực hiện thay đổi và dấu thời gian, tạo ra các nhật ký kiểm toán toàn diện để tuân thủ.

Bạn có thể chạy trích xuất siêu dữ liệu theo yêu cầu hoặc lên lịch để chúng chạy tự động. Hệ thống thực hiện trích xuất hàng loạt ban đầu các miền và dự án đã chọn của bạn, sau đó giữ cho chúng được cập nhật thông qua các bản cập nhật tăng dần bằng cách sử dụng các trình kích hoạt dựa trên sự kiện hoặc thăm dò theo lịch trình. Giao tiếp sử dụng các API được mã hóa với các quyền IAM được giới hạn theo nguyên tắc đặc quyền tối thiểu.

Tích hợp này giúp các tổ chức trong lĩnh vực dịch vụ tài chính, viễn thông, bán lẻ, sản xuất và vận tải quản lý số lượng lớn khối lượng công việc phân tích và ML trên nhiều hệ thống và nhóm. Bạn có thể giảm trùng lặp siêu dữ liệu, tăng tốc khám phá dữ liệu và cho phép các nhà khoa học dữ liệu, nhà phân tích và kỹ sư của bạn tìm thấy dữ liệu đáng tin cậy nhanh hơn để họ có thể tập trung vào việc xây dựng thông tin chi tiết thay vì xác thực chất lượng dữ liệu.

Sơ đồ sau minh họa kiến trúc giải pháp.


Sơ đồ sau minh họa kiến trúc giải pháp.

Ảnh chụp màn hình sau đây giới thiệu danh mục Alation hiển thị dự án SageMaker Unified Studio và các tài sản được đồng bộ hóa của nó.


Ảnh chụp màn hình sau đây giới thiệu danh mục Alation hiển thị dự án SageMaker Unified Studio và các tài sản được đồng bộ hóa của nó.

Đồng bộ hóa siêu dữ liệu

Tích hợp này tự động đồng bộ hóa siêu dữ liệu thiết yếu giữa SageMaker Unified Studio và Alation, tạo điều kiện cho thông tin nhất quán trên cả hai hệ thống. Việc đồng bộ hóa tập hợp các loại siêu dữ liệu bạn cần để khám phá, quản trị và quy trình kiểm toán, cung cấp cho bạn cái nhìn rõ ràng hơn về cách các tập dữ liệu, tính năng và mô hình liên quan đến nhau trên các dịch vụ của bạn.

Tích hợp đồng bộ hóa siêu dữ liệu danh mục, bao gồm miền, dự án, tên tài sản, mô tả, chủ sở hữu, thuật ngữ trong bảng chú giải và các biểu mẫu siêu dữ liệu. Ngoài ra, tích hợp còn đồng bộ hóa siêu dữ liệu nguồn gốc, bao gồm thông tin về dịch vụ gốc, tác nhân đã thực hiện thay đổi và dấu thời gian, để hỗ trợ các quy trình truy xuất nguồn gốc và kiểm toán.

Cơ chế tích hợp

Tích hợp kết nối SageMaker Unified Studio và Alation thông qua một IAM role được giới hạn phạm vi cung cấp giao tiếp an toàn, được mã hóa. Sau khi bạn cấu hình kết nối này trong Alation, hệ thống sẽ thực hiện trích xuất ban đầu các miền và dự án đã chọn của bạn, sau đó giữ thông tin hiện tại thông qua các bản cập nhật tăng dần bằng cách sử dụng các trình kích hoạt dựa trên sự kiện hoặc thăm dò theo lịch trình.

Tích hợp đồng bộ hóa các biểu mẫu siêu dữ liệu từ SageMaker Unified Studio vào Alation thông qua ánh xạ trường tự động giữa các schema của cả hai hệ thống. Các biểu mẫu siêu dữ liệu có thể thu thập nhiều chi tiết cụ thể về tài sản như tham chiếu kho tính năng, định danh chạy huấn luyện, phiên bản mô hình và số liệu đánh giá.

Mỗi bản cập nhật siêu dữ liệu bao gồm thông tin nguồn gốc: dịch vụ gốc, người thực hiện thay đổi và thời điểm xảy ra. Điều này hỗ trợ các quy trình kiểm toán và quản lý. Kiểm soát truy cập tuân theo các nguyên tắc đặc quyền tối thiểu thông qua IAM trong khi áp dụng các quyền dựa trên vai trò của Alation, cho phép bạn giới hạn đồng bộ hóa theo dự án, namespace hoặc thẻ khi cần.

Bảo mật và tuân thủ

Bảo mật và tuân thủ là rất quan trọng khi đồng bộ hóa siêu dữ liệu trên các hệ thống. Tích hợp này tuân theo các thực tiễn bảo mật doanh nghiệp để tạo điều kiện đồng bộ hóa siêu dữ liệu an toàn, có kiểm soát. Trình kết nối sử dụng quyền truy cập đặc quyền tối thiểu, truyền tải được mã hóa và phân tách rõ ràng giữa siêu dữ liệu và dữ liệu, để bạn có thể duy trì quản trị mà không làm gián đoạn các quy trình làm việc hiện có.

Bạn cấu hình một IAM role được giới hạn phạm vi để xác định tài khoản, dự án và namespace nào mà trình kết nối có thể truy cập, đảm bảo quyền truy cập tuân theo các chính sách bảo mật của tổ chức bạn. Siêu dữ liệu di chuyển qua các API được bảo vệ bằng TLS và bạn kiểm soát các miền và dự án nào sẽ đưa vào Alation. Theo mặc định, tích hợp chỉ đồng bộ hóa siêu dữ liệu; các tệp dữ liệu và artifact của bạn vẫn ở vị trí AWS gốc trừ khi bạn chọn xuất chúng một cách rõ ràng.

Alation duy trì một nhật ký kiểm toán hoàn chỉnh bằng cách ghi lại các sự kiện trích xuất, thay đổi ánh xạ và các hoạt động quản lý. Các kiểm soát bảo mật này hỗ trợ quản trị siêu dữ liệu tuân thủ trong khi vẫn giữ nguyên các thực tiễn vận hành hiện có của bạn.

Điều kiện tiên quyết

Trước khi thiết lập tích hợp này, hãy đảm bảo bạn có những điều sau:

  • Một phiên bản Alation Cloud Service (ACS)
  • Quyền truy cập quản trị viên máy chủ Alation
  • Một tài khoản AWS
  • Một miền và dự án SageMaker Unified Studio với siêu dữ liệu hiện có

Cấu hình xác thực

Trước khi cấu hình trình kết nối Alation, bạn phải thiết lập các tài nguyên và quyền AWS cần thiết. Bước đầu tiên là cấu hình xác thực. Trình kết nối Alation hỗ trợ hai phương pháp xác thực để truy cập SageMaker Unified Studio. Chọn phương pháp phù hợp nhất với yêu cầu bảo mật của bạn.

Tùy chọn 1: IAM role (Khuyến nghị)

Tạo một IAM role mà trình kết nối Alation sẽ đảm nhận để truy cập SageMaker Unified Studio. Để biết hướng dẫn chi tiết về cách tạo IAM role, hãy xem tạo IAM role.

Sau đây là ví dụ về chính sách quyền IAM để truy cập SageMaker Catalog:

{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "AlationSageMakerAccess",
"Effect": "Allow",
"Action": [
"datazone:ListDomains",
"datazone:GetFormType",
"datazone:Search",
"datazone:ListProjects",
"datazone:GetAsset"
],
"Resource": "arn:aws:datazone:<region>:<account-id>:domain/*”
}
]
}

Sau đây là ví dụ về chính sách tin cậy cho IAM role:

{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "AlationSageMakerAccessAssumeRole",
"Effect": "Allow",
"Principal": {
"AWS": "<alation_provided_role_arn>"
},
"Action": "sts:AssumeRole"
}
]
}

Tùy chọn 2: IAM user với khóa truy cập

Tạo một IAM user với quyền truy cập lập trình và đính kèm các quyền cần thiết. Để biết hướng dẫn chi tiết về cách tạo IAM user, hãy xem Tạo IAM user trong tài khoản AWS của bạn.

Tạo một IAM user với quyền truy cập lập trình được bật, đính kèm chính sách sau và tạo khóa truy cập để sử dụng trong cấu hình Alation:

{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "AlationSageMakerAccess",
"Effect": "Allow",
"Action": [
"datazone:ListDomains",
"datazone:GetFormType",
"datazone:Search",
"datazone:ListProjects",
"datazone:GetAsset"
],
"Resource": "arn:aws:datazone:<region>:<account-id>:domain/*"
}
]
}

Thêm IAM role hoặc user vào miền SageMaker Unified Studio

Thêm IAM role hoặc user bạn đã tạo vào miền SageMaker Unified Studio. Để biết hướng dẫn chi tiết về cách thêm người dùng vào miền, hãy xem Quản lý người dùng trong Amazon SageMaker Unified Studio. Ảnh chụp màn hình sau đây cho thấy ví dụ về việc thêm người dùng IAM trên bảng điều khiển SageMaker.


Ảnh chụp màn hình sau đây cho thấy ví dụ về việc thêm người dùng IAM trên bảng điều khiển SageMaker.

Thêm IAM role hoặc user vào các dự án SageMaker Unified Studio

IAM role hoặc user phải được thêm làm thành viên vào tất cả các dự án SageMaker Unified Studio chứa siêu dữ liệu mà bạn muốn đồng bộ hóa với Alation. Các dự án không có thành viên này sẽ không được đưa vào quá trình đồng bộ hóa.

Thêm IAM role hoặc user làm thành viên dự án với quyền Contributor hoặc Owner cho mỗi dự án bạn muốn đưa vào đồng bộ hóa, như minh họa trong ảnh chụp màn hình sau. Để biết hướng dẫn chi tiết về cách thêm thành viên dự án, hãy xem Thêm thành viên dự án.


IAM role hoặc user phải được thêm làm thành viên vào tất cả các dự án SageMaker Unified Studio chứa siêu dữ liệu mà bạn muốn đồng bộ hóa với Alation. Các dự án không có thành viên này sẽ không được đưa vào quá trình đồng bộ hóa.

Cài đặt trình kết nối SageMaker nâng cao

Sau khi hoàn tất thiết lập AWS, bạn có thể cấu hình trình kết nối Alation để thiết lập tích hợp. Trình kết nối được phân phối dưới dạng gói .zip để tải lên và cài đặt trong ứng dụng Alation. Để có được trình kết nối, hãy liên hệ với nhóm Forward Deployed Engineering hoặc Quản lý tài khoản Alation của bạn.

Khi bạn có gói .zip, hãy làm theo các quy trình cài đặt để thêm trình kết nối.

Mô tả ảnh

Tạo và cấu hình nguồn dữ liệu của Alation

Điều hướng đến phần Data Sources trong Alation, tạo một nguồn dữ liệu mới và chọn SageMaker Catalog làm loại nguồn. Cấu hình cài đặt kết nối với phương pháp xác thực đã chọn trong thiết lập AWS.

Đối với xác thực IAM role, hãy sử dụng cấu hình sau:

  • Loại kết nối: IAM Role
  • Role ARN: ARN của IAM role được tạo trong thiết lập AWS
  • External ID: External ID được cấu hình trong chính sách tin cậy
  • AWS Region: Region nơi miền SageMaker Unified Studio của bạn được đặt

Đối với xác thực IAM user, hãy sử dụng cấu hình sau:

  • Loại kết nối: Access Keys
  • Access Key ID: Khóa truy cập từ thiết lập AWS
  • Secret Access Key: Khóa bí mật từ thiết lập AWS
  • AWS Region: Region nơi miền SageMaker Unified Studio của bạn được đặt

Kiểm tra kết nối để xác minh xác thực và kết nối mạng, như thể hiện trong ảnh chụp màn hình sau.

Mô tả ảnh
Kiểm tra kết nối để xác minh xác thực và kết nối mạng, như thể hiện trong ảnh chụp màn hình sau.

Cấu hình cài đặt trích xuất siêu dữ liệu

Cấu hình phạm vi trích xuất bằng cách chọn các miền và dự án SageMaker để đồng bộ hóa, như thể hiện trong ảnh chụp màn hình sau. Chỉ các dự án mà IAM role hoặc user là thành viên mới có sẵn để đồng bộ hóa.

Mô tả ảnh

Chạy trích xuất ban đầu

Thực hiện đồng bộ hóa siêu dữ liệu đầu tiên để nhập siêu dữ liệu hiện có từ SageMaker Unified Studio vào Alation. Giám sát tiến độ trích xuất thông qua các chỉ báo trạng thái của Alation và xác thực rằng các tài sản SageMaker xuất hiện chính xác trong danh mục.

Ảnh chụp màn hình sau đây hiển thị trang lịch sử công việc với trạng thái công việc Running.


Ảnh chụp màn hình sau đây hiển thị trang lịch sử công việc với trạng thái công việc Running.

Ảnh chụp màn hình sau đây hiển thị trang lịch sử công việc với trạng thái công việc Succeeded.


Ảnh chụp màn hình sau đây hiển thị trang lịch sử công việc với trạng thái công việc Succeeded.

Ảnh chụp màn hình sau đây hiển thị danh mục Alation hiển thị dự án SageMaker Unified Studio và các tài sản được đồng bộ hóa của nó.


Ảnh chụp màn hình sau đây hiển thị danh mục Alation hiển thị dự án SageMaker Unified Studio và các tài sản được đồng bộ hóa của nó.

Vận hành và tinh chỉnh

Cấu hình các hoạt động đang diễn ra bằng cách đặt tần suất trích xuất, cấu hình cảnh báo đối chiếu và giám sát nhật ký thường xuyên. Thêm người quản lý dữ liệu vào các tài sản được đồng bộ hóa và xem xét bật mô tả do AI tạo hoặc làm việc với Dịch vụ chuyên nghiệp của Alation để thiết kế quản trị nâng cao.

Mô tả ảnh
Mô tả ảnh

Các khả năng nâng cao

Giai đoạn tiếp theo của tích hợp giới thiệu ba khả năng chính: đồng bộ hóa siêu dữ liệu hai chiều, sao chép nguồn gốc và sao chép siêu dữ liệu chất lượng dữ liệu. Khả năng hai chiều cung cấp cho bạn sự linh hoạt để kiểm soát nơi các bản cập nhật siêu dữ liệu bắt nguồn, trong Alation hoặc trong SageMaker Unified Studio, để bạn có thể quản lý các thay đổi siêu dữ liệu trong dịch vụ phù hợp nhất với quy trình làm việc và quy trình quản trị của tổ chức bạn.

Bộ tính năng đang được triển khai theo từng giai đoạn. Giai đoạn 1 có sẵn tại thời điểm viết bài đăng này và cung cấp trích xuất từ SageMaker Unified Studio vào Alation, bao gồm các bản cập nhật ban đầu và tăng dần cũng như ghi nhật ký kiểm toán. Giai đoạn 2 sẽ sớm ra mắt và sẽ cung cấp các danh mục chính có thể cấu hình, đồng bộ hóa phạm vi nâng cao và quy trình đối chiếu cho khách hàng của Alation Cloud Service.

Những cải tiến này sẽ hỗ trợ các hoạt động ML được quản trị, có thể mở rộng với độ sâu và tự động hóa ngày càng tăng.

Kết luận

Tích hợp Alation và SageMaker Unified Studio giúp các tổ chức thu hẹp khoảng cách giữa phân tích nhanh và phát triển ML với các yêu cầu quản trị mà hầu hết các doanh nghiệp phải đối mặt. Bằng cách lập danh mục siêu dữ liệu từ SageMaker Unified Studio trong Alation, bạn có được cái nhìn được quản trị, có thể khám phá về cách các tài sản được tạo và sử dụng. Điều này hỗ trợ các nhà lãnh đạo, người quản lý, nhóm tuân thủ và các chuyên gia ML, những người phụ thuộc vào dữ liệu chính xác, được ghi lại tốt để mở rộng quy mô phân tích và AI một cách có trách nhiệm.

Để tìm hiểu thêm về tích hợp này và khám phá các tài nguyên bổ sung, hãy tham khảo Hướng dẫn sử dụng Amazon SageMaker Unified StudioTài liệu Alation.


Về tác giả

Anthony Lempelius

Anthony Lempelius

Anthony là Giám đốc Kênh và Liên minh tại Alation, nơi anh dẫn dắt các quan hệ đối tác chiến lược với các đối tác nhà cung cấp phần mềm độc lập (ISV) và nhà tích hợp hệ thống (SI). Anh tập trung vào việc đưa các giải pháp và tích hợp chung ra thị trường nhằm giúp khách hàng khai thác giá trị từ dữ liệu đáng tin cậy, được quản trị tốt. Anthony đam mê xây dựng AWS Partner Network nhằm thúc đẩy đổi mới trên toàn bộ bối cảnh dữ liệu và AI.

James Mesney

James Mesney

James là Giám đốc sản phẩm chính tại Alation, nơi anh dẫn dắt chiến lược sản phẩm để thúc đẩy các khả năng Agentic của Alation. Anh tập trung vào việc giúp các tổ chức làm cho dữ liệu của họ dễ khám phá hơn, được quản trị và có thể hành động bằng cách định hình các tính năng cải thiện chất lượng siêu dữ liệu, trải nghiệm người dùng và thông tin chi tiết dựa trên AI. James đam mê xây dựng các sản phẩm trao quyền cho các doanh nghiệp để khai thác toàn bộ giá trị của dữ liệu đáng tin cậy.

Divij Bhatia

Divij Bhatia

Divij là Kỹ sư phát triển phần mềm tại AWS. Anh đam mê xây dựng các giải pháp dựa trên đám mây có khả năng phục hồi và mở rộng để giải quyết các vấn đề thực tế cho khách hàng. Thời gian rảnh rỗi của anh thường dành cho các hoạt động ngoài trời, du lịch và chụp ảnh phong cảnh.

Leonardo Gomez

Leonardo Gomez

Leonardo là Kiến trúc sư giải pháp chuyên gia phân tích chính tại AWS. Anh có hơn một thập kỷ kinh nghiệm trong quản lý dữ liệu, giúp khách hàng trên toàn cầu giải quyết các nhu cầu kinh doanh và kỹ thuật của họ.