Lập lịch thống nhất cho luồng ETL trực quan và sổ truy vấn trong Amazon SageMaker Unified Studio

của Noritaka Sekiyama, Daniel Obi, Gal Heyne, Yuhang Huang và Vasudevan Venkataramanan vào ngày 30 tháng 4 năm 2025 trong Amazon SageMaker Unified Studio,  Analytics, Launch

Các kỹ sư và nhà phân tích dữ liệu thường cần tự động hóa quy trình xử lý dữ liệu và truy vấn để duy trì các đường ống dữ liệu và báo cáo được cập nhật. Amazon SageMaker Unified Studio là một môi trường phát triển dữ liệu và AI duy nhất, nơi bạn có thể tìm kiếm và truy cập tất cả dữ liệu trong tổ chức của mình và xử lý chúng bằng các công cụ tốt nhất cho mọi trường hợp sử dụng. Amazon SageMaker Unified Studio cung cấp các công cụ mạnh mẽ cho các luồng trích xuất, chuyển đổi và tải (ETL) trực quan và sổ truy vấn. Cho đến nay, việc lên lịch cho các quy trình công việc này vẫn yêu cầu thiết lập và cơ sở hạ tầng bổ sung.

Hôm nay, chúng tôi rất vui mừng giới thiệu một tính năng lập lịch hợp nhất mới giúp đơn giản hóa quy trình này. SageMaker Unified Studio cho phép bạn tạo luồng ETL bằng giao diện trực quan và viết các truy vấn phân tích SQL bằng sổ truy vấn. Tính năng lập lịch hợp nhất mới này cho phép bạn lập lịch các luồng ETL trực quan và sổ truy vấn trực tiếp từ SageMaker Unified Studio trong cùng một giao diện, loại bỏ nhu cầu truy cập các bảng điều khiển khác hoặc cấu hình phức tạp. Sử dụng Amazon EventBridge Scheduler, tính năng này mang đến trải nghiệm lập lịch liền mạch và dễ sử dụng.

Trong bài viết này, chúng tôi sẽ hướng dẫn bạn cách lên lịch luồng ETL trực quan và sổ truy vấn chỉ bằng vài cú nhấp chuột, khám phá kiến ​​trúc cơ bản và chứng minh cách tính năng này có thể hợp lý hóa quy trình tự động hóa dữ liệu của bạn.

Tổng quan về tính năng

Tính năng lập lịch thống nhất SageMaker Unified Studio được xây dựng dựa trên EventBridge Scheduler và Amazon SageMaker Training. Khi bạn cấu hình một lịch trình mới từ SageMaker Unified Studio, một lịch trình EventBridge mới sẽ tự động được tạo trong tài khoản AWS của bạn. Lịch trình EventBridge được cấu hình với API CreateTrainingJob của SageMaker. Tác vụ SageMaker Training chạy các luồng ETL trực quan hoặc sổ truy vấn.

Sơ đồ sau minh họa cách thức nó hoạt động.

Điều kiện tiên quyết

Để chạy hướng dẫn, bạn phải có các điều kiện tiên quyết sau:

  • Tài khoản AWS
  • Một SageMaker Unified Studio Domain
  • Một dự án SageMaker Unified Studio có hồ sơ All capabilities. Hồ sơ này bao gồm bản thiết kế Tooling, trong đó tính năng lập lịch được bật theo mặc định. Nếu tính năng lập lịch bị tắt, bạn có thể cần cập nhật hồ sơ dự án.
  • Một vai trò dự án SageMaker Unified Studio không có ranh giới quyền hoặc có quyền rõ ràng cho GetScheduleGroup. Các dự án mới có chính sách này theo mặc định. Nếu tính năng lập lịch bị tắt, bạn có thể cần cập nhật vai trò dự án.
  • Một vai trò dự án SageMaker Unified Studio không có ranh giới dự án hoặc có quyền rõ ràng cho GetScheduleGroup

Lên lịch cho luồng ETL trực quan

Hoàn thành các bước sau để cấu hình lịch cho luồng ETL trực quan:

  1. Trên bảng điều khiển SageMaker Unified Studio, trên menu trên cùng, chọn Build.
  2. Dưới  DATA ANALYSIS & INTEGRATION chọn Visual ETL flows.
  3. Để Select or create project to continue, hãy chọn dự án của bạn và chọn Continue.
  4. Chọn visual ETL flow của bạn. Nếu bạn không có bất kỳ visual ETL flows nào, hãy tham khảo mục Tạo luồng ETL trực quan trên Amazon SageMaker Unified Studio để tạo luồng ETL trực quan mới.
  5. Chọn biểu tượng Schedule.
  1. Đối với Schedule name, hãy nhập một tên duy nhất (ví dụ: hàng ngày).
  2. Đối với Schedule name, hãy chọn Recurring.
  3. Đối với Value, hãy nhập 1.
  4. Đối với Unit, hãy chọn days.
  5. Đối với Timezone, hãy chọn múi giờ của bạn.
  6. Chọn Create schedule.

Bạn đã cấu hình lịch trình thành công. Vì Ngày và giờ bắt đầu không được cung cấp, luồng ETL trực quan sẽ được kích hoạt ngay lập tức và sau đó được kích hoạt mỗi ngày một lần.

Chỉnh sửa lịch trình

Bạn có thể xem các lịch trình đã cấu hình bằng các bước sau:

  1. Trên bảng điều khiển SageMaker Unified Studio, điều hướng đến Visual ETL flows cho dự án của bạn.
  2. Chọn tab Schedules.
  1. Chọn Edit schedule dưới Actions.
  1. Chỉnh sửa với tùy chọn của bạn, sau đó chọn Save.

Tạm dừng hoặc tiếp tục lịch trình

Nếu bạn muốn tạm dừng lịch trình, hãy hoàn thành các bước sau:

  1. Chọn Pause Schedule trong mục Actions.

Trên cùng một tab Schedule, Status của lịch trình sẽ được cập nhật thành Paused.

  1. Để tiếp tục lịch trình, hãy chọn Activate schedule.

Xóa lịch trình

Để xóa lịch trình, hãy hoàn thành các bước sau:

  1. Chọn Delete schedule trong mục Actions.
  2. Chọn Delete schedule trong hộp thoại.

Trên cùng một tab Schedule, bạn có thể xác minh rằng lịch trình bị xóa đã biến mất.

Lên lịch luồng sổ truy vấn

Hoàn thành các bước sau để cấu hình lịch biểu trên sổ truy vấn:

  1. Trên bảng điều khiển SageMaker Unified Studio, trên menu trên cùng, chọn Build.
  2. Dưới mục DATA ANALYSIS & INTEGRATION, chọn Query Editor.
  3. Trong trình khám phá dữ liệu, trong mục Lakehouse, chọn AwsDataCatalog.
  4. Điều hướng đến bảng venue_event_agg. Bảng này đã được tạo trong phần trước.
  5. Trên menu tùy chọn (ba dấu chấm), chọn Query with Athena.
  1. Trên menu Action, chọn Save the project.
  2. Chọn Save changes.
  3. Trên menu Actions, chọn Create schedule.
  1. Đối với Schedule Type, chọn Recurring.
  2. Đối với Value, hãy nhập 1.
  3. Đối với Unit, hãy chọn days.
  4. Đối với Timezone, hãy chọn múi giờ của bạn.
  5. Chọn Create schedule.

Bạn đã cấu hình lịch trình thành công. Vì Start date and time chưa được thiết lập, sổ truy vấn sẽ được kích hoạt ngay lập tức và sau đó được kích hoạt mỗi ngày một lần. Bạn có thể tùy chọn cấu hình thời gian bắt đầu và kết thúc nếu muốn giới hạn lịch trình chạy trong một khoảng thời gian cụ thể.

Để xem các lịch trình đã cấu hình, trong ngăn điều hướng, hãy chọn Scheduled queries.

Bạn có thể xem danh sách các truy vấn đã lên lịch và chỉnh sửa, tạm dừng, tiếp tục hoặc xóa chúng, như đã trình bày ở phần trước.

Dọn dẹp

Để tránh phát sinh chi phí trong tương lai, hãy dọn dẹp các tài nguyên bạn đã tạo trong hướng dẫn này:

  1. Trên tab Lịch trình của luồng Visual ETL, hãy chọn lịch trình hàng ngày và chọn Xóa lịch trình trong mục Hành động. Lịch trình EventBridge liên quan cũng sẽ tự động bị xóa.
  2. Trên bảng điều khiển AI của SageMaker, hãy chọn Công việc đào tạo trong mục Đào tạo và xóa tất cả các công việc đào tạo SageMaker bắt đầu bằng everyday-.
  3. (Tùy chọn) Để xóa luồng Visual ETL, trên tab Luồng của luồng Visual ETL, hãy chọn luồng Visual ETL của bạn và chọn Xóa luồng trong mục Hành động.

Kết luận

Trải nghiệm lập lịch hợp nhất mới trong SageMaker Unified Studio giúp đơn giản hóa việc tự động hóa quy trình làm việc. Với tính năng lập lịch hợp nhất, bạn có thể sắp xếp liền mạch các luồng Visual ETL và sổ truy vấn tại một vị trí tập trung.

Cho dù bạn đang chạy chuyển đổi dữ liệu hàng ngày, truy vấn phân tích hàng tuần hay quy trình làm việc báo cáo hàng tháng, trải nghiệm lập lịch hợp nhất cung cấp một lộ trình tự động hóa đơn giản. Khả năng này cho phép các nhóm dữ liệu tập trung hơn vào việc thu thập thông tin chi tiết từ dữ liệu của họ và ít phải quản lý cơ sở hạ tầng và cấu hình lập lịch hơn.

Chúng tôi khuyến khích bạn dùng thử trải nghiệm mới này và chia sẻ phản hồi với chúng tôi. Để biết thêm thông tin về SageMaker Unified Studio và các tính năng của nó, vui lòng truy cập tài liệu hoặc khám phá các bài đăng trên blog khác của chúng tôi về luồng ETL trực quansổ tay truy vấn.

Về các tác giả

Noritaka Sekiyama là Kiến trúc sư Dữ liệu Lớn Chính cho các dịch vụ Phân tích AWS, tập trung mạnh vào kỹ thuật dữ liệu. Anh chịu trách nhiệm xây dựng các sản phẩm phần mềm để hỗ trợ khách hàng. Trong thời gian rảnh rỗi, anh thích đạp xe địa hình.

Daniel Obi là Kỹ sư Frontend của nhóm Amazon SageMaker Unified Studio. Anh ấy tận tâm xây dựng các giải pháp trực quan và hiệu quả, giúp nâng cao trải nghiệm người dùng và chức năng kỹ thuật. Ngoài công việc chuyên môn, anh ấy thích xem và chơi bóng rổ.

Vasudevan Venkataramanan là Kỹ sư Phần mềm Cấp cao của nhóm Amazon SageMaker Unified Studio. Anh chịu trách nhiệm chỉ đạo kỹ thuật về lập lịch và điều phối trong SageMaker Unified Studio. Ngoài công việc chuyên môn, anh thích dành thời gian cho con, chơi pickleball và cricket.

Yuhang Huang là Quản lý Phát triển Phần mềm của nhóm Amazon SageMaker Unified Studio. Anh lãnh đạo nhóm kỹ thuật thiết kế, xây dựng và vận hành các chức năng lập lịch và điều phối trong SageMaker Unified Studio. Trong thời gian rảnh rỗi, anh thích chơi tennis.

Gal Heyne là Quản lý Sản phẩm Kỹ thuật Cấp cao cho dịch vụ AWS Analytics, tập trung mạnh vào AI/ML và kỹ thuật dữ liệu. Cô đam mê phát triển sự hiểu biết sâu sắc về nhu cầu kinh doanh của khách hàng và hợp tác với các kỹ sư để thiết kế các sản phẩm dữ liệu dễ sử dụng.