Tăng tốc tạo pipeline dữ liệu với giao diện trực quan mới trên Amazon OpenSearch Ingestion

Tác giả: Samuel Selvan và Jagadish Kumar

Ngày đăng: ngày 22 tháng 4 năm 2025

Danh mục: Amazon OpenSearch Service, Analytics, Launch, Serverless

Amazon OpenSearch Ingestion là một pipeline phi máy chủ (serverless pipeline) được quản lý toàn phần cho phép bạn tiếp nhận, lọc, biến đổi, làm phong phú và định tuyến dữ liệu đến một miền của Amazon OpenSearch Service hoặc một bộ sưu tập của Amazon OpenSearch Serverless. OpenSearch Ingestion có khả năng tiếp nhận dữ liệu từ nhiều nguồn đa dạng và sở hữu hệ sinh thái phong phú gồm các bộ xử lý tích hợp, đáp ứng nhu cầu biến đổi dữ liệu phức tạp nhất của bạn.

Hôm nay, chúng tôi ra mắt giao diện trực quan mới cho OpenSearch Ingestion, giúp bạn dễ dàng tạo và quản lý pipeline dữ liệu trực tiếp từ AWS Management Console. Với tính năng mới này, bạn có thể xây dựng pipeline trong vài phút mà không cần phải viết thủ công các cấu hình phức tạp.

Giao diện trực quan mới mang đến ba cải tiến chính giúp hợp lý hóa quy trình làm việc của bạn:

Quy trình làm việc trực quan có hướng dẫn giúp bạn tạo pipeline.
Thiết lập quyền tự động loại bỏ nhu cầu AWS Identity and Access Management
Kiểm tra xác thực theo thời gian thực giúp phát hiện sớm các vấn đề.

Những cải tiến này giúp bạn dễ dàng tiếp nhận, biến đổi, làm phong phú và định tuyến dữ liệu, cho dù bạn đang thiết lập pipeline đầu tiên hay thiết kế các quy trình dữ liệu phức tạp với nhiều bước biến đổi và đích đến.

Trong bài đăng này, chúng tôi sẽ hướng dẫn bạn cách thức hoạt động của những tính năng mới này và cách bạn có thể sử dụng chúng để đẩy nhanh các dự án thu thập dữ liệu của mình.

Tự động khám phá

Trước khi có giao diện trực quan, việc tạo một pipeline của OpenSearch Ingestion thường bắt đầu bằng cách chọn một blueprint có sẵn, cung cấp một template với các placeholder cho nguồnguồn và đích đến. Sau đó, bạn sẽ cần phải sửa đổi mẫu này theo cách thủ công để phù hợp với các yêu cầu cụ thể của mình.

Giao diện trực quan mới cải thiện quy trình này bằng cách tự động khám phá các nguồn và đích đến khi bạn xây dựng. Thay vì đổi code mẫu, bạn chỉ cần chọn từ các tài nguyên có sẵn trên menu thả xuống và xem cấu hình pipeline của bạn được xây dựng theo thời gian thực.

Tính năng khám phá tự động này loại bỏ nhu cầu chuyển đổi giữa các bảng điều khiển dịch vụ khác nhau để tìm thông tin chi tiết về nguồn và đích đến (sink) của bạn. Trước đây, bạn phải điều hướng đến các dịch vụ như Amazon Simple Storage Service (Amazon S3) hoặc Amazon DynamoDB để sao chép thông tin chi tiết về tài nguyên và giá trị Amazon Resource Name (ARN), sau đó chuyển lại để nhập chúng vào mẫu của bạn. Điều này giúp bạn tập trung vào thiết kế pipeline của mình, hợp lý hóa toàn bộ quy trình tạo.

Quản lý vai trò IAM tự động

Với tính năng tạo quyền tự động, bạn không còn cần phải tạo các chính sách IAM theo cách thủ công cho pipeline và các thành phần liên quan. Với giao diện người dùng mới, giờ đây bạn có thể tự động tạo một vai trò IAM thống nhất, cấp các quyền cần thiết cho tất cả các thành phần trong pipeline của bạn. Điều này giúp đơn giản hóa đáng kể việc quản lý bảo mật và giảm thiểu rủi ro phát sinh các lỗi liên quan đến quyền. Bạn cũng có thể vẫn sử dụng các vai trò hiện có của mình nếu bạn đã xác định chúng.

Xác thực thời gian thực

Giao diện mới giới thiệu các khả năng xác thực theo thời gian thực vượt xa việc kiểm tra cú pháp cơ bản. Trong khi các phiên bản trước chỉ xác thực cú pháp từ khóa, giao diện mới sẽ thực thi chuỗi bộ xử lý của bạn theo thời gian thực, nhờ đó phát hiện cả lỗi cấu hình và lỗi thời gian chạy ngay trong quá trình bạn xây dựng. Khi bạn xây dựng pipeline của mình, giao diện liên tục xác thực toàn bộ cấu hình của bạn, giúp bạn xác định và giải quyết các vấn đề tiềm ẩn như cấu hình bộ xử lý không đúng, không khớp kiểu dữ liệu hoặc lỗi chuyển đổi trước khi triển khai. Phương pháp xác thực chủ động dựa trên thực thi này giúp đảm bảo các pipeline của bạn hoạt động như mong muốn ngay từ đầu, giúp bạn không cần phải chờ đến lúc chạy pipeline mới phát hiện ra các vấn đề của chuỗi processor.

Bây giờ chúng ta đã tìm hiểu các tính năng chính, hãy cùng tìm hiểu quy trình tạo pipeline bằng giao diện mới.

Tạo pipeline trong OpenSearch Ingestion

Bắt đầu với giao diện trực quan rất đơn giản – bạn có thể chọn một blueprint làm nền tảng cho pipeline hoặc bắt đầu từ đầu với một template trống. Sau đó, giao diện sẽ hướng dẫn bạn qua từng bước, sử dụng tính năng khám phá tài nguyên thông minh và các tính năng tự động điền để đơn giản hóa toàn bộ quá trình tạo. Đối với bài đăng này, chúng tôi sử dụng bản thiết kế “Zero-ETL với DynamoDB”.

Giao diện trực quan hợp lý hóa cấu hình nguồn bằng cách trình bày các bảng DynamoDB của bạn trên một menu thả xuống dễ điều hướng. Sau khi bạn chọn một bảng, giao diện sẽ xử lý tất cả các chi tiết kỹ thuật, bao gồm tự động truy xuất và cấu hình ARN. Chức năng tương tự này mở rộng đến cấu hình xuất Amazon S3, nơi bạn có thể chọn Browse S3 để chọn bucket và thư mục của mình trực tiếp trong quy trình tạo pipeline.

Sau khi đã cấu hình xong nguồn, bạn có thể nâng cấp pipeline của mình với các bộ xử lý để biến đổi dữ liệu. Bảng cấu hình bộ xử lý bắt đầu bằng trường tìm kiếm, nơi bạn có thể tìm và chọn bộ xử lý bạn cần. Bạn có thể chọn Add để thêm các processor rồi sắp xếp chúng theo thứ tự mong muốn. Tính linh hoạt này cho phép bạn xây dựng các quy trình chuyển đổi dữ liệu phức tạp bằng cách kết hợp các bộ xử lý khác nhau theo trình tự bạn cần.

Nếu có bất kỳ vấn đề nào, chẳng hạn như thiếu các trường bắt buộc, giao diện sẽ hiển thị thông báo lỗi rõ ràng, cho phép bạn giải quyết vấn đề trước khi tiếp tục. Xác thực này ở mỗi bước đảm bảo pipeline của bạn được cấu hình đúng trước khi triển khai.

Ảnh chụp màn hình sau đây là ví dụ về giao diện trực quan.

Khả năng xác thực thời gian thực của giao diện mở rộng đến cấu hình bộ xử lý, giúp bạn xác định và giải quyết các vấn đề tiềm ẩn trước khi chúng ảnh hưởng đến pipeline của bạn. Cấu hình của từng bộ xử lý được xác thực khi bạn xây dựng pipeline của mình, với các thông báo lỗi rõ ràng hướng dẫn bạn thiết lập đúng. Phương pháp xác thực chủ động này đảm bảo logic chuyển đổi dữ liệu của bạn là hợp lý trước khi chuyển sang giai đoạn tiếp theo của quá trình tạo pipeline.

Bảng cấu hình đích đến cung cấp sự linh hoạt trong việc lựa chọn điểm đến OpenSearch. Bạn có thể lựa chọn giữa một cụm được quản lý hoặc tùy chọn serverless, tùy thuộc vào nhu cầu cụ thể của bạn. Để thuận tiện hơn, chúng tôi đã tích hợp khả năng tạo một miền OpenSearch mới trực tiếp từ giao diện này, giúp hợp lý hóa toàn bộ quy trình thiết lập pipeline từ đầu đến cuối (end-to-end).

Cấu hình đích đến cung cấp các tùy chọn cho cả ánh xạ động và tùy chỉnh. Ánh xạ động tự động xử lý phát hiện kiểu dữ liệu và tạo ánh xạ, trong khi ánh xạ tùy chỉnh cung cấp cho bạn quyền kiểm soát chính xác đối với cấu trúc dữ liệu của mình. Để duy trì độ tin cậy của dữ liệu, bạn có thể bật hàng đợi thư chết (DLQ)-một khu vực lưu giữ các thông báo không thể xử lý thành công-để nắm bắt và quản lý bất kỳ sự kiện nào không thành công.

Khi bạn đưa ra lựa chọn trong giao diện trực quan, cấu hình YAML/JSON tương ứng sẽ được cập nhật theo thời gian thực. Phản hồi ngay lập tức này giúp bạn hiểu cách lựa chọn của mình chuyển thành cấu hình kỹ thuật, từ đặt tên chỉ mục đến tùy chọn ánh xạ và các thiết lập nâng cao như thời gian chờ xả và phiên bản tài liệu.

Cấu hình bảo mật hiện liền mạch nhờ quản lý IAM role tự động. Giao diện xử lý thông minh việc tạo và quản lý quyền trên tất cả các thành phần pipeline. Bạn có thể tạo vai trò dịch vụ mới hoặc sử dụng vai trò hiện có và giao diện sẽ tự động tạo vai trò IAM thống nhất cung cấp các quyền chính xác cần thiết trên các thành phần pipeline -từ nguồn của bạn đến các thành phần Amazon S3 cần thiết cho DLQ và các đích đến OpenSearch/Amazon S3. Tự động hóa này không chỉ tiết kiệm thời gian mà còn giảm nguy cơ xảy ra lỗi liên quan đến quyền khi quản lý kiểm soát truy cập trên nhiều tài nguyên. Ảnh chụp màn hình sau đây hiển thị một ví dụ.

Bằng cách hợp nhất lựa chọn tài nguyên vào một giao diện duy nhất, chúng tôi đã loại bỏ nhu cầu điều hướng giữa nhiều dịch vụ AWS. Điều này giúp tiết kiệm thời gian và giảm khả năng xảy ra lỗi khi sao chép thủ công các mã định danh tài nguyên. Sau khi tạo pipeline bằng giao diện trực quan, bạn cũng có thể chỉnh sửa pipeline bằng cùng giao diện trực quan đó để nhanh chóng thay đổi cấu hình pipeline.

Phần kết luận

Giao diện trực quan mới của OpenSearch Ingestion đơn giản hóa việc tạo pipeline thông qua các quy trình trực quan có hướng dẫn, cùng với tính năng tự động khám phá tài nguyên, quản lý vai trò IAM tự động, xác thực theo thời gian thực và xem trước cấu hình động. Những cải tiến này cùng nhau hợp lý hóa quy trình tạo pipeline, giảm khả năng xảy ra lỗi và cung cấp trải nghiệm trực quan hơn cho người dùng ở mọi cấp độ kỹ năng.

Bạn đã sẵn sàng bắt đầu chưa? Truy cập bảng điều khiển Amazon OpenSearch Service ngay hôm nay và bắt đầu xây dựng pipeline trực quan đầu tiên của bạn. Với giao diện mới này, bạn có thể chuyển đổi quy trình thu thập dữ liệu và mở khóa những hiểu biết mới từ dữ liệu của mình nhanh hơn và hiệu quả hơn bao giờ hết.

Về các tác giả

Sam Selvan

Sam Selvan là Kiến trúc sư giải pháp chuyên gia chính (Principal Specialist Solution Architect) tại Amazon OpenSearch Service.

Jagadish Kumar

Jagadish Kumar (Jag) là Kiến trúc sư giải pháp chuyên gia cấp cao (Senior Specialist Solutions Architect) tại AWS, tập trung vào Amazon OpenSearch Service. Anh có niềm đam mê sâu sắc về Kiến trúc Dữ liệu và hỗ trợ khách hàng xây dựng các giải pháp phân tích quy mô lớn trên AWS.