Bởi Austin Park, Raaga N.G, and Rayette Toles-Abdullah ngày 30 tháng 1 năm 2025 in Amazon API Gateway, Amazon Athena, Amazon CloudFront, Amazon Cognito, Amazon DynamoDB, Amazon Elastic Kubernetes Service, Amazon EventBridge, Amazon Machine Learning, Amazon QuickSight, Amazon Route 53, Amazon Simple Storage Service (S3), Analytics, AWS Data Exchange, AWS Glue, AWS Lambda, AWS Management Console, AWS Marketplace, AWS WAF, Best Practices, Public Sector, Serverless, Storage
Chia sẻ dữ liệu là yếu tố thiết yếu để các tổ chức đưa ra quyết định sáng suốt và thúc đẩy đổi mới. Amazon Web Services (AWS) cung cấp nhiều công cụ và dịch vụ để giúp phân phối dữ liệu một cách an toàn và có khả năng mở rộng. Cho dù là chia sẻ dữ liệu công khai vì lợi ích chung, kiếm tiền từ bộ dữ liệu riêng cho mục đích kinh doanh, hay cộng tác với đồng nghiệp, AWS đều cung cấp cơ sở hạ tầng và hỗ trợ cần thiết. Sử dụng AWS Cloud cho phép các tổ chức chia sẻ dữ liệu an toàn với các nhóm, AWS Partners và người dùng, từ đó giúp họ trích xuất những hiểu biết có giá trị và thúc đẩy tăng trưởng. AWS giúp việc chia sẻ dữ liệu không chỉ là một yêu cầu mà còn là lợi thế chiến lược trong việc điều hướng sự phức tạp của môi trường dựa trên dữ liệu ngày nay.
AWS Open Data
Các sáng kiến dữ liệu mở đang ngày càng phát triển khi nhiều người nhận thấy lợi ích của việc chia sẻ dữ liệu dễ dàng. AWS hỗ trợ xu hướng này thông qua chương trình AWS Open Data. Chương trình là nơi lưu trữ và chia sẻ nhiều bộ dữ liệu với công chúng thông qua Registry of Open Data on AWS và chi phí lưu trữ được trang trải bởi AWS Open Data Sponsorship Program.
Registry of Open Data on AWS lưu trữ nhiều bộ dữ liệu công khai như dữ liệu chính phủ, nghiên cứu khoa học, khoa học đời sống, khí hậu, hình ảnh vệ tinh, địa không gian và dữ liệu gene.
AWS Open Data khuyến khích sự hợp tác và đổi mới thông qua Registry of Open Data, nơi người dùng có thể đóng góp bộ dữ liệu bằng cách sử dụng cơ sở hạ tầng đáng tin cậy và an toàn của AWS. Mọi người có thể dễ dàng truy cập dữ liệu có giá trị này để nghiên cứu, phân tích và xây dựng ứng dụng mà không cần tải xuống hoặc lưu trữ. Thông qua AWS Open Data Sponsorship Program, khách hàng có thể công khai các bộ dữ liệu có giá trị cao với chi phí lưu trữ do AWS chi trả. Người tiêu dùng dữ liệu và nhà cung cấp dữ liệu đều có thể chia sẻ notebooks và các phân tích khác trong trang Registry cho bộ dữ liệu, cũng như các ấn phẩm và tài nguyên khác trích dẫn dữ liệu.
Lợi ích của AWS Open Data:
- Tác động toàn cầu: AWS Open Data giúp bộ dữ liệu của bạn có sẵn cho người dùng toàn cầu, cho phép hợp tác và phát triển với tác động toàn cầu.
- Tăng trưởng và đổi mới nhanh chóng: Dữ liệu nằm trong AWS có nghĩa là bạn có thể sử dụng các dịch vụ AWS để xử lý, phân tích và thu được thông tin chi tiết từ dữ liệu một cách nhanh chóng. AWS cung cấp nhiều dịch vụ compute, analytics và machine learning (ML) cho phép bạn chạy phân tích ở quy mô lớn bên cạnh dữ liệu.
AWS Data Exchange
AWS Data Exchange là một dịch vụ giúp đơn giản hóa việc tìm kiếm, đăng ký và sử dụng dữ liệu của bên thứ ba trong AWS. Dịch vụ này cung cấp một catalog các sản phẩm dữ liệu từ các nhà cung cấp dữ liệu đủ điều kiện, cho phép các tổ chức nhanh chóng khám phá và truy cập dữ liệu họ cần mà không gặp phải những thách thức thông thường về cấp phép, tiếp nhận và quản lý dữ liệu của bên thứ ba. AWS Data Exchange là một dịch vụ end-to-end hoàn chỉnh tạo điều kiện cho việc khám phá, đăng ký và phân phối các sản phẩm dữ liệu. Nó cho phép người dùng nhập nhiều bộ dữ liệu khác nhau, bao gồm cả từ nguồn Open Data, quản lý đăng ký và cấp phép dữ liệu một cách hiệu quả, đồng thời cung cấp nền tảng cho các nhà cung cấp dữ liệu để xuất bản và kiếm tiền từ sản phẩm dữ liệu của họ trên AWS Marketplace. Cách tiếp cận tích hợp này hợp lý hóa toàn bộ quy trình trao đổi dữ liệu, từ tìm nguồn đến thương mại hóa, tất cả trong hệ sinh thái AWS.
Một trong những lợi ích chính của việc sử dụng AWS Data Exchange cho phân phối dữ liệu là việc hợp lý hóa quá trình phân phối. Các nhà cung cấp dữ liệu có thể xuất bản liền mạch các sản phẩm dữ liệu của họ lên AWS Data Exchange, tương tự như các catalog dữ liệu khác. Các nhà cung cấp dữ liệu có thể liệt kê và bán dữ liệu của họ, trong khi người tiêu dùng dữ liệu có thể tìm kiếm, đăng ký và sử dụng các bộ dữ liệu này trong ứng dụng và quy trình làm việc của họ. Điều này hợp lý hóa quá trình chia sẻ dữ liệu, vì người tiêu dùng dữ liệu có thể đăng ký các sản phẩm họ cần thông qua AWS Management Console hoặc API, mà không cần phải thương lượng các thỏa thuận cấp phép riêng lẻ hoặc quản lý các quy trình chuyển dữ liệu phức tạp.
AWS Data Exchange sử dụng quy mô và bảo mật của AWS để cung cấp việc phân phối dữ liệu đáng tin cậy và nhất quán. Dữ liệu được phân phối trực tiếp từ AWS, cung cấp tính khả dụng và độ bền cao, đồng thời cũng được hưởng lợi từ các kiểm soát bảo mật toàn diện và chứng nhận tuân thủ của AWS. Điều này mang lại cho các nhà cung cấp dữ liệu sự tự tin rằng tài sản trí tuệ của họ được bảo vệ, trong khi người tiêu dùng dữ liệu có thể tin tưởng rằng dữ liệu họ nhận được là xác thực và cập nhật.
AWS Data Exchange hợp lý hóa các khía cạnh thương mại của việc chia sẻ dữ liệu. Dịch vụ cung cấp một mô hình định giá pay-as-you-go tiêu chuẩn hóa, cho phép người tiêu dùng dữ liệu mua và truy cập các sản phẩm dữ liệu. Điều này dân chủ hóa việc truy cập vào các nguồn dữ liệu có giá trị, cho phép các tổ chức ở mọi quy mô tích hợp dữ liệu của bên thứ ba vào ứng dụng và phân tích của họ, cuối cùng thúc đẩy đổi mới và giá trị kinh doanh.
Lợi ích của AWS Data Exchange:
- Bộ sưu tập dữ liệu rộng lớn: AWS Data Exchange là kho lưu trữ dữ liệu tập trung cung cấp quyền truy cập vào hơn 3500 bộ dữ liệu từ hơn 300 nhà cung cấp dữ liệu trên toàn cầu.
- Hợp lý hóa việc thu thập dữ liệu: AWS Data Exchange tập trung và đẩy nhanh quá trình thu thập dữ liệu. Bạn có thể hợp nhất việc tiếp nhận dữ liệu từ các nhà cung cấp dữ liệu bằng một API duy nhất.
- Tích hợp tự nhiên với các dịch vụ AWS: Data Exchange tích hợp liền mạch với các dịch vụ phân tích và mô hình ML của AWS, cho phép bạn nhanh chóng trích xuất thông tin chi tiết từ dữ liệu của mình. Nó cũng hỗ trợ xác thực và quản trị AWS.
Storage Browser for Amazon Simple Storage Service
AWS đã giới thiệu Storage Browser for Amazon S3, một tính năng mới cho phép các nhà phát triển nhúng trình duyệt tệp có thể tùy chỉnh trực tiếp trong ứng dụng của họ. Storage Browser for S3 đặc biệt hữu ích trong các tình huống người dùng cần quản lý tệp cá nhân hoặc cộng tác ở quy mô nhỏ hơn. Nó có thể được tích hợp vào các cổng dữ liệu mở hoặc nền tảng nghiên cứu cho phép truy cập dễ dàng vào các bộ dữ liệu công cộng lớn được lưu trữ trong S3 buckets. Ví dụ, các tổ chức khoa học có thể sử dụng nó để chia sẻ dữ liệu nghiên cứu, cho phép các nhà nghiên cứu khác duyệt và truy cập thông tin có giá trị mà không cần tải xuống toàn bộ bộ dữ liệu. Điều này thúc đẩy khoa học mở và sự cộng tác trên quy mô toàn cầu. Công cụ này cho phép người dùng truy cập, xem và tương tác liền mạch với dữ liệu được lưu trữ trong Amazon S3 buckets mà không cần rời khỏi môi trường ứng dụng.
Storage Browser hỗ trợ các thao tác tệp thông thường và có thể được điều chỉnh để phù hợp với thương hiệu của ứng dụng, làm cho nó linh hoạt cho cả ứng dụng doanh nghiệp và người tiêu dùng. Bằng cách tích hợp truy cập dữ liệu S3 trực tiếp vào ứng dụng, Storage Browser cải thiện đáng kể trải nghiệm người dùng và năng suất, loại bỏ nhu cầu chuyển đổi giữa các giao diện khác nhau để quản lý các tệp được lưu trữ trong S3. Tính năng này đại diện cho một bước tiến đáng chú ý trong việc làm cho lưu trữ đám mây dễ tiếp cận và thân thiện với người dùng hơn trong quy trình làm việc của ứng dụng.
Lợi ích của Storage Browser với S3:
- Tích hợp: Storage Browser có thể được nhúng trực tiếp trong ứng dụng, cung cấp trải nghiệm người dùng tự nhiên dễ hiểu.
- Giảm thiểu di chuyển dữ liệu: Bằng cách cho phép truy cập trực tiếp vào dữ liệu S3, Storage Browser giảm thiểu nhu cầu sao chép hoặc di chuyển các bộ dữ liệu lớn. Điều này hiệu quả hơn các phương pháp trao đổi dữ liệu truyền thống thường liên quan đến việc sao chép hoặc tải xuống toàn bộ bộ dữ liệu.
- Truy cập thời gian thực: Người dùng có thể duyệt, tìm kiếm và tương tác với dữ liệu S3 trong thời gian thực trong ứng dụng. Điều này nhanh hơn các phương pháp trao đổi dữ liệu khác có thể liên quan đến việc yêu cầu và chờ đợi chuyển dữ liệu.
Build-your-own (BYO) Lens on AWS
Build-your-own (BYO) Lens trên AWS cung cấp giải pháp tùy chỉnh cho các tổ chức để diễn giải dữ liệu với góc nhìn độc đáo. Phát triển một nền tảng được điều chỉnh cho phép doanh nghiệp tạo điều kiện chia sẻ dữ liệu suôn sẻ giữa các nhóm. Các tổ chức có thể sử dụng kiến thức chuyên môn, kinh nghiệm và hiểu biết về chủ đề, dẫn đến những diễn giải sâu sắc hơn. BYO Lens có thể được điều chỉnh theo nhu cầu, ưu tiên và quy trình ra quyết định cụ thể của tổ chức. Điều này giúp đảm bảo rằng các thông tin chi tiết được tạo ra có thể trực tiếp hành động được cho các tổ chức.
Các bước cốt lõi của BYO Lens bao gồm chuẩn bị dữ liệu, phân tích và trực quan hóa. AWS cung cấp nhiều dịch vụ cho phép các tổ chức xây dựng các bước cốt lõi này. Các dịch vụ như Amazon QuickSight, AWS Glue, Amazon Athena và AWS Lambda cho phép dữ liệu được điều chỉnh theo nhu cầu cụ thể. AWS cũng cung cấp các dịch vụ dành riêng cho lưu trữ dữ liệu, như Amazon S3, cho phép bạn tích hợp nhiều nguồn dữ liệu. Các dịch vụ AWS được thiết kế để có thể mở rộng, cho phép quy trình làm việc BYO Lens xử lý khối lượng dữ liệu lớn. Quy trình làm việc BYO Lens trong AWS có tính bảo mật cao, bảo vệ tính bảo mật, toàn vẹn và khả dụng của dữ liệu và thông tin chi tiết được tạo ra thông qua lens phân phối dữ liệu tùy chỉnh của bạn.
Các dịch vụ AWS khác nhau này có thể được tích hợp vào quy trình làm việc tùy chỉnh được phác thảo trong Common Data Workflow:
- Data ingestion: Quy trình này sẽ làm việc song song với người dùng yêu cầu thông tin về phía phân phối dữ liệu. Các nguồn dữ liệu tùy chỉnh khác nhau có thể được nhập như dữ liệu thô vào Amazon S3 và tự động gửi đến các ứng dụng với S3 Event Notifications và Amazon EventBridge. Dữ liệu thô được gửi đến các ứng dụng tính toán xử lý dữ liệu thô và bắt đầu quá trình chuyển đổi dữ liệu.
- Data delivery and security: Người dùng nhập tên miền mong muốn được quản lý thông qua Amazon Route53, và lưu lượng truy cập được cung cấp nội dung tĩnh và động được quản lý bởi Amazon CloudFront với nguồn gốc Amazon S3. BYO Lens tùy chỉnh được bảo vệ khỏi cross-site scripting, SQL injection và các cuộc tấn công phổ biến khác với AWS WAF.
- Data dissemination: Các yêu cầu API được thực hiện trong nội dung tĩnh và động được chuyển tiếp đến Amazon API Gateway, nơi các yêu cầu được xác thực với Amazon Cognito. Nếu xác thực thành công, Lambda sẽ quản lý cả lệnh gọi và phản hồi cho các yêu cầu API này, kết nối liền mạch các quy trình làm việc Data Dissemination, Data Transformation và Data Ingestion lại với nhau.
- Data transformation: Các ứng dụng tính toán sẽ trích xuất, chuyển đổi và tải dữ liệu đã chuyển đổi vào Amazon S3 bằng AWS Glue. Thông qua AWS Lambda, các yêu cầu sẽ được gửi đến Athena để truy vấn dữ liệu bằng SQL từ AWS Glue Data Catalog. Dữ liệu sẽ được trích xuất, chuyển đổi và tải vào Amazon S3 với AWS Glue, và catalog dữ liệu được tạo trong quá trình ETL này. Athena sẽ gửi kết quả truy vấn trở lại Lambda, sau đó được gửi lại cho người dùng thông qua API Gateway đến nguồn gốc S3 bucket cho CloudFront.
Lợi ích của BYO Lens:
- Full control: BYO Lens cho phép bạn kiểm soát hoàn toàn kiến trúc, nguồn dữ liệu, chuyển đổi dữ liệu và quy trình phổ biến. Điều này cho phép bạn điều chỉnh nền tảng theo yêu cầu cụ thể, tích hợp với hệ thống hiện có và tùy chỉnh trải nghiệm người dùng.
- AWS services full control: BYO Lens mang lại cho bạn sự linh hoạt để chọn các dịch vụ AWS phù hợp nhất với nhu cầu của bạn, thay vì phải cam kết với cách một dịch vụ được quản lý đầy đủ được xây dựng ở backend.
- Security/data governance: Xây dựng nền tảng riêng cho phép bạn kiểm soát tốt hơn về quản trị dữ liệu, chính sách truy cập và biện pháp bảo mật. Bạn có thể cấp đặc quyền chi tiết cho các dịch vụ cụ thể trong kiến trúc cho các nhóm khác nhau trong tổ chức của bạn.
- Customization: BYO Lens cho phép bạn tùy chỉnh hoàn toàn trải nghiệm người dùng, thương hiệu và giao diện để phù hợp với nhận diện trực quan và yêu cầu người dùng của tổ chức. Điều này có thể giúp cung cấp trải nghiệm liền mạch và có thương hiệu hơn cho người dùng của bạn. Việc tích hợp quy trình phổ biến dữ liệu với đường dẫn dữ liệu hiện có và công cụ phân tích với các hệ thống kinh doanh khác rất đơn giản, tạo ra một hệ sinh thái dịch vụ hiệu quả trong AWS.
Hình 1. Quy trình dữ liệu thông thường với phân phối dữ liệu BYO Lens. Các thành phần chính bao gồm Amazon Route 53, Amazon CloudFront, Amazon S3, Amazon API Gateway, AWS Lambda, Amazon Cognito, Amazon DynamoDB, Amazon Athena, AWS Glue, Amazon EKS, Amazon ECS, và Amazon EventBridge.
Kết luận
AWS cung cấp một bộ công cụ và dịch vụ toàn diện để phân phối dữ liệu, bao gồm AWS Open Data, AWS Data Exchange, Storage Browser for Amazon S3 và Build-your-own (BYO) Lens. Những giải pháp này đáp ứng nhiều nhu cầu chia sẻ dữ liệu khác nhau, từ dữ liệu công khai đến sản phẩm dữ liệu thương mại, cho phép tổ chức phân phối dữ liệu an toàn và hiệu quả ở quy mô lớn. AWS Open Data hỗ trợ sáng kiến dữ liệu mở, trong khi AWS Data Exchange tạo điều kiện khám phá và sử dụng sản phẩm dữ liệu của bên thứ ba. Storage Browser for Amazon S3 và BYO Lens cung cấp giải pháp tùy chỉnh để nhúng trình duyệt tệp trong ứng dụng và tạo nền tảng diễn giải dữ liệu phù hợp, tất cả đều tận dụng cơ sở hạ tầng và tính năng bảo mật mạnh mẽ của AWS.
Bài được dịch từ bài viết trên AWS Blogs, bạn có thể xem bài viết gốc tại đây.