Ngày đăng: 09 tháng 05 năm 2025
Tác giả: Valerie Laufer
Danh mục: Amazon Athena, Amazon EMR, Amazon Redshift, Amazon S3 Tables, Amazon SageMaker Lakehouse, Amazon SageMaker Unified Studio, Amazon Simple Storage Service (S3), Announcements, AWS CloudTrail, AWS Glue, AWS Key Management Service, Intermediate (200), Open Source
Amazon S3 đã định nghĩa lại việc lưu trữ dữ liệu khi ra mắt vào năm 2006 như dịch vụ AWS đầu tiên được cung cấp rộng rãi, nhằm mang đến giải pháp lưu trữ đáng tin cậy, bền bỉ, an toàn, độ trễ thấp với khả năng mở rộng gần như vô hạn. Mặc dù được thiết kế để cung cấp lưu trữ đơn giản, S3 đã chứng minh khả năng xử lý sự tăng trưởng dữ liệu bùng nổ trong 19 năm qua. Chỉ 10 năm trước, chưa đến 100 khách hàng S3 lưu trữ trên 1PB dữ liệu. Ngày nay, hàng nghìn khách hàng lưu trữ vượt con số này, thậm chí một số khách hàng cá nhân đang lưu trữ dữ liệu ở mức exabyte. Đây là điều mà nhiều người trong chúng ta xem là hiển nhiên, nhưng S3 đã phần lớn loại bỏ các thách thức về mở rộng lưu trữ cho khách hàng, đồng thời thực hiện việc này hiệu quả về chi phí, bền bỉ và an toàn.
Khả năng mở rộng, hiệu suất, hiệu quả chi phí, dễ sử dụng và độ bền là một số lý do tại sao S3 trở thành nền tảng cho hơn một triệu hồ dữ liệu (data lakes) phục vụ các ứng dụng nhạy cảm với độ trễ như phân tích dữ liệu tương tác, mô hình tài chính, quảng cáo thời gian thực và AI. Một trong những lời khen mà đội ngũ S3 thường nghe nhất là “S3 chỉ đơn giản là hoạt động tốt”, nhưng chúng tôi luôn tự hỏi: “Làm thế nào để S3 hoạt động tốt… hơn nữa?”
Làm việc chặt chẽ với khách hàng đã hé lộ một nhu cầu: tăng cường khả năng của S3 cho các khối lượng công việc phân tích. Với Apache Parquet trở thành định dạng ưa thích cho các bộ dữ liệu lớn, nhiều khách hàng S3 đang lưu trữ hàng triệu hoặc hàng tỷ file Parquet, và với Apache Iceberg trở thành giải pháp phổ biến nhất để quản lý các file Parquet, chúng tôi nhận thấy cơ hội để đơn giản hóa quản lý hồ dữ liệu.
Mặc dù Iceberg cung cấp định dạng bảng mạnh mẽ, cho phép nhất quán giao dịch và truy vấn SQL trên các bộ dữ liệu khổng lồ, việc quản lý ở quy mô lớn lại tạo ra sự phức tạp về vận hành. Nó đòi hỏi các nhóm chuyên dụng xây dựng hệ thống tùy chỉnh để tối ưu hóa bảng về chi phí và hiệu suất, yêu cầu chuyên môn mà nhiều tổ chức chưa có.
Chính vì lý do này, chúng tôi đã ra mắt Amazon S3 Tables tại AWS re:Invent 2024. Amazon S3 Tables giới thiệu lưu trữ dạng bảng được thiết kế riêng và một loại bucket mới cho các bảng Iceberg, giúp việc lưu trữ dữ liệu có cấu trúc trong S3 trở nên đơn giản. S3 Tables tự động thực hiện các tác vụ bảo trì như nén dữ liệu, quản lý snapshot và xóa file không còn tham chiếu, giúp bạn duy trì hiệu suất truy vấn và chi phí tối ưu liên tục, ngay cả khi hồ dữ liệu (data lake) mở rộng.
Chỉ trong năm tháng kể từ khi ra mắt, đội ngũ S3 đã thúc đẩy đổi mới cho S3 Tables bằng cách phản hồi trực tiếp từ khách hàng. Ví dụ, S3 Tables đã mở rộng từ 3 lên 30 vùng AWS, ra mắt nhiều tính năng mới mạnh mẽ, giới thiệu giải pháp di cư, và xây dựng tích hợp với cả dịch vụ phân tích AWS và bên thứ ba.
Trong bài viết này, tôi tổng hợp lại các tính năng chính của S3 Tables và cách bạn có thể sử dụng chúng trong quy trình phân tích dữ liệu của mình.

Các cập nhật kể từ khi ra mắt
Tích hợp liền mạch với các ứng dụng phân tích của AWS và bên thứ ba (third-party analytics applications)
S3 Tables đã tích hợp với Amazon SageMaker Lakehouse để cung cấp unified S3 Tables data access (truy cập dữ liệu S3 Tables thống nhất) trên các analytics engines (công cụ phân tích) và tools (công cụ) khác nhau. Với tích hợp này, bạn có thể truy cập SageMaker Lakehouse từ Amazon SageMaker Unified Studio, một single data and AI development environment (môi trường phát triển dữ liệu và AI đơn) kết hợp chức năng và công cụ từ AWS analytics và AI/ML services (dịch vụ AI/ML). Tất cả dữ liệu S3 Tables được tích hợp với SageMaker Lakehouse có thể được queried (truy vấn) từ SageMaker Unified Studio và các engines như Amazon Athena, Amazon EMR, Amazon Redshift, cũng như Apache Iceberg-compatible engines (công cụ tương thích Apache Iceberg) như Apache Spark, Trino, hoặc PyIceberg. Với tích hợp này, bạn có thể đơn giản hóa việc xây dựng các quy trình phân tích an toàn, nơi bạn có thể đọc/ghi vào S3 Tables và kết hợp (join) với dữ liệu từ các kho dữ liệu (data warehouse) của Redshift cũng như các nguồn dữ liệu của bên thứ ba hoặc nguồn dữ liệu liên hợp (federated), như Amazon DynamoDB hoặc PostgreSQL. Trải nghiệm unified data management (quản lý dữ liệu thống nhất) này cho phép bạn phân tích dữ liệu sử dụng nhiều AWS và third-party query engines (công cụ truy vấn) và ứng dụng, trong khi quản lý bảo mật thông qua centralized, fine-grained permissions (quyền hạn tập trung, chi tiết) trong SageMaker Unified Studio. Đọc blog post để biết thêm thông tin.
Truy cập S3 Tables bằng tiêu chuẩn Apache Iceberg REST Catalog từ bất kỳ engine tương thích nào
S3 Tables đã thêm API quản lý bảng (table management APIs) tương thích với tiêu chuẩn Apache Iceberg REST Catalog (Apache Iceberg REST Catalog standard), cho phép bạn sử dụng bất kỳ công cụ truy vấn tương thích Iceberg (Iceberg-compatible query engine) nào (ví dụ: Spark, Trino, PyIceberg, hoặc DuckDB) để truy cập dữ liệu dạng bảng (tabular data) trực tiếp từ S3 Tables. Điểm cuối REST (REST endpoint) S3 Tables Iceberg có thể được sử dụng để truy cập bảng (tables) trong triển khai catalog (catalog implementations) AWS Partner Network (APN) hoặc triển khai catalog tùy chỉnh (custom catalog implementations). Nó cũng có thể được sử dụng nếu bạn chỉ cần truy cập đọc/ghi cơ bản (basic read/write access) vào một bucket bảng đơn (single table bucket). Với cộng đồng ngày càng phát triển của các ứng dụng hỗ trợ Iceberg, những API này giúp tích hợp dễ dàng hơn các ứng dụng ưa thích của bạn ở mọi bước trong đường ống dữ liệu (data pipeline) của bạn. Đọc tài liệu (documentation) để bắt đầu.
Dễ dàng bắt đầu hơn từ giao diện S3 Console với Athena
Chúng tôi đã đơn giản hóa việc bắt đầu với S3 Tables thông qua S3 console (bảng điều khiển S3). Bạn có thể tạo bảng (tables), điền dữ liệu vào chúng, và truy vấn bảng (query tables) sử dụng Athena, tất cả trong S3 console. Với tích hợp này, việc bắt đầu cho khám phá dữ liệu tự động (automatic data discovery) trên các dịch vụ phân tích AWS (AWS analytics services) để truy vấn bucket bảng (table buckets) mới hoặc hiện có trở nên dễ dàng hơn bao giờ hết.
Nâng cao khả năng định nghĩa schema
Chúng tôi đã thêm hỗ trợ định nghĩa schema (schema definition) trong CreateTable API cho phép bạn dễ dàng tạo một bảng với schema (lược đồ) hoàn chỉnh thông qua lệnh CLI (CLI commands) mà không cần phải khởi động một công cụ tương thích Iceberg (Iceberg-compatible engine). Sau khi một bảng được tạo với schema của nó, bạn có thể bắt đầu streaming (truyền phát) dữ liệu giao dịch (transactional), nhật ký (log), hoặc dữ liệu khác từ các nguồn khác nhau như Apache Kafka, Apache Flink, và Amazon Data Firehose. Quy trình làm việc hợp lý (streamlined workflow) này giúp bạn xây dựng cơ sở hạ tầng dữ liệu (data infrastructure) hiệu quả hơn trong khi duy trì kiểm soát chính xác đối với cấu trúc bảng (table structures).
Mở rộng hạn mức bảng (Scaled table quota)
Chúng tôi đã tăng đáng kể khả năng mở rộng (scalability) của S3 Tables, bằng cách hỗ trợ tạo tới 10,000 bảng trong mỗi bucket bảng (table bucket). Điều này có nghĩa là các nhóm dữ liệu (data teams) có thể mở rộng tới 100,000 bảng trên 10 bucket bảng trong một AWS Region và AWS account duy nhất. Cải tiến này cho phép các tổ chức quản lý nhu cầu dữ liệu ngày càng tăng với hiệu quả và tính linh hoạt cao hơn.
Hướng dẫn di chuyển dữ liệu dạng bảng từ S3 sang S3 Tables
Hướng dẫn giải pháp này chứng minh cách di chuyển dữ liệu dạng bảng (tabular data) từ bucket S3 mục đích chung (general purpose S3 buckets) sang S3 Tables. Nó chỉ cho bạn cách thiết lập quy trình di chuyển tự động (automated migration process) để chuyển các bảng Apache Iceberg và Apache Hive bằng cách sử dụng AWS Step Functions, EMR, và AWS Glue Data Catalog. Sau khi di chuyển, bạn sẽ được hưởng lợi từ hiệu suất tăng cao và tiết kiệm chi phí .
Mã hóa phía máy chủ với AWS KMS (Server-side encryption using AWS KMS)
S3 Tables hiện cung cấp tùy chọn mã hóa nâng cao (enhanced encryption options) với hỗ trợ AWS Key Management Service (SSE-KMS) cho khóa do khách hàng quản lý (customer-managed keys). Mặc dù các bảng được mã hóa theo mặc định sử dụng khóa do S3 quản lý (S3-managed keys), bạn hiện có thể triển khai khóa KMS (KMS keys) của riêng mình cho các bảng cụ thể hoặc toàn bộ bucket bảng (table buckets). Tính năng này cho phép tuân thủ tốt hơn các yêu cầu quy định (regulatory requirements), bao gồm S3 Bucket Keys để tiết kiệm chi phí (cost efficiency), và cung cấp ghi nhật ký AWS CloudTrail (AWS CloudTrail logging) cho kiểm toán bảo mật (security auditing).
Phạm vi khả dụng theo vùng (Regional availability)
S3 Tables hiện có sẵn trong ba mươi vùng AWS (AWS Regions), với nhiều vùng sẽ ra mắt sớm. Kiểm tra tài liệu (documentation) để biết danh sách hiện tại các vùng AWS (AWS Regions) được hỗ trợ.
Chúng tôi đang lắng nghe và cung cấp
Chúng tôi đang liên tục thu thập phản hồi (feedback) từ khách hàng và đối tác để nâng cao S3 Tables. Bằng cách kết hợp những hiểu biết có giá trị này, chúng tôi đang cải thiện hiệu suất (performance) của S3 Tables cho khối lượng công việc hồ dữ liệu (data lake workloads).
Nhiều khách hàng đang sử dụng S3 Tables để mở rộng quy mô khối lượng công việc sản xuất (production workloads) của họ. Genesys, một nhà lãnh đạo đám mây toàn cầu trong điều phối trải nghiệm hỗ trợ AI (AI-powered experience orchestration), nêu bật cách hỗ trợ Iceberg được quản lý (managed Iceberg support) của S3 Tables đơn giản hóa quy trình làm việc dữ liệu phức tạp (complex data workflows) của họ trong khi tăng hiệu suất. Tại Pendulum, nơi họ phân tích dữ liệu từ hàng trăm triệu kênh xã hội (social channels), S3 Tables đã chuyển đổi quản lý hồ dữ liệu (data lake management) của họ bằng cách tự động hóa các tác vụ bảo trì quan trọng (critical maintenance tasks), cho phép đội ngũ của họ tập trung vào việc khai thác những thông tin chuyên sâu có giá trị thực tiễn. Nhà cung cấp công nghệ chăm sóc sức khỏe Zus Health nhấn mạnh cách khả năng tối ưu hóa được quản lý (managed optimization capabilities) của S3 Tables đặc biệt có giá trị để xử lý dữ liệu bệnh nhân thay đổi thường xuyên (frequently changing patient data), trong khi SnapLogic lưu ý cách tính năng này giúp các công ty tối ưu hóa chi phí phân tích (analytics costs) trong khi duy trì tuân thủ quy định (regulatory compliance).
Dựa trên nhu cầu khách hàng, chúng tôi cũng đang làm việc với các đối tác để xây dựng tích hợp liền mạch (seamless integrations). Hỗ trợ cho Apache Iceberg REST APIs cho phép khả năng tương tác đơn giản (straightforward interoperability) với Dremio và DuckDB. Khách hàng của Snowflake giờ đây có thể đọc và xử lý mượt mà dữ liệu trong S3 Tables bằng hệ thống sẵn có của mình và tận hưởng hiệu suất hàng đầu thế giới, trong khi StreamNative nhấn mạnh cách tích hợp làm cho dữ liệu thời gian thực, sẵn sàng cho AI (real-time, AI-ready data) dễ tiếp cận và tiết kiệm chi phí hơn. Các đối tác trên toàn bộ phổ, từ Starburst đến PuppyGraph, đang sử dụng S3 Tables để nâng cao các dịch vụ của họ trong các lĩnh vực từ phân tích đồ thị (graph analytics) đến DataOps công nghiệp (industrial DataOps), chứng minh tính linh hoạt (versatility) trong việc hỗ trợ các trường hợp sử dụng (use cases) và khối lượng công việc (workloads) đa dạng.
Kết luận
Sự phát triển nhanh chóng của Amazon S3 Tables chứng minh cam kết của chúng tôi trong việc đơn giản hóa quản lý hồ dữ liệu (data lake management) trong khi kích hoạt khả năng phân tích mạnh mẽ (powerful analytics capabilities). Những cải tiến này đã giúp các tổ chức trên các ngành công nghiệp khám phá những hiểu biết mới (new insights) từ dữ liệu dạng bảng (tabular data) của họ. Chúng tôi rất hào hứng để tiếp tục đổi mới dựa trên phản hồi (feedback) của bạn – hãy theo dõi để biết thêm những phát triển!
Để tìm hiểu thêm:
- Explore the S3 Tables overview page for customer and partner testimonials
- Continue reading about S3 Tables on the AWS Storage Blog
- Visit the S3 Tables user guide for detailed technical guidance
TAGS: Amazon Athena, Amazon DynamoDB, Amazon EMR, Amazon Redshift, Amazon S3, AWS Cloud Storage, AWS CloudTrail, AWS Glue, AWS Key Management Service (AWS KMS), AWS Open Source, AWS Step Functions

Valerie Laufer
Valerie Laufer là Trưởng phòng Tiếp thị Sản phẩm của Amazon S3. Cô thích tham gia vào các đợt ra mắt sản phẩm có tầm ảnh hưởng của AWS và giúp khách hàng hiểu và áp dụng các giải pháp lưu trữ đám mây. Có trụ sở tại Boston, cô có một hoạt động yêu thích trong cả bốn mùa: đi bộ đường dài, trượt tuyết, đạp xe và đi biển.