Tác giả: Larry Weber
Ngày phát hành: 07 JAN 2026
Chuyên mục: Amazon EMR, Amazon Managed Workflows for Apache Airflow (Amazon MWAA), Amazon OpenSearch Service, Amazon Redshift, Amazon SageMaker Data & AI Governance, Amazon SageMaker Unified Studio, Analytics, AWS Glue, AWS Lake Formation, AWS re:Invent, Intermediate (200)
re:Invent 2025 đã giới thiệu tầm nhìn táo bạo của Amazon Web Services (AWS) về tương lai của phân tích, nơi các kho dữ liệu, hồ dữ liệu và phát triển AI hội tụ thành một nền tảng liền mạch, mở, thông minh, với khả năng tương thích Apache Iceberg là cốt lõi. Với hơn 18 thông báo lớn trong ba tuần, AWS đã chứng minh cách các tổ chức có thể phá vỡ các silo dữ liệu, tăng tốc thông tin chi tiết bằng AI và duy trì quản trị mạnh mẽ mà không phải hy sinh sự linh hoạt.
Amazon SageMaker: Nền tảng dữ liệu của bạn, được đơn giản hóa
AWS đã giới thiệu một cách tiếp cận nhanh hơn, đơn giản hơn để tích hợp nền tảng dữ liệu cho Amazon SageMaker Unified Studio. Trải nghiệm tích hợp một lần nhấp mới loại bỏ hàng tuần thiết lập, giúp các nhóm có thể bắt đầu làm việc với các bộ dữ liệu hiện có trong vài phút bằng cách sử dụng các vai trò và quyền AWS Identity and Access Management (IAM) hiện tại của họ. Có thể truy cập trực tiếp từ các bảng điều khiển Amazon SageMaker, Amazon Athena, Amazon Redshift và Amazon S3 Tables, trải nghiệm được sắp xếp hợp lý này tự động tạo các dự án SageMaker Unified Studio với các quyền dữ liệu hiện có được giữ nguyên. Cốt lõi của nó là một notebook serverless mạnh mẽ mới, định hình lại cách các chuyên gia dữ liệu làm việc. Giao diện duy nhất này kết hợp các truy vấn SQL, mã Python, xử lý Apache Spark và các lời nhắc ngôn ngữ tự nhiên, được hỗ trợ bởi Amazon Athena for Apache Spark để mở rộng từ khám phá tương tác đến các công việc quy mô petabyte. Các kỹ sư dữ liệu, nhà phân tích và nhà khoa học dữ liệu không còn cần phải chuyển đổi ngữ cảnh giữa các công cụ khác nhau dựa trên khối lượng công việc—họ có thể khám phá dữ liệu bằng SQL, xây dựng mô hình bằng Python và sử dụng hỗ trợ AI, tất cả ở một nơi.
Việc giới thiệu Amazon SageMaker Data Agent trong các notebook SageMaker mới đánh dấu một thời điểm quan trọng trong phát triển được hỗ trợ bởi AI cho các nhà xây dựng dữ liệu. Agent tích hợp này không chỉ tạo mã, nó còn hiểu ngữ cảnh dữ liệu, thông tin danh mục và siêu dữ liệu kinh doanh của bạn để tạo các kế hoạch thực thi thông minh từ các mô tả ngôn ngữ tự nhiên. Khi bạn mô tả một mục tiêu, agent sẽ chia nhỏ các tác vụ phân tích và machine learning (ML) phức tạp thành các bước có thể quản lý, tạo mã SQL và Python cần thiết, đồng thời duy trì nhận thức về môi trường notebook của bạn trong suốt quá trình. Khả năng này biến hàng giờ mã hóa thủ công thành vài phút phát triển có hướng dẫn, có nghĩa là các nhóm có thể tập trung vào việc thu thập thông tin chi tiết thay vì các công việc lặp đi lặp lại.
Nắm bắt dữ liệu mở với Apache Iceberg
Một chủ đề quan trọng trong các đợt ra mắt năm nay là việc áp dụng rộng rãi Apache Iceberg trên các dịch vụ phân tích của AWS, thay đổi cách các tổ chức quản lý các hồ dữ liệu quy mô petabyte. Liên kết danh mục với các danh mục Iceberg từ xa thông qua AWS Glue Data Catalog giải quyết một thách thức quan trọng trong kiến trúc dữ liệu hiện đại. Giờ đây, bạn có thể truy vấn các bảng Iceberg từ xa, được lưu trữ trong Amazon Simple Storage Service (Amazon S3) và được lập danh mục trong các danh mục Iceberg từ xa, bằng cách sử dụng các dịch vụ phân tích AWS ưa thích như Amazon Redshift, Amazon EMR, Amazon Athena, AWS Glue và Amazon SageMaker, mà không cần di chuyển hoặc sao chép bảng. Siêu dữ liệu đồng bộ hóa theo thời gian thực, cung cấp kết quả truy vấn phản ánh trạng thái hiện tại. Liên kết danh mục hỗ trợ cả kiểm soát truy cập chi tiết và quyền truy cập chi tiết thông qua AWS Lake Formation, cho phép chia sẻ giữa các tài khoản và truyền danh tính đáng tin cậy trong khi duy trì bảo mật nhất quán trên các danh mục liên kết.
Amazon Redshift hiện ghi trực tiếp vào các bảng Apache Iceberg, cho phép kiến trúc lakehouse mở thực sự, nơi phân tích liền mạch trải rộng trên các kho dữ liệu và hồ dữ liệu. Apache Spark trên Amazon EMR 7.12, AWS Glue, các notebook Amazon SageMaker, Amazon S3 Tables và AWS Glue Data Catalog hiện hỗ trợ các khả năng của Iceberg V3, bao gồm các vector xóa đánh dấu các hàng đã xóa mà không cần ghi lại tệp tốn kém, giảm đáng kể chi phí pipeline và tăng tốc sửa đổi dữ liệu và dòng dõi hàng. V3 tự động theo dõi lịch sử của mọi bản ghi, tạo ra các dấu vết kiểm toán cần thiết cho việc tuân thủ và có mã hóa cấp bảng giúp các tổ chức đáp ứng các quy định bảo mật nghiêm ngặt. Những đổi mới này có nghĩa là ghi nhanh hơn, chi phí lưu trữ thấp hơn, dấu vết kiểm toán toàn diện và xử lý tăng dần hiệu quả trên kiến trúc dữ liệu của bạn.
Quản trị mở rộng theo tổ chức của bạn
Quản trị dữ liệu đã nhận được sự chú ý đáng kể tại re:Invent với những cải tiến lớn cho Amazon SageMaker Catalog. Các tổ chức giờ đây có thể quản lý dữ liệu ở cấp cột với các biểu mẫu siêu dữ liệu tùy chỉnh và mô tả văn bản phong phú, được lập chỉ mục theo thời gian thực để dễ dàng khám phá ngay lập tức. Các quy tắc thực thi siêu dữ liệu mới yêu cầu các nhà sản xuất dữ liệu phân loại tài sản bằng từ vựng kinh doanh đã được phê duyệt trước khi xuất bản, cung cấp sự nhất quán trên toàn doanh nghiệp. Danh mục sử dụng các mô hình ngôn ngữ lớn (LLM) của Amazon Bedrock để tự động đề xuất các thuật ngữ từ vựng kinh doanh có liên quan bằng cách phân tích siêu dữ liệu bảng và thông tin lược đồ, thu hẹp khoảng cách giữa lược đồ kỹ thuật và ngôn ngữ kinh doanh. Có lẽ quan trọng nhất, SageMaker Catalog hiện xuất toàn bộ siêu dữ liệu tài sản của nó dưới dạng các bảng Apache Iceberg có thể truy vấn thông qua Amazon S3 Tables. Bằng cách này, các nhóm có thể phân tích kho danh mục bằng SQL tiêu chuẩn để trả lời các câu hỏi như “tài sản nào thiếu mô tả kinh doanh?” hoặc “có bao nhiêu bộ dữ liệu bí mật đã được đăng ký vào tháng trước?” mà không cần xây dựng cơ sở hạ tầng ETL tùy chỉnh.
Khi các tổ chức áp dụng kiến trúc đa kho để mở rộng quy mô và cô lập khối lượng công việc, khả năng quyền liên kết Amazon Redshift mới loại bỏ sự phức tạp của quản trị. Xác định quyền dữ liệu một lần từ một kho dữ liệu Amazon Redshift và chúng sẽ tự động được thực thi trên các kho dữ liệu trong tài khoản của bạn. Các kiểm soát cấp hàng, cấp cột và che giấu được áp dụng nhất quán bất kể truy vấn bắt nguồn từ kho dữ liệu nào, và các kho dữ liệu mới tự động kế thừa các chính sách quyền. Khả năng mở rộng theo chiều ngang này có nghĩa là các tổ chức có thể thêm kho dữ liệu mà không làm tăng chi phí quản trị, và các nhà phân tích ngay lập tức thấy các cơ sở dữ liệu từ các kho dữ liệu đã đăng ký.
Tăng tốc đổi mới AI với Amazon OpenSearch Service
Amazon OpenSearch Service đã giới thiệu các khả năng mới mạnh mẽ để đơn giản hóa và tăng tốc phát triển ứng dụng AI. Với sự hỗ trợ cho OpenSearch 3.3, tìm kiếm agentic cho phép kết quả chính xác bằng cách sử dụng đầu vào ngôn ngữ tự nhiên mà không cần các truy vấn phức tạp, giúp dễ dàng xây dựng các agent AI thông minh hơn. Công cụ PPL được hỗ trợ bởi Apache Calcite mới cung cấp tối ưu hóa truy vấn và một thư viện lệnh mở rộng để xử lý dữ liệu hiệu quả hơn.
Như đã thấy trong bài phát biểu chính của Matt Garman, việc xây dựng các cơ sở dữ liệu vector quy mô lớn giờ đây nhanh hơn đáng kể với tăng tốc GPU và tự động tối ưu hóa. Trước đây, việc tạo các chỉ mục vector quy mô lớn đòi hỏi hàng ngày xây dựng và hàng tuần điều chỉnh thủ công bởi các chuyên gia, điều này làm chậm đổi mới và ngăn cản tối ưu hóa chi phí-hiệu suất. Các công việc tự động tối ưu hóa serverless mới tự động đánh giá cấu hình chỉ mục—bao gồm các thuật toán k-nearest neighbors (k-NN), lượng tử hóa và cài đặt công cụ—dựa trên độ trễ tìm kiếm và yêu cầu thu hồi được chỉ định của bạn. Kết hợp với tăng tốc GPU, bạn có thể xây dựng các chỉ mục được tối ưu hóa nhanh hơn gấp mười lần với 25% chi phí lập chỉ mục, với các GPU serverless tự động kích hoạt và chỉ tính phí khi cung cấp tăng tốc. Những tiến bộ này đơn giản hóa việc mở rộng các ứng dụng AI như tìm kiếm ngữ nghĩa, công cụ đề xuất và hệ thống agentic, giúp các nhóm đổi mới nhanh hơn bằng cách giảm đáng kể thời gian và công sức cần thiết để xây dựng các cơ sở dữ liệu vector quy mô lớn, được tối ưu hóa.
Tối ưu hóa hiệu suất và chi phí
Cũng được công bố trong bài phát biểu chính, Amazon EMR Serverless hiện loại bỏ việc cấp phát bộ nhớ cục bộ cho các khối lượng công việc Apache Spark, giới thiệu bộ nhớ serverless giúp giảm chi phí xử lý dữ liệu lên đến 20% đồng thời ngăn chặn lỗi công việc do hạn chế dung lượng đĩa. Bộ nhớ được quản lý hoàn toàn, tự động mở rộng quy mô mã hóa dữ liệu trong quá trình truyền và khi lưu trữ với sự cô lập cấp công việc, cho phép Spark giải phóng các worker ngay lập tức khi không hoạt động thay vì giữ chúng hoạt động để bảo toàn dữ liệu tạm thời. Ngoài ra, AWS Glue đã giới thiệu các materialized view dựa trên Apache Iceberg, lưu trữ kết quả truy vấn được tính toán trước tự động làm mới khi dữ liệu nguồn thay đổi. Các công cụ Spark trên Amazon Athena, Amazon EMR và AWS Glue tự động viết lại các truy vấn để sử dụng các view này, tăng tốc hiệu suất lên đến tám lần đồng thời giảm chi phí tính toán. Dịch vụ tự động xử lý lịch trình làm mới, phát hiện thay đổi, cập nhật tăng dần và quản lý cơ sở hạ tầng.
Agent nâng cấp Apache Spark mới cho Amazon EMR biến việc nâng cấp phiên bản từ các dự án kéo dài hàng tháng thành các sáng kiến kéo dài hàng tuần. Sử dụng giao diện hội thoại, các kỹ sư thể hiện các yêu cầu nâng cấp bằng ngôn ngữ tự nhiên trong khi agent tự động xác định các thay đổi API và sửa đổi hành vi trên các ứng dụng PySpark và Scala. Các kỹ sư xem xét và phê duyệt các thay đổi được đề xuất trước khi triển khai, duy trì toàn quyền kiểm soát trong khi agent xác thực tính đúng đắn về chức năng thông qua kiểm tra chất lượng dữ liệu. Hiện tại hỗ trợ nâng cấp từ Spark 2.4 lên 3.5, khả năng này có sẵn thông qua SageMaker Unified Studio, Kiro CLI hoặc một môi trường phát triển tích hợp (IDE) với khả năng tương thích Model Context Protocol.
Để tối ưu hóa quy trình làm việc, AWS đã giới thiệu một tùy chọn triển khai Serverless mới cho Amazon Managed Workflows for Apache Airflow (Amazon MWAA), loại bỏ chi phí vận hành quản lý môi trường Apache Airflow đồng thời tối ưu hóa chi phí thông qua mở rộng quy mô serverless. Ưu đãi mới này giải quyết các thách thức chính về khả năng mở rộng vận hành, tối ưu hóa chi phí và quản lý quyền truy cập mà các kỹ sư dữ liệu và nhóm DevOps phải đối mặt khi điều phối quy trình làm việc. Với Amazon MWAA Serverless, các kỹ sư dữ liệu có thể tập trung vào việc xác định logic quy trình làm việc của họ thay vì giám sát dung lượng được cấp phát. Giờ đây, họ có thể gửi các quy trình làm việc Airflow của mình để thực thi theo lịch trình hoặc theo yêu cầu, chỉ trả tiền cho thời gian tính toán thực tế được sử dụng trong quá trình thực thi mỗi tác vụ.
Hướng tới tương lai
Những đợt ra mắt này cùng nhau đại diện cho nhiều hơn là những cải tiến gia tăng. Chúng báo hiệu một sự thay đổi cơ bản trong cách các tổ chức tiếp cận phân tích. Bằng cách hợp nhất kho dữ liệu, hồ dữ liệu và ML dưới một khuôn khổ chung được xây dựng trên Apache Iceberg, đơn giản hóa quyền truy cập thông qua các giao diện thông minh được hỗ trợ bởi AI và duy trì quản trị mạnh mẽ mở rộng dễ dàng, AWS đang cung cấp cho các tổ chức các công cụ để tập trung vào thông tin chi tiết thay vì cơ sở hạ tầng. Việc nhấn mạnh vào tự động hóa, từ phát triển được hỗ trợ bởi AI đến các materialized view tự quản lý và bộ nhớ serverless, giảm chi phí vận hành đồng thời cải thiện hiệu suất và hiệu quả chi phí. Khi khối lượng dữ liệu tiếp tục tăng và AI ngày càng trở nên trung tâm trong các hoạt động kinh doanh, những khả năng này định vị khách hàng AWS để tăng tốc các sáng kiến dựa trên dữ liệu của họ với sự đơn giản và sức mạnh chưa từng có. Để xem Bài nói chuyện đổi mới re:Invent 2025 về phân tích, hãy truy cập Khai thác phân tích cho con người và AI trên YouTube.
Về tác giả

Larry Weber
Larry dẫn dắt mảng tiếp thị sản phẩm cho danh mục phân tích tại AWS.