Giới thiệu Amazon Redshift Serverless – Chạy phân tích dữ liệu ở bất kỳ quy mô nào mà không cần quản lý cơ sở hạ tầng Data Warehouse

Chúng ta đang chứng kiến sự bùng nổ trong việc sử dụng phân tích dữ liệu trong các tổ chức, chẳng hạn như với các người dùng như nhà phát triển và các nhà phân tích kinh doanh, những người không có chuyên môn hoặc thời gian để quản lý một kho dữ liệu truyền thống. Ngoài ra, một số khách hàng có tải công việc biến đổi với các đỉnh không thể dự đoán, và việc liên tục quản lý khả năng chứa dữ liệu có thể rất khó khăn.

Với Amazon Redshift, bạn sử dụng SQL để phân tích dữ liệu có cấu trúc và nửa cấu trúc trên các kho dữ liệu, cơ sở dữ liệu hoạt động và hồ sơ dữ liệu. Hôm nay, tôi rất vui khi giới thiệu bản xem trước công khai của Amazon Redshift Serverless, một tính năng mới giúp việc chạy phân tích dữ liệu đơn giản hơn trong đám mây với hiệu suất cao ở bất kỳ quy mô nào. Chỉ cần tải dữ liệu của bạn và bắt đầu truy vấn. Không cần thiết phải thiết lập và quản lý các cụm. Bạn chỉ trả tiền cho thời gian sử dụng kho dữ liệu của bạn theo giây, ví dụ khi bạn đang truy vấn hoặc tải dữ liệu. Không tính phí khi kho dữ liệu của bạn đang ở trạng thái rảnh rỗi.

Amazon Redshift Serverless tự động cung cấp các tài nguyên tính toán phù hợp để bạn bắt đầu. Khi nhu cầu của bạn phát triển với nhiều người dùng đồng thời và các tải công việc mới, kho dữ liệu của bạn tự động mở rộng linh hoạt để thích nghi với các thay đổi. Bạn có thể tùy chọn chỉ định kích thước kho dữ liệu cơ bản để có thêm kiểm soát chi phí và SLA chuyên dụng cho ứng dụng.

Với tùy chọn serverless mới, bạn có thể tiếp tục truy vấn dữ liệu trong các kho dữ liệu khác của AWS, chẳng hạn như hồ sơ dữ liệu dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và cơ sở dữ liệu Amazon Aurora và Amazon Relational Database Service (RDS).

Amazon Redshift Serverless là lựa chọn lý tưởng khi khó đoán trước nhu cầu tính toán như các tải công việc biến đổi, các tải công việc định kỳ với thời gian rảnh rỗi và các tải công việc ổn định với đỉnh. Phương pháp này cũng phù hợp với nhu cầu phân tích tạm thời cần bắt đầu nhanh chóng và môi trường thử nghiệm và phát triển.

Hãy xem cách điều này hoạt động trong thực tế.

Sử dụng Amazon Redshift Serverless

Tôi truy cập bảng điều khiển Amazon Redshift và chọn tùy chọn phi máy chủ mới. Lần đầu tiên, tôi thiết lập serverless endpoint và định cấu hình mạng và bảo mật.

Tôi xác nhận cài đặt mặc định sử dụng tất cả các mạng con trong Amazon Virtual Private Cloud (Amazon VPC) mặc định của tôi và security group mặc định của nó. Dữ liệu luôn được mã hóa và tôi sử dụng khóa mặc định do AWS sở hữu. Theo tùy chọn, tôi có thể tùy chỉnh tất cả các cài đặt. Tôi có thể liên kết ngay bây giờ hoặc sau này vai trò AWS Identity and Access Management (IAM) để cấp quyền truy cập các tài nguyên AWS khác, chẳng hạn như để có thể tải dữ liệu từ S3 bucket. Cấu hình của serverless endpoint sẽ được chia sẻ bởi tất cả các kho dữ liệu không máy chủ của tôi trong cùng một tài khoản AWS và Region.

Để truy vấn dữ liệu, tôi sử dụng Amazon Redshift Query Editor V2, một công cụ dựa trên web miễn phí mới mà chúng tôi đã cung cấp vài tháng trước. Trình chỉnh sửa truy vấn cung cấp quyền truy cập nhanh vào một vài sample datasets để giúp bạn dễ dàng tìm hiểu các khả năng SQL của Amazon Redshift: TPC-H, TPC-DS, và tickit, một tập dữ liệu chứa thông tin về việc bán vé cho các sự kiện.

Để kiểm tra nhanh, tôi sử dụng tập dữ liệu mẫu tickit nên tôi không cần tải bất kỳ dữ liệu nào. Tôi chuẩn bị một truy vấn để lấy danh sách vé đã bán mỗi ngày, sắp xếp để xem những ngày có nhiều vé hơn trước:

SQL
SELECT caldate, sum(qtysold) as sumsold
FROM   tickit.sales, tickit.date
WHERE  sales.dateid = date.dateid 
GROUP BY caldate
ORDER BY sumsold DESC;

Bằng cách sử dụng trình chỉnh sửa truy vấn dựa trên web, tôi không cần định cấu hình máy khách SQL hoặc thiết lập quyền mạng để truy cập serverless endpoint. Thay vào đó, tôi chỉ viết truy vấn SQL của mình và chạy nó.

Tôi là một người trực quan. Tôi bật tùy chọn Chart ở bên phải bảng kết quả và chọn biểu đồ thanh.

Hài lòng với sự rõ ràng của biểu đồ, tôi xuất nó dưới dạng tệp hình ảnh. Bằng cách này, tôi có thể nhanh chóng chia sẻ hoặc đưa nó vào báo cáo.

Amazon Redshift Serverless hỗ trợ tất cả các chức năng SQL phong phú của Amazon Redshift như hỗ trợ dữ liệu bán cấu trúc. Tôi có thể sử dụng bất kỳ công cụ nào tương thích với JDBC/ODBC hoặc Amazon Redshift Data API để truy vấn dữ liệu của mình. Để di chuyển dữ liệu, tôi có thể chụp một bản snapshot của một cluster được cung cấp sẵn của Amazon Redshift và khôi phục nó dưới dạng serverless. Sau đó, tôi chỉ cần cập nhật các ứng dụng SQL của mình để sử dụng serverless endpoint mới.

Tính khả dụng và chi phí

Amazon Redshift Serverless hiện đã có sẵn trong bản xem trước công khai tại các khu vực AWS sau: US East (Ohio, N. Virginia), US West (N. California, Oregon), Europe (Frankfurt, Ireland), Asia Pacific (Tokyo).

Với Amazon Redshift Serverless, bạn sẽ trả phí riêng cho các tính năng tính toán và lưu trữ mà bạn sử dụng. Khả năng tính toán được đo bằng đơn vị xử lý Redshift (RPUs), và bạn sẽ trả tiền cho các khối công việc trong giờ RPU với tính toán theo giây. Đối với lưu trữ, bạn sẽ trả tiền cho dữ liệu được lưu trữ trong lưu trữ được quản lý bởi Amazon Redshift và lưu trữ được sử dụng cho các bản snapshot, tương tự như bạn sẽ trả tiền cho một cluster được cung cấp sử dụng các phiên bản RA3.

Để kiểm soát chi phí của bạn, bạn có thể chỉ định các giới hạn sử dụng và xác định các hành động mà Amazon Redshift tự động thực hiện nếu các giới hạn đó được đạt được. Bạn có thể chỉ định các giới hạn sử dụng trong giờ RPU và liên quan đến một khoảng thời gian hàng ngày, hàng tuần hoặc hàng tháng. Thiết lập giới hạn sử dụng cao hơn có thể cải thiện tổng thể thông lượng của hệ thống, đặc biệt là đối với các khối công việc cần xử lý đồng thời cao trong khi duy trì hiệu suất cao liên tục.

Các tài nguyên tính toán sẽ tự động tắt khi không hoạt động và tiếp tục khi bạn đang tải dữ liệu hoặc có các truy vấn đến. Khi truy cập vào hồ sơ dữ liệu S3 của bạn thông qua serverless endpoint mới, bạn không cần phải trả riêng cho Amazon Redshift Spectrum. Bạn có trải nghiệm serverless thống nhất và cũng trả tiền cho các truy vấn hồ sơ dữ liệu bằng giây RPU. Để biết thêm thông tin, hãy xem trang giá của Amazon Redshift.

Serverless endpoint được cấu hình ở mức tài khoản AWS. Nếu bạn có nhiều nhóm hoặc dự án và muốn quản lý chi phí riêng biệt, bạn có thể sử dụng các tài khoản AWS riêng biệt. Bạn có thể chia sẻ dữ liệu giữa các cluster được cung cấp và serverless endpoint và giữa các serverless endpoint trên các tài khoản khác nhau.

Để giúp bạn thực hành, chúng tôi cung cấp cho bạn trước một khoản tín dụng AWS trị giá 500 USD để thử nghiệm bản xem trước công khai của Amazon Redshift Serverless. Bạn sẽ nhận được khoản tín dụng này khi bạn tạo cơ sở dữ liệu đầu tiên với Amazon Redshift Serverless. Những khoản tín dụng này sẽ được sử dụng để chi trả cho các chi phí tính toán, lưu trữ và sử dụng bản snapshot của Amazon Redshift Serverless.

Hãy bắt đầu sử dụng Amazon Redshift Serverless ngay hôm nay để chạy và mở rộng phân tích mà không cần cung cấp và quản lý các cluster kho dữ liệu.

Bài được dịch từ bài viết trên AWS Blogs, bạn có thể xem bài viết gốc tại đây.

AWS Study Group

Giới thiệu Amazon Redshift Serverless – Chạy phân tích dữ liệu ở bất kỳ quy mô nào mà không cần quản lý cơ sở hạ tầng Data Warehouse

Sử dụng Amazon Redshift Serverless

Tính khả dụng và chi phí

Leave a comment Cancel reply

Giới thiệu Amazon Redshift Serverless – Chạy phân tích dữ liệu ở bất kỳ quy mô nào mà không cần quản lý cơ sở hạ tầng Data Warehouse

Sử dụng Amazon Redshift Serverless

Tính khả dụng và chi phí

Share this:

Leave a comment Cancel reply