Tổng quan các dịch vụ serverless Data Lake của AWS – 2

Các dịch vụ serverless Data Lake của AWS

Xủ lý (Process):

Amazon Elasticsearch: cũng có thể đóng vai trò xử lý dữ liệu với khả năng phân tích mạnh mẽ.( Kết hợp với Kibana , Kibana vừa đóng vai trò công cụ hiển thị vừa có các tính năng phân tích được xây dựng sẵn.)

Amazon EMR: giúp đơn giản hóa việc xử lý dữ liệu lớn, cung cấp Hadoop được quản lý bởi AWS giúp bạn phân phối và xử lý lượng lớn dữ liệu của mình qua các Amazon EC2 instances với khả năng mở rộng linh hoạt. Amazon EMR hỗ trợ các công cụ Hadoop mạnh mẽ như Hive, Pig, HBase Impala. Ngoài ra, nó hỗ trợ khả năng tính toán phân tán bên cạnh MapReduce của Hadoop như Spark hoặc Presto . Bạn cũng có thể sử dụng Hue Zeppelin làm GUI để tương tác với các ứng dụng trên cụm Hadoop của bạn.

EMR File System cho phép các cụm EMR sử dụng Amazon S3 làm kho lưu trữ đối tượng cho Hadoop. Dữ liệu có thể được lưu trữ trong Amazon S3 và sử dụng bởi nhiều cụm Amazon EMR để xử lý cùng một bộ dữ liệu. Mỗi cụm có thể được tối ưu hóa cho một khối lượng công việc cụ thể, đem lại hiệu quả hơn một cụm duy nhất phục vụ nhiều khối lượng công việc với các yêu cầu khác nhau. Ví dụ: bạn có thể có một cụm được tối ưu hóa cho các tác vụ cần nhiều I / O và một cụm khác được tối ưu hóa cho các tác vụ yêu cầu CPU cao, mỗi cụm xử lý cùng một bộ dữ liệu trong Amazon S3. Bằng cách lưu trữ dữ liệu đầu vào và đầu ra của bạn trong Amazon S3, bạn có thể tắt các cụm khi không sử dụng nhằm tiết kiệm chi phí.

Amazon Redshift: với kiến trúc kho dữ liệu xử lý song song (MPP – Massive Parallel Processing), và phân phối các hoạt động SQL để tận dụng tất cả các tài nguyên. Amazon Redshift được thiết kế để xử lý dữ liệu hiệu suất cao, sử dụng lưu trữ được gắn trực tiếp để tối đa hóa khả năng truyền tải giữa CPU và ổ đĩa và mạng lưới 10GigE để tối đa hóa thông lượng giữa các nút Amazon Redshift.

Amazon Redshift sử dụng nhiều cải tiến khác nhau để đạt được hiệu suất truy vấn cao trên các bộ dữ liệu có kích thước từ một trăm gigabyte đến một petabyte và hơn nữa. Sử dụng lưu trữ dạng cột, nén dữ liệu và bản đồ vùng để giảm lượng I / O cần thiết để thực hiện các truy vấn. Redshift hỗ trợ SQL, có khả năng tạo các bảng, quan hệ và mô hình dữ liệu như RDBMS ( hệ quản trị cơ sở dữ liệu quan hệ ) truyền thống.

Amazon Athena: một dịch vụ truy vấn tương tác được sử dụng để phân tích dữ liệu trong Amazon S3 với SQL tiêu chuẩn. . Chúng ta chỉ cần trỏ đến dữ liệu của bạn trong Amazon S3, xác định schema và bắt đầu truy vấn bằng trình chỉnh sửa truy vấn tích hợp. Amazon Athena cho phép chúng ta khai thác tất cả dữ liệu của mình trong Amazon S3 mà không cần phải thiết lập các quy trình ETL phức tạp.
Amazon Athena,tính tiền dựa trên các truy vấn được chạy. Amazon Athena sử dụng Presto với hỗ trợ SQL ANSI và hoạt động với nhiều định dạng dữ liệu tiêu chuẩn, bao gồm CSV, JSON, ORC, Avro Parquet. Athena được khuyến nghị cho nhu cầu truy vấn nhanh, nhưng nó cũng có thể xử lý các phân tích phức tạp, bao gồm các phép Join với lượng dữ liệu lớn, các window functions và mảng.

Amazon Glue: là một dịch vụ ETL hoàn chỉnh. Bạn chỉ cần trỏ AWS Glue vào dữ liệu của bạn được lưu trữ trên AWS, AWS Glue sẽ nhận diện dữ liệu của bạn và lưu trữ thông tin dữ liệu ( metadata) liên quan (ví dụ: định nghĩa bảng và schema) trong AWS Glue Data Catalog. Sau khi được phân loại, dữ liệu của bạn có thể được tìm kiếm ngay , truy vấn và sẵn sàng cho các công việc ETL.

AWS Glue tạo mã để thực hiện công việc chuyển đổi dữ liệu và dưa dữ liệu vào vùng lưu trữ. AWS Glue có khả năng tạo mã Python có thể tùy chỉnh, tái sử dụng. Khi công việc ETL của bạn đã sẵn sàng, bạn có thể tạo lịch để chạy trên môi trường Apache Spark có khả năng mở rộng lớn được quản lý bởi AWS Glue.

Bảo mật (Security):

AWS IAM: chịu trách nhiệm chứng thực và ủy quyền người dùng cho các dịch vụ liên quan trong hệ thống Data Lake.

AWS KMS: dùng để quản lý key mã hóa dữ liệu.

AWS Cloud Trail: theo dõi các API calls.

AWS Cloud Watch: theo dõi thông số hệ thống Data Lake và thực hiện các hành động cụ thể dựa trên sự kiện xảy ra trong hệ thống.

Trên đây là sơ lược về các dịch vụ liên quan tới hệ thống Data Lake của AWS. Tiếp theo mình sẽ làm một Demo nhỏ để giúp mọi người dễ hình dung hoạt động của hệ thống Data Lake với các dịch vụ serverless của AWS sẽ như thế nào nhé :D.

3 thoughts on “Tổng quan các dịch vụ serverless Data Lake của AWS – 2

  1. Chào anh, cảm ơn anh vì bài viết rất có tâm và dễ hiểu . Em đang học và tìm hiểu về data science (cụ thể là Data lake ). Anh có thể giới thiệu tiếp phần demo của Data lake được không ạ ? Xin cảm ơn anh rất nhiều

    Like

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s