Data Lake là gì ?

Data Lake là một thuật ngữ chuyên môn có liên quan đến Big Data ( Dữ liệu lớn ). Data Lake đơn giản là nơi chứa dữ liệu thô ( chưa xử lý ) chờ được xử lý phân tích và đưa ra các đánh giá nhận xét ( insight ).

Data Lake có các tính chất sau :

Thu thập mọi thứ – chứa tất cả dữ liệu dạng thô hoặc đã được xử lý trong khoảng thời gian dài .

Đa người dùng – cho phép nhiều người dùng tinh chỉnh, khám phá và làm phong phú dữ liệu.

Truy cập linh hoạt – Hồ dữ liệu ( nghe chuối quá , để Data Lake nha anh em) hỗ trợ nhiều cách thức truy cập dữ liệu (access pattern) trên cơ sở hạ tầng dùng chung: lô ( batch ), tương tác, trực tuyến, tìm kiếm, trong bộ nhớ và các công cụ xử lý khác.

Phương pháp phân tích truyền thống được đặc trưng bởi quy trình ETL ( Extract / Transform / Load) (Trích xuất, chuyển đổi, tải) xảy ra trước khi dữ liệu được tải vào kho dữ liệu (data-warehouse). Một số nhược điểm với quy trình này là mọi người chỉ nhìn thấy cùng một dữ liệu được tóm tắt và tổng hợp. Người dùng không có quyền truy cập vào dữ liệu thô có thể làm sai lệch kết quả hoặc không cho phép chức năng phân tích đầy đủ trên tất cả các trường.

Luồng đi dữ liệu theo kiểu phân tích truyền thống

Trong khi đó, Data Lake chứa dữ liệu thô cho phép đa người dùng tự tạo các quy trình ETL của riêng họ để định dạng dữ liệu theo cách riêng. Data Lake không được tạo ra nhằm mục đích thay thế Data Warehouse mà ngược lại mang tính chất bổ sung thêm cho Data Warehouse truyền thống.

Luồng đi dữ liệu khi sử dụng Data Lake

Các thành phần chính của một Data Lake:

Ingestion ( Thu thập ) : Là thành phần nền tảng của một Data Lake, Data Lake cần có khả năng tiếp nhận và thu thập dữ liệu từ nhiều nguồn khác nhau, theo nhiều phương thức khác nhau. Ví dụ : dữ liệu text dạng thô, có cấu trúc , dữ liệu được stream theo luồng , các file log, các file cơ sở dữ liệu.

Storage ( Lưu trữ ) : Dữ liệu sau khi được thu thập cần phải được lưu trữ. Hệ thống lưu trữ phải đảm bảo khả năng chống mất dữ liệu , khả năng tiếp nhận lượng dữ liệu lớn và liên tục, cho phép chứa dữ liệu dạng thô và có chi phí thấp.

Catalog & Search ( Danh mục và tìm kiếm ) : Một Data Lake cần có khả năng cho phép người dùng tìm kiếm thông tin nhanh, Data Lake làm được điều này với một thành phần chịu trách nhiệm quản lý meta-data ( thông tin về dữ liệu thô ) nhằm giúp làm rõ dữ liệu để người dùng có thể tìm kiếm dễ dàng hơn. ( Nghe hơi trừu tượng với các bạn mới nhưng đến bài Demo thì các bạn sẽ hiểu ngay lập tức 😀 ). Hỗ trợ người dùng nội bộ và người dùng bên ngoài với các API được xây dựng sẵn.

Process ( Xử lý ) : Là thành phần chịu trách nhiệm chuyển đổi dữ liệu sang các định dạng và cấu trúc phù hợp cho việc phân tích. Sau đó thực hiện việc phân tích dữ liệu.

Security ( Bảo mật ) : Dữ liệu là tài sản của doanh nghiệp nên một Data Lake phải đảm bảo các tính năng bảo mật cơ bản như mã hóa dữ liệu, mã hóa đường truyền, chứng thực, ủy quyền, giám sát, hỗ trợ cho cả người dùng doanh nghiệp và người dùng bên ngoài.

Ở bài tiếp theo mình sẽ giới thiệu về các dịch vụ Data Lake trên AWS nhé 😀 .

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s