Tích Hợp Dữ Liệu Thế Hệ Mới với Dịch Vụ Dữ Liệu AWS và Dataddo

Việc thu thập, chuẩn bị, lưu trữ và sử dụng dữ liệu từ ngày càng nhiều hệ thống khác nhau hiện đang trở thành thách thức đối với các tổ chức trong mọi ngành công nghiệp. Các giao diện lập trình ứng dụng (API) và giao diện người dùng (UI) của các dịch vụ đám mây đang thay đổi, đòi hỏi việc điều chỉnh liên tục các pipeline dữ liệu bởi các kỹ sư, những người có thể hoặc không thể phản ứng nhanh chóng.

Việc phụ thuộc vào các kỹ sư “nội bộ” để quản lý những thay đổi này có thể dẫn đến các dashboard bị hỏng, khoảng trống trong bộ dữ liệu, và các quyết định dựa trên thông tin lỗi thời. Các doanh nghiệp ngày càng phụ thuộc vào dữ liệu và trí tuệ nhân tạo (AI), thúc đẩy nhu cầu về các giải pháp bảo mật và tuân thủ sớm trong vòng đời dữ liệu như trong quá trình thu thập dữ liệu.

Bài viết này trình bày việc di chuyển dữ liệu hiệu quả và an toàn qua cơ sở hạ tầng dữ liệu tổ chức bằng cách sử dụng Dataddo. Bao gồm các dịch vụ lưu trữ đám mây như Amazon Web Services (AWS) như Amazon Simple Storage Service (Amazon S3) đến Amazon Redshift, Amazon Aurora, hoặc Amazon Relational Database (RDS).

Tổng Quan Giải Pháp

Dataddo cung cấp hàng trăm connector dữ liệu, cho phép các khả năng trích xuất, biến đổi, tải (ETL), reverse ETL, và sao chép cơ sở dữ liệu mạnh mẽ để giải quyết trực tiếp vấn đề tích hợp dữ liệu từ các hệ thống đa dạng. Giao diện người dùng không cần code được thiết kế hướng đến người dùng doanh nghiệp, nhưng nền tảng cho phép các nhà phát triển cấu hình các workload phức tạp hơn thông qua code. Dataddo đã tối ưu hóa các connector cho Amazon Redshift, Amazon S3, Amazon Aurora, và Amazon RDS. Nó có thể đồng bộ dữ liệu từ bất kỳ dịch vụ hoặc cơ sở dữ liệu nào đến các kho lưu trữ này, cũng như từ các kho lưu trữ này đến bất kỳ dịch vụ hoặc cơ sở dữ liệu nào. Nền tảng loại bỏ nhu cầu bảo trì pipeline bởi khách hàng AWS, vì các kỹ sư của Dataddo chủ động giám sát và duy trì tất cả các pipeline, và quản lý các thay đổi API và giao diện.

Dataddo cũng có một bộ tính năng tích hợp sẵn giải quyết hiệu quả các thách thức về chất lượng dữ liệu, tuân thủ và quyền riêng tư ở cấp độ pipeline, do đó giảm độ phức tạp và chi phí làm việc với dữ liệu trong các dịch vụ lưu trữ AWS và các hệ thống downstream khác. Những tính năng này bao gồm các kỹ thuật biến đổi khác nhau, Data Quality Firewall dựa trên quy tắc, phát hiện tự động thông tin nhận dạng cá nhân (PII), với các tùy chọn băm và giám sát và ghi log chi tiết.

Ngoài ETL, reverse ETL, và sao chép cơ sở dữ liệu, Dataddo hỗ trợ tích hợp trực tiếp các ứng dụng với các công cụ business intelligence (BI), cho phép người dùng doanh nghiệp trực quan hóa dữ liệu quan trọng mà không cần sự can thiệp của kỹ sư. Nền tảng Dataddo được quản lý hoàn toàn, có thể truy cập bởi người dùng doanh nghiệp, bỏ qua các rào cản kỹ thuật và tăng tốc việc cung cấp các sản phẩm dữ liệu.

 Dataddo + AWS: Kiến Trúc

Dataddo là một yếu tố hỗ trợ chính cho việc tích hợp dữ liệu end-to-end hiệu quả cho bất kỳ tổ chức nào sử dụng các dịch vụ lưu trữ AWS. Trong phần này, chúng tôi mô tả cách Dataddo thực hiện các workload ETL, reverse ETL, và sao chép cơ sở dữ liệu.

Extract, Transform, Load (ETL) / Extract, Load, Transform (ELT)

Dataddo có thể đồng bộ dữ liệu từ hàng trăm nguồn đến các dịch vụ lưu trữ AWS, bao gồm các nguồn tùy chỉnh sử dụng connector JSON universal của nó. Nó hỗ trợ kết nối API, file, cơ sở dữ liệu, và sự kiện. Nó cũng có thể đồng bộ batch, sự kiện, và file log cơ sở dữ liệu như được hiển thị trong Hình 1.

Hình 1: Dataddo ETL/ELT

Dataddo cung cấp khả năng tiền xử lý mạnh mẽ, bao gồm phát hiện và băm dữ liệu nhạy cảm, làm phẳng, hài hòa hóa kiểu, hợp nhất, và kết nối. Nó cũng đảm bảo rằng dữ liệu được trích xuất có thể sử dụng ngay lập tức, trong khi Data Quality Firewall (có thể cấu hình theo cột) chặn luồng dữ liệu bất thường đến AWS. Để bảo vệ thêm tính nhất quán, Dataddo hỗ trợ tạo schema tự động, cũng như nhiều chế độ ghi (INSERT, UPSERT, DELETE, REPLACE).

Reverse ETL

Hình 2 cho thấy cách Dataddo cho phép người dùng đồng bộ dữ liệu từ các dịch vụ lưu trữ AWS đến các ứng dụng hoạt động thông qua reverse ETL. Điều này cung cấp cho các nhóm doanh nghiệp quyền truy cập vào các insight phức tạp, được tính toán tùy chỉnh trực tiếp trong các hệ thống họ sử dụng nhiều nhất.

Hình 2: Dataddo reverse ETL

Các trường dữ liệu trong nguồn có thể được ánh xạ dễ dàng đến các tương đương đích thông qua giao diện không cần code của Dataddo, trong khi console SQL tích hợp cho phép người dùng AWS kỹ thuật hơn tương tác trực tiếp với dữ liệu của họ bằng các truy vấn SQL. Dataddo đảm bảo tính nhất quán dữ liệu trong các ứng dụng đích thông qua hài hòa hóa kiểu dữ liệu tự động và Data Quality Firewall có thể cấu hình. Dataddo hỗ trợ nhiều chế độ ghi, như INSERT và UPSERT, để đồng bộ dữ liệu linh hoạt đến hơn 20 ứng dụng đích, bao gồm Quản lý Quan hệ Khách hàng (CRM), hệ thống Hoạch định Tài nguyên Doanh nghiệp (ERP), và các công cụ tự động hóa marketing.

Lưu ý: Một cách sử dụng thú vị của reverse ETL là đồng bộ dữ liệu first-party từ các dịch vụ lưu trữ AWS đến các nền tảng quảng cáo trực tuyến, để nhắm mục tiêu cực kỳ chính xác; điều này đang trở thành một bổ sung ngày càng quan trọng cho việc sử dụng dữ liệu third-party cho quảng cáo trực tuyến, vì nó cung cấp cho các nền tảng thông tin về các chuyển đổi thực tế.

Sao Chép Cơ Sở Dữ Liệu

Dataddo có thể đồng bộ dữ liệu giữa các dịch vụ lưu trữ AWS và bất kỳ cơ sở dữ liệu nào khác, bất kể công nghệ cơ bản của chúng, thông qua sao chép batch và các phương pháp change data capture (CDC) khác nhau như được hiển thị trong Hình 3.

Hình 3: Dataddo Replication using CDC

Tất cả các cơ sở dữ liệu on-premise chính và databases-as-a-service được hỗ trợ như nguồn và đích, bao gồm Amazon Redshift, Amazon S3, Aurora, và RDS. Các connector có thể trích xuất batch, sự kiện, và file log cơ sở dữ liệu. Dataddo tự động chuyển đổi kiểu dữ liệu trong quá trình trích xuất, và tự động tạo schema trong quá trình ghi. Nhiều chế độ ghi được hỗ trợ, như INSERT, UPSERT, DELETE, và REPLACE.

Câu Chuyện Khách Hàng AWS

Dataddo đã tích hợp thành công các ứng dụng third-party khác nhau với các dịch vụ AWS cho nhiều khách hàng, thể hiện các kết quả có giá trị thông qua ba nghiên cứu trường hợp cụ thể.

Boldr

Boldr là một công ty outsourcing và tư vấn offshore toàn cầu cần một giải pháp tích hợp dữ liệu tự động để để vận hành các quy trình báo cáo nội bộ. Họ đã dành gần 14 giờ mỗi tuần để giám sát 177 pipeline dữ liệu nội bộ và giải quyết lỗi. Phần lớn trong số này là các pipeline từ các công cụ CRM của khách hàng đến Google Sheets, cũng như giữa Google Sheets và cơ sở dữ liệu của họ, Amazon RDS for PostgreSQL. Họ đã chọn Dataddo vì giao diện đơn giản, thân thiện với người dùng và các connector được cấu hình tốt (như connector JSON universal để đồng bộ các bộ dữ liệu tùy chỉnh). Các cân nhắc bổ sung là thông báo chi tiết, giám sát và bảo trì pipeline chủ động.

Boldr đã có thể triển khai Dataddo nhanh chóng, đạt được các kết quả chính sau:

• Hầu như loại bỏ nhu cầu bảo trì pipeline

• Tiết kiệm 5+ ngày công mỗi tháng do tỷ lệ lỗi thấp

• Tập trung tất cả dữ liệu công ty vào một trung tâm: Amazon RDS (PostgreSQL)

• Cải thiện độ chính xác dữ liệu cho báo cáo đáng tin cậy

“Bây giờ chúng tôi chỉ dành vài giờ mỗi tuần để duy trì 177 pipeline, trong khi trước đây chúng tôi dành gần 14 giờ.” – Natheer Maloon, Technology Solutions Manager, Boldr”

ID&T

ID&T Group là một công ty giải trí nhạc điện tử nổi tiếng với việc tổ chức các lễ hội nhạc điện tử lớn, như Defqon.1Mysteryland. Trước đây, tất cả các thương hiệu và đại lý của tập đoàn đều quản lý dữ liệu hơi khác nhau, và báo cáo lại cho ID&T một cách thủ công. Để giải quyết vấn đề này và có được cái nhìn tổng quan chính xác, thống nhất về tất cả dữ liệu của họ, họ quyết định xây dựng một cơ sở hạ tầng dữ liệu dựa trên SaaS trên AWS. Như một phần của cơ sở hạ tầng dữ liệu mới, họ cần một công cụ có thể kéo dữ liệu từ các nền tảng truyền thông xã hội và quảng cáo của ID&T Group và tất cả các đối tác, và gửi nó đến Amazon Redshift, RDS và Snowflake. Họ đã chọn Dataddo vì độ tin cậy của các connector, các pipeline không cần bảo trì, và khả năng hài hòa dữ liệu từ các nguồn khác nhau. Bằng cách triển khai Dataddo, ID&T đã đạt được các kết quả sau:

• Loại bỏ lỗi liên quan đến thu thập dữ liệu thủ công

• Tiết kiệm 2-3 ngày công mỗi tuần

• Tăng cường khả năng hiển thị vào các chỉ số hiệu suất chính, như return on ad spend (ROAS), cost per click (CPC), và clickthrough rate (CTR)

• Hiểu biết sâu hơn về khán giả trực tuyến và tăng doanh thu

“Dataddo mở ra các cánh cửa và loại bỏ các rào cản khi làm việc với dữ liệu.” – Michael Guntenaar, CTO, ID&T Group”

WWL

World Wide Lighting là một công ty thương mại điện tử toàn cầu chuyên về các giải pháp chiếu sáng. Họ có 24 eshop và 4 công ty con phục vụ cả thị trường châu Âu và châu Á. Họ đang trong quá trình hiện đại hóa cơ sở hạ tầng dữ liệu và cần một công cụ có thể kéo dữ liệu từ các eshop, ứng dụng và phần mềm độc quyền khác nhau, và chuyển nó đến Amazon Redshift. Họ đã chọn Dataddo vì sự đa dạng của các connector có sẵn và sự sẵn sàng xây dựng các connector mới cho phần mềm độc quyền của WWL. Bằng cách triển khai Dataddo, WWL đã có thể nhanh chóng tập trung tất cả dữ liệu từ các nguồn riêng biệt trong Amazon Redshift, đạt được các kết quả sau:

• Cái nhìn toàn diện về doanh nghiệp

• Giảm đáng kể thời gian ngừng hoạt động, do các connector được quản lý và giám sát chủ động

• Cung cấp insight đáng tin cậy cho hơn 50 người ra quyết định

“Bất cứ khi nào chúng tôi thấy điều gì đó mà chúng tôi muốn biết thêm, thật dễ dàng cho tất cả người dùng để đi sâu và đi sâu hơn một bước trong dữ liệu…để thấy thêm một chút về lý do tại sao mọi thứ đang xảy ra.” – Jimmy van den Eerenbeemt, Insights Manager, WWL”

Kết Luận

Dataddo cung cấp một giải pháp tích hợp dữ liệu được sắp xếp hợp lý cho AWS, có các connector được xây dựng sẵn và các pipeline được quản lý. Giao diện thân thiện với người dùng phù hợp với cả người dùng kỹ thuật và phi kỹ thuật, trong khi các tính năng chất lượng và tuân thủ tích hợp giảm chi phí kỹ thuật. Điều này cho phép các nhóm tập trung vào việc trích xuất giá trị từ dữ liệu thay vì quản lý các tích hợp phức tạp.

Truy cập trang AWS Marketplace của Dataddo và đăng ký dùng thử miễn phí để bắt đầu di chuyển dữ liệu đến và từ AWS ngay hôm nay.

Dataddo – AWS Partner Spotlight

Dataddo là AWS Differentiated Technology Partner và AWS Competency Partner tích hợp liền mạch dữ liệu từ các ứng dụng doanh nghiệp khác nhau (Salesforce, SAP, Netsuite, nền tảng quảng cáo), cơ sở dữ liệu (đám mây và on-prem), file, và API tùy chỉnh vào AWS (Redshift, S3, Aurora, RDS). Ngoài ETL/ELT, chúng tôi cung cấp sao chép DB cross-technology, reverse ETL, và giám sát pipeline dữ liệu chủ động, tăng cường chiến lược dữ liệu của bạn trong hệ sinh thái AWS.

Liên hệ Dataddo | Tổng quan Partner | AWS Marketplace

TAGS: Amazon RDS, Amazon Redshift, AWS Competency Partners, AWS Marketplace, Dataddo