Bắt đầu với Amazon CloudWatch investigations

Tác giả: Andres Silva

Ngày: ngày 21 tháng 12 năm 2024
Thể loại: Amazon CloudWatch, AWS CloudTrail, AWS Systems Manager, Management Tools

Giới thiệu

Bài viết này sẽ hướng dẫn bạn bắt đầu nhanh với việc sử dụng CloudWatch investigations trên AWS. Chúng tôi sẽ đi cùng bạn qua từng bước thiết lập công cụ khắc phục sự cố mạnh mẽ có hỗ trợ AI này. Bạn sẽ tìm hiểu cách cấu hình quyền người dùng, quản lý quyền truy cập dữ liệu, thiết lập mã hóa và bắt đầu phiên điều tra (investigation) đầu tiên của mình. Ngoài ra, trong bài viết này còn bao gồm một bản demo tự thực hành để bạn có thể xem tính năng mới này hoạt động như thế nào.

Amazon CloudWatch investigations là gì?

Gần đây, chúng tôi đã xuất bản một bài viết toàn diện giải thích chi tiết về tính năng mới này. Amazon CloudWatch investigations giúp bạn nhanh chóng điều tra và khắc phục sự cố bằng cách hiển thị các thông tin có liên quan, tận dụng sức mạnh của công nghệ AI tạo sinh (generative AI). CloudWatch investigations sẽ quét các metrics, logs, traces, deployment events và các loại dữ liệu khác để tạo ra giả thuyết về nguyên nhân gốc rễ (root cause hypotheses) cùng các thông tin chi tiết hữu ích (actionable insights).

Bắt đầu

1. Mở bảng điều khiển CloudWatch tại địa chỉ https://console.aws.amazon.com/cloudwatch/

2. Trong khung điều hướng bên trái, chọn AI Operations, sau đó chọn Investigations.
3. Chọn Configure for this account.
(Lưu ý: Để tạo nhóm điều tra và thiết lập Amazon CloudWatch investigations, bạn phải đăng nhập bằng một IAM principal có gắn AIOpsConsoleAdminPolicy hoặc AdministratorAccess IAM policy, hoặc tài khoản có quyền tương tự. Các thiết lập trong nhóm điều tra (investigation group) giúp bạn quản lý tập trung các thuộc tính chung của các phiên điều tra.)

4. Chọn thời gian lưu trữ (retention period) cho các phiên điều tra. Mặc định là 90 ngày.

5. Bạn cũng có thể tùy chọn tùy chỉnh thiết lập mã hóa (encryption settings). Ví dụ, nếu bạn muốn sử dụng khóa do khách hàng quản lý (customer managed key) thay vì khóa mặc định được AWS cung cấp. Để biết thêm thông tin, hãy xem phần Encryption of investigation data trong tài liệu chính thức.

Màn hình tạo investigation group, cho phép cấu hình thời gian lưu trữ và mã hóa nâng cao.

6. ( Tùy chọn ) Phần User access trong trình hướng dẫn bắt đầu giúp bạn hiểu cách thiết lập quyền phù hợp cho các vai trò người dùng khác nhau khi tương tác với Amazon CloudWatch investigations. AWS cung cấp ba IAM managed policy:

  • AIOpsConsoleAdminPolicy cho quản trị viên,
  • AIOpsOperatorAccess cho người dùng cần bắt đầu và quản lý phiên điều tra,
  • AIOpsReadOnlyAccess cho người dùng chỉ cần xem thông tin.

Màn hình User access, giải thích cách cung cấp quyền IAM cho người dùng đối với trợ lý Amazon CloudWatch investigations.

7. (Tùy chọn) Bạn cũng có thể kết nối CloudWatch investigations với IAM Identity Center. Khi tích hợp với Identity Center, bạn có thể gán các đề xuất được thêm vào luồng điều tra cho từng người dùng cụ thể. Để biết thêm thông tin, vui lòng xem tài liệu hướng dẫn liên quan.

Màn hình phiên console Identity aware console để cấu hình IAM Identity Center, giúp các đề xuất được gán chính xác cho người dùng.

8. Chọn Next để tiếp tục.

Cấu hình điều tra (Investigation configuration)

9.Trong phần Investigation configuration, bạn có thể thiết lập IAM role mà CloudWatch investigations sẽ sử dụng để truy cập dữ liệu telemetry phục vụ cho quá trình điều tra.
Chọn Auto-create. Tùy chọn này sẽ tự động tạo và cấu hình role mới với các quyền cần thiết.

Màn hình Investigation configuration để thiết lập quyền cho CloudWatch investigations.

Tích hợp nâng cao (Enhanced integration)

11. Trong phần Enhanced integration, bạn có thể cấu hình thêm các tùy chọn sẽ hỗ trợ CloudWatch trong việc điều tra. Các bước tiếp theo sẽ giải thích ngắn gọn từng tùy chọn:

12. Tags for application boundary detection: Phần này cho phép bạn chỉ định các custom tags key hiện có được sử dụng cho ứng dụng của bạn. Các tag này giúp CloudWatch investigations tinh chỉnh phạm vi tìm kiếm khi xác định mối quan hệ giữa các tài nguyên. Xem thêm tại đường liên kết này.

Màn hình Enhanced integrations. Bạn có thể thiết lập tag để nhận diện ranh giới ứng dụng (application boundary detection).

13. CloudTrail for change event detection:
Phần này cho phép Amazon CloudWatch investigations truy cập dữ liệu CloudTrail, giúp cải thiện việc phân tích thay đổi hệ thống và giả thuyết nguyên nhân gốc.

Màn hình CloudTrail for change event detection. Bạn có thể cấu hình lịch sử sự kiện (event history) hoặc một trail để bật hỗ trợ CloudTrail.

14. Các mục (sections) “X-Ray for topology mapping” (dùng X-Ray để lập bản đồ tô-pô) và “Application Signals for health assessment” (dùng Application Signals để đánh giá sức khỏe) làm nổi bật các dịch vụ AWS bổ sung có thể nâng cao khả năng của CloudWatch investigations trong việc đánh giá trạng thái và mối quan hệ của hệ thống.

Màn hình tích hợp bổ sung (Additional integrations) cho X-Ray và Application Signals.

15. Chọn Next để tiếp tục.

16. Phần cuối cùng của trình hướng dẫn cho phép bạn cấu hình các tích hợp bên thứ ba, bao gồm tích hợp chat và Amazon SNS.
Chúng tôi sẽ không đi sâu vào phần này trong bài viết, nhưng nếu bạn muốn tìm hiểu thêm, vui lòng truy cập liên kết này.

17. Chọn Complete setup để bắt đầu cấu hình.
Sau vài giây, bạn sẽ thấy thông báo xác nhận “Initial Setup success”.

Các bước tiếp theo

CloudWatch investigations cung cấp một phương pháp mạnh mẽ để tăng tốc quá trình ứng phó sự cố (incident response) trong khi vẫn duy trì các kiểm soát bảo mật nghiêm ngặt. Để tăng cường hơn nữa hiện trạng bảo mật (security posture) của bạn:

Với Amazon CloudWatch investigations như một trợ lý do AI hỗ trợ, bạn có thể giải quyết các sự cố AWS nhanh hơn bao giờ hết, trong khi vẫn giữ an toàn cho dữ liệu và hệ thống của mình. Bằng cách ưu tiên bảo mật trong quá trình triển khai, bạn có thể tự tin tận dụng các khả năng AI mạnh mẽ của nó mà vẫn duy trì tính toàn vẹn (integrity) và tính bảo mật (confidentiality) của hệ thống và dữ liệu. Cách tiếp cận cân bằng này cho phép bạn tăng tốc quá trình ứng phó sự cố và khắc phục sự cố (troubleshooting) mà không ảnh hưởng đến các thông lệ bảo mật tốt nhất (security best practices).

Để xem khả năng này hoạt động trong thực tế, hãy xem demo tương tác này.

TAGS: Amazon CloudWatch, Amazon CloudWatch Alarm, AWS CloudTrail, AWS Systems Manager, Cloud Operations, Monitoring

Về tác giả

Andres Silva

Andres Silva là Giám đốc Vận hành Đám mây Toàn cầu (Global Cloud Operations Leader) và Kiến trúc sư Giải pháp Chuyên gia Cấp cao (Principal Specialist Solutions Architect) tại Amazon Web Services (AWS), nơi ông giúp các doanh nghiệp chuyển đổi hoạt động vận hành đám mây (cloud operations) của họ. Với hơn 30 năm kinh nghiệm trong lĩnh vực công nghệ, bao gồm một thập kỷ tại AWS, ông chuyên về DevOps, công nghệ đám mây và quản lý hạ tầng SaaS (SaaS infrastructure management). Làm việc tại High Point, North Carolina, Silva thúc đẩy các chiến lược vận hành đám mây trên toàn doanh nghiệp, tập trung vào AIOps và Khả năng quan sát (Observability). Ông hợp tác với các tổ chức toàn cầu để kiến trúc (architect) và triển khai các framework vận hành đám mây thông minh (intelligent cloud operations frameworks) nhằm tận dụng trí tuệ nhân tạo để mang lại hiệu suất vận hành xuất sắc (operational excellence) và ứng phó sự cố tự động (automated incident response) ở quy mô lớn.