Tác giả: Aritra Nag, Manikanth M, and Shubho Laga
Ngày phát hành: 18 MAR 2026
Chuyên mục: Advanced (300), Amazon Elastic Kubernetes Service, DevOps, Technical How-to
Các môi trường đám mây với hàng chục microservice giờ đây dễ quản lý hơn bao giờ hết, và các nhóm DevOps hiện đại được trang bị tốt để cân bằng giữa việc triển khai nhanh chóng và sự ổn định vận hành — ngay cả khi các công cụ giám sát đưa ra hàng nghìn tín hiệu mỗi ngày.
AWS DevOps Agent là một AI Agent tự động được quản lý hoàn toàn, giúp giải quyết và chủ động ngăn chặn các sự cố, liên tục cải thiện độ tin cậy và hiệu suất của các ứng dụng trong môi trường AWS, đa đám mây và hybrid. Nó mang trí thông minh Kubernetes-native vào việc phản hồi sự cố. Nó hiểu cách các Pod liên quan đến Deployments, dịch vụ nào định tuyến lưu lượng truy cập, ConfigMaps nào cung cấp cấu hình và cách các thành phần này tương tác trong môi trường của bạn. Thay vì nhìn thấy các vấn đề hạ tầng riêng lẻ, agent hiểu các mối quan hệ kiến trúc quan trọng nhất để phân tích nguyên nhân gốc rễ nhanh chóng và chính xác. Trong bài viết này, bạn sẽ tìm hiểu cách AWS DevOps Agent tích hợp với ngăn xếp quan sát hiện có của bạn để cung cấp các phản hồi tự động, thông minh cho các sự kiện hệ thống.

Hình 1: Đây là ví dụ về kiến trúc mục tiêu của cách các workload Amazon EKS được triển khai và cách AWS DevOps Agent có thể tương tác với các dịch vụ được quản lý khác nhau như Amazon CloudWatch
Cách AWS DevOps Agent khám phá tài nguyên Kubernetes
Được xây dựng trên Amazon Bedrock, agent có thể phân tích các kịch bản vận hành phức tạp và tương quan dữ liệu từ nhiều nguồn. AWS DevOps Agent kết hợp xử lý ngôn ngữ tự nhiên (NLP) của nhật ký và thông báo lỗi với phân tích nguyên nhân gốc rễ, được hỗ trợ bởi máy học (ML), để tự động xác định các vấn đề trên toàn bộ hạ tầng của bạn.
Khám phá dựa trên Telemetry
Agent phân tích dữ liệu OpenTelemetry để suy luận các mối quan hệ thời gian chạy:
- Phân tích Service Mesh: Kiểm tra các mẫu lưu lượng mạng giữa các pod để xác định giao tiếp giữa các dịch vụ
- Tương quan Trace: Sử dụng các trace phân tán để ánh xạ luồng yêu cầu qua các microservice
- Gán thuộc tính Metric: Liên kết các chỉ số hiệu suất với các pod, container và node cụ thể
Làm giàu Metadata
Agent làm giàu các tài nguyên đã khám phá bằng thông tin ngữ cảnh:
- Labels và Annotations: Trích xuất metadata ứng dụng, thông tin quyền sở hữu và chi tiết triển khai
- Thông số kỹ thuật tài nguyên: Thu thập các yêu cầu và giới hạn CPU/bộ nhớ, cấu hình kiểm tra sức khỏe và biến môi trường
- Cấu trúc liên kết mạng: Ánh xạ IP của pod, IP cluster dịch vụ, quy tắc ingress và chính sách mạng
Quy trình khám phá
Khi bạn bắt đầu một cuộc điều tra, agent thực hiện quy trình khám phá sau:
- Quét ban đầu: Truy vấn Kubernetes API cho tất cả các tài nguyên trong các namespace liên quan
- Phân tích phụ thuộc: Xây dựng biểu đồ phụ thuộc hiển thị cách các tài nguyên liên quan đến nhau
- Tương quan Telemetry: Khớp các tài nguyên đã khám phá với các chỉ số, nhật ký và trace tương ứng của chúng
- Xây dựng ngữ cảnh: Tổng hợp trạng thái tài nguyên, các sự kiện gần đây và dữ liệu hiệu suất vào một cái nhìn thống nhất
Chi tiết triển khai
Điều kiện tiên quyết
Trước khi triển khai giải pháp này, hãy xác minh rằng bạn có những điều sau:
- Tài khoản AWS
- AWS Command Line Interface (AWS CLI) phiên bản 2.15.0 trở lên
- Kiro CLI phiên bản 1.25.0 trở lên
- AWS Identity and Access Management (IAM) role tuân thủ chính sách quyền hạn tối thiểu.
- Amazon Elastic Kubernetes Service (Amazon EKS) cluster phiên bản 1.27 trở lên
- OpenTelemetry Operator đã được cài đặt để thu thập telemetry
- Amazon Managed Service for Prometheus workspace đã được cấu hình
- AWS Distro for OpenTelemetry (ADOT) Collector đã được triển khai
- Container Insights đã được bật để tích hợp Amazon CloudWatch
- AWS X-Ray tích hợp đã được cấu hình để theo dõi phân tán
Môi trường phát triển
- Docker 24.0+ và AWS CLI đã được cấu hình
- AWS Cloud Development Kit (AWS CDK) v2 phiên bản 2.238.0
- AWS Serverless Application Model (AWS SAM) CLI phiên bản 1.154.0 để triển khai serverless
Là một phần của thiết lập và các ứng dụng được đề cập trong các phần sau. Chúng tôi có repo mẫu AWS này với các script có thể triển khai và hướng dẫn thiết lập.
Phần này hướng dẫn bạn triển khai và cấu hình môi trường demo AWS DevOps Agent hoàn chỉnh.
Bước 1: Triển khai hạ tầng AWS DevOps Agent
Bắt đầu bằng cách triển khai AWS DevOps Agent bằng AWS CDK. Hạ tầng bao gồm cấu hình Agent Space, các IAM role và chính sách, và tích hợp với EKS cluster của bạn.

Hình 2: Ảnh chụp màn hình cấu hình Agent Space trong AWS Console
Cấu hình Agent Space trong AWS Console bằng cách điều hướng đến dịch vụ AWS DevOps Agent. Sau đó, bạn sẽ tạo một Agent Space mới cho EKS cluster của mình. Cuối cùng, bạn sẽ thiết lập tích hợp nguồn dữ liệu bao gồm các endpoint Prometheus workspace, các nhóm nhật ký Amazon CloudWatch Logs và cấu hình dịch vụ X-Ray.

Hình 3: Ảnh chụp màn hình xác thực kết nối đến các nguồn dữ liệu và quyền truy cập vào tài khoản AWS
Xác thực việc triển khai bằng cách truy cập giao diện web của DevOps Agent, xác minh kết nối đến các nguồn dữ liệu và xác nhận rằng agent có thể khám phá các tài nguyên EKS cluster của bạn.

Hình 4: Ảnh chụp màn hình kiểm tra phản hồi sự cố và xem có cuộc điều tra nào đang diễn ra không
Bước 2: Thiết lập chuyển tiếp cổng cho các ứng dụng
Cấu hình chuyển tiếp cổng để cho phép trình tạo lưu lượng truy cập truy cập các ứng dụng đã triển khai của bạn. Thiết lập chuyển tiếp cổng cho tất cả các ứng dụng mẫu bằng cách sử dụng lệnh “kubectl”. Mỗi ứng dụng chạy trên các cổng khác nhau để mô phỏng một môi trường microservice thực tế:
# Sample Metrics App (port 8000)kubectl port-forward svc/sample-metrics-app 8000:8000 -n default &# Python OTEL App (port 8080)kubectl port-forward svc/otel-sample-app 8080:8000 -n default &# Go OTEL App (port 8090)kubectl port-forward svc/go-otel-sample-app 8090:8080 -n default &# Java OTEL App (port 8081)kubectl port-forward svc/java-otel-sample-app 8081:8080 -n default &
Bước 3: Cài đặt và cấu hình Traffic Generator
Trình tạo lưu lượng truy cập là một công cụ dựa trên Python tạo ra các mẫu tải thực tế và các kịch bản lỗi để kiểm tra khả năng của AWS DevOps Agent. Cài đặt các phụ thuộc Python cần thiết và làm cho trình tạo lưu lượng truy cập có thể thực thi được:
# Install required Python packagespip install requests# Make the script executablechmod +x traffic-generator.py
Trình tạo lưu lượng truy cập hỗ trợ nhiều tùy chọn cấu hình để tạo các kịch bản kiểm thử khác nhau.
Bước 4: Tạo lưu lượng truy cập cơ sở
Tạo dữ liệu vận hành cơ sở bằng cách tạo các mẫu lưu lượng truy cập bình thường trên tất cả các ứng dụng. Điều này thiết lập các mẫu vận hành bình thường mà AWS DevOps Agent có thể học hỏi. Tạo lưu lượng truy cập ổn định để thiết lập các chỉ số cơ sở:
# Generate normal baseline trafficpython traffic-generator.py --app all --duration 900 --rps 10 --error-rate 0.05

Ảnh chụp màn hình đầu ra terminal hiển thị quá trình khởi tạo một script EKS Platform Traffic Generator nhắm mục tiêu bốn ứng dụng OTEL — Sample Metrics App, Python OTEL App, Go OTEL App và Java OTEL App — mỗi ứng dụng được cấu hình trong 900 giây với 15 yêu cầu mỗi giây và tỷ lệ lỗi 10%. Tất cả bốn dịch vụ đều được xác nhận khả dụng tại các cổng localhost tương ứng của chúng.
Lệnh này tạo lưu lượng truy cập đến tất cả các ứng dụng trong 15 phút với 10 yêu cầu mỗi giây và tỷ lệ lỗi 5%, mô phỏng các điều kiện vận hành bình thường. Giám sát việc tạo lưu lượng truy cập cơ sở bằng cách kiểm tra các chỉ số ứng dụng và hành vi mở rộng HPA:
# View HPA status (should show scaling based on metrics)kubectl get hpa -A# Check custom metrics availabilitykubectl get --raw /apis/custom.metrics.k8s.io/v1beta1 | jq .# View specific metric valueskubectl get --raw /apis/custom.metrics.k8s.io/v1beta1/namespaces/default/pods/*/sample_app_requests_rate | jq .

Ảnh chụp màn hình đầu ra nhật ký hệ thống từ một phiên kiểm tra tải hiển thị các chỉ số hiệu suất thời gian thực bao gồm thời gian đã trôi qua, tổng số yêu cầu, số lượng thành công và thất bại, tỷ lệ thành công phần trăm và số yêu cầu mỗi giây (RPS). Nhật ký trải dài từ 22:38:49 đến 22:40:41, hiển thị RPS nhất quán khoảng 14,8–14,9 và các chu kỳ luân phiên tỷ lệ thành công 0%, ~90% và 100% trên khoảng 9.000 đến 10.650 tổng số yêu cầu.
Bước 5: Cấu hình điều tra AWS DevOps Agent
Thiết lập AWS DevOps Agent để giám sát EKS cluster của bạn và chuẩn bị cho các quy trình điều tra sự kiện.

Hình 5: Ảnh chụp màn hình tổng quan về dòng thời gian của cuộc điều tra đang diễn ra thông qua AWS DevOps Agent
Truy cập AWS DevOps Agent thông qua AWS Console:
- Điều hướng đến AWS DevOps Agent trong AWS Console.
- Chọn Agent Space đã cấu hình của bạn.
- Chọn Operator access để mở ứng dụng web DevOps Agent.
- Cấu hình kết nối nguồn dữ liệu để xác minh tích hợp đúng cách.

Hình 6: Ảnh chụp màn hình xác thực quyền truy cập vào dữ liệu quan sát từ cluster
Xác minh rằng AWS DevOps Agent có thể truy cập dữ liệu quan sát từ cluster của bạn bao gồm các chỉ số từ Amazon Managed Prometheus, nhật ký từ Amazon CloudWatch Logs, trace từ AWS X-Ray và thông tin cấu trúc liên kết từ EKS cluster của bạn. DevOps Agent cũng có thể kéo thông tin bản đồ dịch vụ của các tài nguyên Kubernetes của bạn.
Các kịch bản kiểm thử và trường hợp sử dụng
Phần này trình bày các kịch bản kiểm thử khác nhau thể hiện khả năng của AWS DevOps Agent trong các tình huống vận hành đa dạng.
Kịch bản 1: Kiểm thử tải bình thường
Kịch bản này thiết lập các mẫu vận hành cơ sở mà AWS DevOps Agent có thể học hỏi và sử dụng để phát hiện bất thường. Tạo lưu lượng truy cập ổn định để thiết lập các chỉ số cơ sở:
python traffic-generator.py --app all --duration 900 --rps 10 --error-rate 0.05

Bài kiểm thử này làm gì: Lệnh này chạy một bài kiểm thử lưu lượng truy cập ổn định trong 15 phút (900 giây) trên tất cả các ứng dụng với 10 yêu cầu mỗi giây, với tỷ lệ lỗi mô phỏng 5%. Tải thấp, nhất quán này đại diện cho lưu lượng truy cập sản xuất điển hình và cung cấp đủ tín hiệu cho agent để thiết lập một đường cơ sở vận hành đáng tin cậy.

Hình 7: Ảnh chụp màn hình điều tra và nguyên nhân gốc rễ được tìm thấy trong một trong các cluster
Những gì bạn nên quan sát: Trong kịch bản này, AWS DevOps Agent học các đường cơ sở vận hành bình thường. Trong bảng điều khiển điều tra của agent, bạn sẽ thấy những điều sau được ghi lại:
- Các mẫu yêu cầu và thời gian phản hồi điển hình — Agent ghi lại độ trễ và thông lượng trung bình trên tất cả các dịch vụ, thiết lập những gì được coi là “khỏe mạnh” cho môi trường của bạn.
- Tỷ lệ lỗi và phân phối bình thường — Với tỷ lệ lỗi 5%, agent học được ngưỡng nhiễu dự kiến cho các lỗi, để nó có thể phân biệt các sự cố thực sự với các biến động thông thường.
- Các mẫu sử dụng tài nguyên — CPU, bộ nhớ và sử dụng mạng được theo dõi trên mỗi pod và node, cung cấp cho agent một điểm tham chiếu về mức tiêu thụ tài nguyên bình thường dưới tải tiêu chuẩn.
- Mối quan hệ phụ thuộc dịch vụ — Agent ánh xạ cách các dịch vụ giao tiếp với nhau, xác định các phụ thuộc upstream và downstream sẽ rất quan trọng cho việc phân tích nguyên nhân gốc rễ trong các sự cố tương lai.
Sau khi kiểm thử hoàn tất, bạn sẽ thấy một bản tóm tắt chỉ số ổn định trong bảng điều khiển của agent hiển thị thông lượng nhất quán, phương sai lỗi thấp và sử dụng tài nguyên ổn định — xác nhận rằng một đường cơ sở đáng tin cậy đã được ghi lại.
Kết quả mong đợi:
Trong kịch bản này, AWS DevOps Agent học các đường cơ sở vận hành bình thường. Các đường cơ sở này bao gồm các mẫu yêu cầu và thời gian phản hồi điển hình, tỷ lệ lỗi và phân phối bình thường, các mẫu sử dụng tài nguyên và mối quan hệ phụ thuộc dịch vụ.
Kịch bản 2: Sự kiện sản xuất mô phỏng
Kịch bản này thể hiện khả năng của AWS DevOps Agent trong việc điều tra và phân tích các sự kiện với tỷ lệ lỗi tăng cao và hiệu suất suy giảm:
python traffic-generator.py --app java-otel --duration 600 --rps 30 --error-rate 0.25

Hình 8: Ảnh chụp màn hình chi tiết về các Node và dữ liệu telemetry liên quan đến các cuộc điều tra
Bài kiểm thử này làm gì: Lệnh này nhắm mục tiêu cụ thể vào ứng dụng java-otel, chạy một bài kiểm thử tải cao trong 10 phút (600 giây) với 30 yêu cầu mỗi giây — gấp ba lần đường cơ sở — với tỷ lệ lỗi 25%. Điều này mô phỏng một dịch vụ bị suy giảm đang trải qua cả sự tăng đột biến lưu lượng truy cập và sự gia tăng đáng kể các lỗi.

Hình 9: Ảnh chụp màn hình xem xét và các bước tiếp theo được đề xuất sau khi phân tích nguyên nhân gốc rễ
Những gì bạn nên quan sát: Khi bài kiểm thử bắt đầu, AWS DevOps Agent phát hiện sự sai lệch so với đường cơ sở đã thiết lập và bắt đầu một cuộc điều tra. Trong chế độ xem phản hồi sự cố của agent, bạn sẽ thấy các kết quả sau:
- Xác định ứng dụng bị ảnh hưởng — Agent xác định
java-otel-applà dịch vụ bị ảnh hưởng, phân biệt nó với các ứng dụng khác đang chạy bình thường trong cluster. - Phân tích mẫu lỗi — Agent phân tích tỷ lệ lỗi 25% thành các chế độ lỗi cụ thể (ví dụ: lỗi HTTP 500, tăng đột biến thời gian chờ hoặc từ chối kết nối), giúp bạn hiểu không chỉ là lỗi đang xảy ra, mà còn tại sao và ở đâu.
- Tương quan sử dụng tài nguyên — Agent tương quan các đột biến CPU và bộ nhớ trên các pod bị ảnh hưởng với sự suy giảm hiệu suất được quan sát, cho thấy mối quan hệ rõ ràng giữa việc cạn kiệt tài nguyên và tỷ lệ lỗi tăng lên.
- Xác định nguyên nhân gốc rễ với điểm tin cậy — Agent trình bày một danh sách các nguyên nhân gốc rễ tiềm năng được xếp hạng, mỗi nguyên nhân có một điểm tin cậy, để bạn có thể ưu tiên điều tra của mình. Ví dụ, nó có thể xác định rò rỉ bộ nhớ hoặc cạn kiệt nhóm luồng là nguyên nhân có khả năng nhất với độ tin cậy cao.
Khả năng phân tích nâng cao: Ngoài sự cố tức thời, agent thực hiện phân tích sâu hơn mà bạn có thể khám phá trong chế độ xem dòng thời gian điều tra:
- Tương quan tác động giữa các dịch vụ — Agent xác định xem sự suy giảm trong
java-otel-appcó gây ra hiệu ứng dây chuyền trên các dịch vụ phụ thuộc hay không, cho bạn thấy toàn bộ phạm vi tác động của sự cố. - Tái tạo dòng thời gian — Agent tái tạo chuỗi các sự kiện dẫn đến và trong suốt sự cố, giúp bạn hiểu tình hình đã phát triển như thế nào theo thời gian.
- Ánh xạ phụ thuộc — Các phụ thuộc dịch vụ upstream và downstream được trực quan hóa, làm rõ dịch vụ nào bị ảnh hưởng trực tiếp và dịch vụ nào có nguy cơ.
- Các khuyến nghị khắc phục được ưu tiên — Agent cung cấp các bước khắc phục có thể thực hiện được, được xếp hạng theo tác động kinh doanh, để nhóm của bạn có thể giải quyết các vấn đề quan trọng nhất trước tiên. Các khuyến nghị có thể bao gồm mở rộng triển khai bị ảnh hưởng, điều chỉnh giới hạn tài nguyên hoặc khôi phục một thay đổi cấu hình gần đây.
Sau khi bài kiểm thử hoàn tất, bạn sẽ thấy một báo cáo sự cố đầy đủ trong bảng điều khiển của agent tóm tắt nguyên nhân gốc rễ, các thành phần bị ảnh hưởng, dòng thời gian và các bước tiếp theo được đề xuất — cung cấp cho nhóm của bạn mọi thứ cần thiết để giải quyết vấn đề và ngăn chặn tái diễn.
Kết quả mong đợi:
Agent xác định ứng dụng nào bị ảnh hưởng (java-otel-app), phân tích các mẫu và tỷ lệ lỗi cho các chế độ lỗi cụ thể, tương quan việc sử dụng tài nguyên với sự suy giảm hiệu suất và cung cấp các nguyên nhân gốc rễ tiềm năng với điểm tin cậy.

Hình 10: Ảnh chụp màn hình kế hoạch giảm thiểu được đề xuất bởi AWS DevOps Agent
Khả năng phân tích nâng cao:
Agent thực hiện phân tích bao gồm tương quan tác động giữa các dịch vụ, tái tạo dòng thời gian diễn biến sự kiện, ánh xạ phụ thuộc để xác định các hiệu ứng upstream/downstream và các khuyến nghị khắc phục được ưu tiên dựa trên tác động kinh doanh.
Quy trình điều tra của AWS DevOps Agent
Phần này trình bày chi tiết cách sử dụng AWS DevOps Agent để điều tra và phân tích sự kiện.

Hình 11: Ảnh chụp màn hình bắt đầu một cuộc điều tra từ AWS Console bên trong dịch vụ AWS DevOps Agent
Bắt đầu một cuộc điều tra
Truy cập giao diện web của AWS DevOps Agent và bắt đầu một cuộc điều tra mới:
- Kích hoạt điều tra: Chọn từ các kịch bản được định nghĩa trước như “Sử dụng CPU cao,” “Tỷ lệ lỗi tăng đột biến,” hoặc “Hiệu suất suy giảm”
- Lựa chọn khoảng thời gian: Chọn khoảng thời gian khi bạn tạo lưu lượng truy cập hoặc quan sát các vấn đề.
- Định nghĩa phạm vi: Cung cấp ID tài khoản AWS, AWS Region (us-east-1) và ngữ cảnh cluster hoặc ứng dụng cụ thể.
- Cấu hình nguồn dữ liệu: Đảm bảo tất cả các nguồn dữ liệu quan sát được kết nối đúng cách.
Quy trình điều tra
AWS DevOps Agent tuân theo một phương pháp điều tra có hệ thống:
Giai đoạn thu thập dữ liệu:

Hình 12: Ảnh chụp màn hình dòng thời gian điều tra được thực hiện bởi AWS DevOps Agent
Cách tiếp cận này tương quan các chỉ số từ Amazon Managed Prometheus workspace, và phân tích nhật ký từ Amazon CloudWatch Logs để tìm các mẫu lỗi và bất thường. Nó cũng xem xét các trace phân tán từ AWS X-Ray để tìm các phụ thuộc dịch vụ, và kiểm tra cấu trúc liên kết ứng dụng và các mối quan hệ dịch vụ để cung cấp khả năng quan sát toàn diện trong quá trình di chuyển.
Giai đoạn phân tích:

Hình 13: Ảnh chụp màn hình phân tích được thực hiện từ AWS Console bên trong dịch vụ AWS DevOps Agent
Cách tiếp cận này xác định các mẫu và bất thường bằng cách sử dụng thuật toán ML. Nó tương quan các sự kiện trên nhiều nguồn dữ liệu để hiểu toàn diện, áp dụng phân tích thống kê để xác định ý nghĩa của các thay đổi được quan sát và so sánh hành vi hiện tại với các đường cơ sở đã thiết lập để phát hiện và đánh giá chính xác hành vi hệ thống.
Xác định nguyên nhân gốc rễ:

Hình 14: Ảnh chụp màn hình tóm tắt nguyên nhân gốc rễ và điều tra được thực hiện từ AWS Console bên trong dịch vụ AWS DevOps Agent
Cách tiếp cận này cung cấp phân tích nguyên nhân gốc rễ có hệ thống với điểm tin cậy, xác định các yếu tố đóng góp và các sự kiện kích hoạt tiềm năng, ánh xạ dòng thời gian sự kiện với bằng chứng tương quan từ nhiều nguồn và đề xuất các nguyên nhân có khả năng nhất dựa trên tương quan dữ liệu và phân tích mẫu để cho phép khắc phục sự cố và giải quyết hiệu quả.
Chiến lược giảm thiểu:

Hình 15: Ảnh chụp màn hình tóm tắt giảm thiểu được đề xuất bởi AWS DevOps Agent
Cách tiếp cận này đề xuất các hành động giảm thiểu ngay lập tức để giải quyết các vấn đề hiện tại. Nó cũng đề xuất các chiến lược phòng ngừa dài hạn để tránh tái diễn, cung cấp hướng dẫn kiểu runbook cho các nhóm phản ứng sự kiện và tích hợp với các quy trình làm việc và công cụ DevOps hiện có để phản ứng và cải thiện sự cố liền mạch.
Các tính năng và lợi ích chính
Ngăn chặn các sự cố trong tương lai
AWS DevOps Agent phân tích các mẫu trên các cuộc điều tra sự cố của bạn để đưa ra các khuyến nghị mục tiêu nhằm liên tục cải thiện tư thế vận hành của bạn và ngăn chặn các sự cố trong tương lai.

Hình 16: Ảnh chụp màn hình tab phòng ngừa trong AWS Console cho AWS DevOps Agent
Cấu trúc liên kết của DevOps Agent
AWS DevOps Agent Topology tự động khám phá và ánh xạ toàn bộ hạ tầng của bạn thành một bản thiết kế tương tác, sống động. Nó không chỉ tiết lộ những tài nguyên nào tồn tại, mà còn cách chúng kết nối, phụ thuộc vào nhau và thúc đẩy hành vi hệ thống.

Hình 17: Ảnh chụp màn hình cấu trúc liên kết của cluster Amazon EKS được khám phá bởi AWS DevOps Agent
Dọn dẹp
Để tránh các khoản phí phát sinh, hãy xóa các tài nguyên mà bạn đã tạo trong quá trình thực hiện hướng dẫn này.
Xóa tài nguyên AWS DevOps Agent:
- Xóa dữ liệu điều tra và cấu hình Agent Space thông qua AWS Console.
- Xóa các IAM role và chính sách được tạo riêng cho DevOps Agent.
- Xóa bất kỳ CloudFormation stack nào được tạo trong quá trình triển khai.
Kết luận
Khi các tổ chức tiếp tục áp dụng kiến trúc cloud-native và các phương pháp DevOps, các công cụ như AWS DevOps Agent sẽ trở nên thiết yếu để duy trì lợi thế cạnh tranh trong một bối cảnh công nghệ ngày càng phức tạp.
Bạn đã sẵn sàng thêm khả năng quan sát được hỗ trợ bởi AI vào hạ tầng container của mình chưa? Truy cập tài liệu AWS để truy cập các hướng dẫn triển khai, hoặc liên hệ với nhóm tài khoản AWS của bạn để thảo luận về cách tiếp cận di chuyển tự động này có thể tăng tốc hành trình hiện đại hóa đám mây của bạn, đồng thời giảm chi phí vận hành.
Về tác giả

Aritra Nag
Aritra Nag là Kiến trúc sư Giải pháp tại Amazon Web Services, nơi anh hỗ trợ khách hàng thiết kế và triển khai các giải pháp đám mây. Ngoài chuyên môn sâu về kiến trúc đám mây, Aritra còn mang đến kinh nghiệm sâu rộng về DevOps và Hiện đại hóa, giúp các tổ chức khai thác toàn bộ tiềm năng của đổi mới dựa trên dữ liệu.

Manikanth M
Manikanth là Kiến trúc sư Giải pháp tại Amazon Web Services, với hơn 20 năm kinh nghiệm chiến lược và vận hành từ nhiều triển khai ERP, Cơ sở dữ liệu và hệ thống AI/ML cùng với việc quản lý kiến trúc doanh nghiệp. Anh có kiến thức sâu rộng về tất cả các lớp kiến trúc doanh nghiệp – quy trình kinh doanh, ứng dụng, thông tin, công nghệ và bảo mật, cùng với năng lực TOGAF, giúp anh có khả năng kiến trúc và dẫn dắt các chương trình chuyển đổi / hiện đại hóa toàn cầu phức tạp bằng cách thu hẹp khoảng cách giữa tất cả các lớp kiến trúc doanh nghiệp.

Shubho Laga
Shubho Laga là Quản lý Tài khoản Kỹ thuật Cấp cao tại Amazon Web Services, với hơn một thập kỷ kinh nghiệm trong ngành CNTT, anh hợp tác với khách hàng và các công ty phần mềm trên khắp Châu Âu, Trung Đông và Châu Phi để giúp họ khai thác toàn bộ tiềm năng của AWS. Chuyên môn kỹ thuật của Shubho bao gồm kiến trúc vận hành đám mây, AI tạo sinh, khả năng quan sát, SaaS, và di chuyển cũng như hiện đại hóa — mang đến sự kết hợp hiếm có giữa chiều sâu thực hành và tư duy chiến lược cho mọi tương tác với khách hàng.