Agentic AI cho khả năng quan sát và khắc phục sự cố với Amazon OpenSearch Service

Tác giả: Muthu Pitchaimani, Hang Zuo, và Mikhail Vaynshteyn
Ngày phát hành: 02 APR 2026
Chuyên mục: Amazon Bedrock AgentCore, Amazon OpenSearch Service, Analytics

Amazon OpenSearch Service cung cấp các quy trình làm việc về khả năng quan sát (observability) cho các tổ chức, mang đến cho các nhóm Site Reliability Engineering (SRE) và DevOps của họ một giao diện duy nhất để tổng hợp và phân tích dữ liệu telemetry. Trong các sự cố, việc tương quan các tín hiệu và xác định nguyên nhân gốc rễ đòi hỏi chuyên môn sâu về phân tích nhật ký (log analytics) và hàng giờ làm việc thủ công. Việc xác định nguyên nhân gốc rễ vẫn chủ yếu là thủ công. Đối với nhiều nhóm, đây là nút thắt cổ chai làm chậm quá trình khôi phục dịch vụ và tiêu tốn tài nguyên kỹ thuật.

Gần đây, chúng tôi đã trình bày cách xây dựng một Observability Agent sử dụng Amazon OpenSearch Service và Amazon Bedrock để giảm Mean time to Resolution (MTTR). Giờ đây, Amazon OpenSearch Service mang nhiều chức năng này đến OpenSearch UI—không yêu cầu thêm cơ sở hạ tầng. Ba tính năng AI agentic mới được cung cấp để hợp lý hóa và tăng tốc MTTR:

Một Agentic Chatbot có thể truy cập ngữ cảnh và dữ liệu cơ bản mà bạn đang xem, áp dụng suy luận agentic và sử dụng các công cụ để truy vấn dữ liệu và tạo ra thông tin chi tiết thay mặt bạn.
Một Investigation Agent đi sâu vào dữ liệu tín hiệu với phân tích dựa trên giả thuyết, giải thích lý do của nó ở mỗi bước.
Một Agentic Memory hỗ trợ cả hai agent, giúp độ chính xác và tốc độ của chúng được cải thiện khi bạn sử dụng chúng nhiều hơn.

Trong bài đăng này, chúng tôi sẽ trình bày cách các khả năng này hoạt động cùng nhau để giúp các kỹ sư đi từ cảnh báo đến nguyên nhân gốc rễ chỉ trong vài phút. Chúng tôi cũng sẽ đi qua một kịch bản mẫu trong đó Investigation Agent tự động tương quan dữ liệu trên nhiều chỉ mục để đưa ra một giả thuyết về nguyên nhân gốc rễ.

Cách các khả năng AI agentic hoạt động cùng nhau

Các khả năng AI này có thể truy cập được từ OpenSearch UI thông qua nút Ask AI, như được hiển thị trong sơ đồ sau, cung cấp điểm truy cập cho Agentic Chatbot.

Sơ đồ tổng quan về các khả năng AI agentic trong Amazon OpenSearch Service

Agentic Chatbot

Để mở giao diện chatbot, chọn Ask AI.

Chatbot hiểu ngữ cảnh của trang hiện tại, vì vậy nó hiểu bạn đang xem gì trước khi bạn đặt câu hỏi. Bạn có thể đặt câu hỏi về dữ liệu của mình, bắt đầu một cuộc điều tra hoặc yêu cầu chatbot giải thích một khái niệm. Sau khi hiểu yêu cầu của bạn, chatbot sẽ lập kế hoạch và sử dụng các công cụ để truy cập dữ liệu, bao gồm tạo và chạy các truy vấn trong trang Discover, và áp dụng suy luận để đưa ra câu trả lời dựa trên dữ liệu. Bạn cũng có thể sử dụng chatbot trong trang Dashboard, bắt đầu các cuộc hội thoại từ một hình ảnh trực quan cụ thể để nhận được bản tóm tắt như trong hình ảnh sau.

Chatbot cung cấp tóm tắt trong trang Dashboard của OpenSearch UI

Investigation agent

Nhiều sự cố quá phức tạp để giải quyết chỉ với một hoặc hai truy vấn. Giờ đây, bạn có thể nhận được sự trợ giúp của investigation agent để xử lý các tình huống phức tạp này. Investigation agent sử dụng plan-execute-reflect agent, được thiết kế để giải quyết các tác vụ phức tạp đòi hỏi suy luận lặp đi lặp lại và thực thi từng bước. Nó sử dụng một Large Language Model (LLM) làm người lập kế hoạch và một LLM khác làm người thực thi. Khi một kỹ sư xác định một quan sát đáng ngờ, như tỷ lệ lỗi tăng đột biến hoặc sự bất thường về độ trễ, họ có thể yêu cầu investigation agent điều tra. Một trong những bước quan trọng mà investigation agent thực hiện là đánh giá lại. Agent, sau khi thực hiện mỗi bước, sẽ đánh giá lại kế hoạch bằng cách sử dụng người lập kế hoạch và các kết quả trung gian. Người lập kế hoạch có thể điều chỉnh kế hoạch nếu cần hoặc bỏ qua một bước hoặc tự động thêm các bước dựa trên thông tin mới này. Sử dụng người lập kế hoạch, agent tạo ra một báo cáo phân tích nguyên nhân gốc rễ được dẫn dắt bởi giả thuyết có khả năng nhất và các khuyến nghị, với đầy đủ dấu vết của agent hiển thị mọi bước suy luận, tất cả các phát hiện và cách chúng hỗ trợ các giả thuyết cuối cùng. Bạn có thể cung cấp phản hồi, thêm các phát hiện của riêng mình, lặp lại mục tiêu điều tra, và xem xét và xác thực từng bước suy luận của agent. Cách tiếp cận này phản ánh cách những người phản ứng sự cố có kinh nghiệm làm việc, nhưng hoàn thành tự động trong vài phút. Bạn cũng có thể sử dụng lệnh gạch chéo “/investigate” để bắt đầu một cuộc điều tra trực tiếp từ chatbot, xây dựng trên một cuộc hội thoại đang diễn ra hoặc bắt đầu với một mục tiêu điều tra khác.

Agent đang hoạt động

Tự động tạo truy vấn

Hãy xem xét một tình huống mà bạn là kỹ sư SRE hoặc DevOps và nhận được cảnh báo rằng một dịch vụ quan trọng đang gặp phải độ trễ tăng cao. Bạn đăng nhập vào OpenSearch UI, điều hướng đến trang Discover và chọn nút Ask AI. Mà không cần bất kỳ chuyên môn nào về ngôn ngữ truy vấn Piped Processing Language (PPL), bạn nhập câu hỏi “tìm tất cả các yêu cầu có độ trễ lớn hơn 10 giây”. Chatbot hiểu ngữ cảnh và dữ liệu bạn đang xem, suy nghĩ về yêu cầu, tạo lệnh PPL phù hợp và cập nhật nó vào thanh truy vấn để bạn nhận được kết quả. Và nếu truy vấn gặp bất kỳ lỗi nào, chatbot có thể tìm hiểu về lỗi, tự sửa lỗi và lặp lại truy vấn để bạn nhận được kết quả.

Điều tra và quản lý điều tra

Đối với các sự cố phức tạp thường yêu cầu phân tích và tương quan thủ công nhiều nhật ký để tìm nguyên nhân gốc rễ có thể, bạn có thể chọn Start Investigation để khởi tạo investigation agent. Bạn có thể cung cấp mục tiêu cho cuộc điều tra, cùng với bất kỳ ngữ cảnh hoặc giả thuyết nào bạn muốn hướng dẫn cuộc điều tra. Ví dụ: “xác định nguyên nhân gốc rễ của độ trễ cao trên diện rộng giữa các dịch vụ. Sử dụng TraceIDs từ các span chậm để tương quan với các mục nhật ký chi tiết trong các chỉ mục nhật ký liên quan. Phân tích các dịch vụ bị ảnh hưởng, hoạt động, các mẫu lỗi và bất kỳ nút thắt cổ chai nào ở cấp độ cơ sở hạ tầng hoặc ứng dụng mà không lấy mẫu”.

Nút 'Start Investigation' để bắt đầu điều tra

Agent, như một phần của cuộc hội thoại, sẽ đề nghị điều tra bất kỳ vấn đề nào bạn đang cố gắng gỡ lỗi.

Agent đề xuất điều tra một vấn đề trong cuộc trò chuyện

Agent đặt ra các mục tiêu cho chính nó cùng với bất kỳ thông tin liên quan nào khác như chỉ mục, phạm vi thời gian liên quan, v.v., và yêu cầu xác nhận của bạn trước khi tạo một Notebook cho cuộc điều tra này. Một Notebook là một cách trong OpenSearch UI để phát triển một báo cáo phong phú, trực tiếp và có tính cộng tác. Điều này giúp quản lý cuộc điều tra và cho phép điều tra lại vào một ngày sau đó nếu cần.

Sau khi cuộc điều tra bắt đầu, agent sẽ thực hiện phân tích nhanh theo chuỗi nhật ký và phân phối dữ liệu để làm nổi bật các ngoại lệ. Sau đó, nó sẽ lập kế hoạch cho cuộc điều tra thành một loạt các hành động, và sau đó thực hiện từng hành động, chẳng hạn như truy vấn một loại nhật ký và phạm vi thời gian cụ thể. Nó sẽ phản ánh kết quả ở mỗi bước, và lặp lại kế hoạch cho đến khi đạt được các giả thuyết có khả năng nhất. Các kết quả trung gian sẽ xuất hiện trên cùng một trang khi agent làm việc để bạn có thể theo dõi lý do trong thời gian thực. Ví dụ, bạn thấy rằng Investigation Agent đã lập bản đồ cấu trúc dịch vụ một cách chính xác và sử dụng nó làm các bước trung gian quan trọng cho cuộc điều tra.

Investigation Agent lập bản đồ cấu trúc dịch vụ trong quá trình điều tra

Khi cuộc điều tra hoàn tất, investigation agent kết luận rằng giả thuyết có khả năng nhất là thời gian chờ phát hiện gian lận (fraud detection timeout). Phát hiện liên quan cho thấy một mục nhật ký từ dịch vụ thanh toán: “currency amount is too big, waiting for fraud detection”. Điều này khớp với một thiết kế hệ thống đã biết, trong đó các giao dịch lớn kích hoạt một cuộc gọi phát hiện gian lận chặn yêu cầu cho đến khi giao dịch được chấm điểm và đánh giá. Agent đã đi đến phát hiện này bằng cách tương quan dữ liệu trên hai chỉ mục riêng biệt, một chỉ mục metrics nơi dữ liệu thời lượng gốc tồn tại, và một chỉ mục nhật ký tương quan nơi các mục dịch vụ thanh toán được lưu trữ. Agent đã liên kết các chỉ mục này bằng cách sử dụng trace IDs, kết nối phép đo độ trễ với mục nhật ký cụ thể giải thích nó.

Kết quả điều tra của agent với giả thuyết và bằng chứng hỗ trợ

Sau khi xem xét giả thuyết và bằng chứng hỗ trợ, bạn thấy kết quả hợp lý và phù hợp với kiến thức chuyên môn của bạn cũng như kinh nghiệm trong quá khứ với các vấn đề tương tự. Giờ đây, bạn có thể chấp nhận giả thuyết và xem xét cấu trúc luồng yêu cầu cho các trace bị ảnh hưởng đã được cung cấp như một phần của cuộc điều tra giả thuyết.

Ngoài ra, nếu bạn thấy rằng giả thuyết ban đầu không hữu ích, bạn có thể xem xét giả thuyết thay thế ở cuối báo cáo và chọn bất kỳ giả thuyết thay thế nào nếu có một giả thuyết chính xác hơn. Bạn cũng có thể kích hoạt điều tra lại với các đầu vào bổ sung hoặc sửa lỗi từ đầu vào trước đó để Investigation Agent có thể xử lý lại.

Các giả thuyết thay thế trong báo cáo điều tra

Bắt đầu

Bạn có thể sử dụng bất kỳ tính năng AI agentic mới nào (áp dụng giới hạn) trong OpenSearch UI mà không mất phí. Bạn sẽ thấy các tính năng AI agentic mới sẵn sàng sử dụng trong các ứng dụng OpenSearch UI của mình, trừ khi bạn đã tắt các tính năng AI trước đó trong bất kỳ miền OpenSearch Service nào trong tài khoản của mình. Để bật hoặc tắt các tính năng AI, bạn có thể điều hướng đến trang chi tiết của ứng dụng OpenSearch UI trong AWS Management Console và cập nhật cài đặt AI từ đó. Ngoài ra, bạn cũng có thể sử dụng API registerCapability để bật các tính năng AI hoặc sử dụng API deregisterCapability để tắt chúng. Tìm hiểu thêm tại Agentic AI trong Amazon OpenSearch Services.

Tính năng AI agentic sử dụng danh tính và quyền của người dùng đã đăng nhập để ủy quyền truy cập vào các nguồn dữ liệu được kết nối. Đảm bảo rằng người dùng của bạn có các quyền cần thiết để truy cập các nguồn dữ liệu. Để biết thêm thông tin, hãy xem Bắt đầu với OpenSearch UI.

Kết quả điều tra được lưu trong hệ thống metadata của OpenSearch UI và được mã hóa bằng khóa do dịch vụ quản lý. Tùy chọn, bạn có thể cấu hình khóa do khách hàng quản lý để mã hóa tất cả metadata bằng khóa của riêng bạn. Để biết thêm thông tin, hãy xem Mã hóa và Khóa do Khách hàng Quản lý với OpenSearch UI.

Các tính năng AI được cung cấp bởi mô hình Claude Sonnet 4.6 trong Amazon Bedrock. Tìm hiểu thêm tại Bảo vệ dữ liệu Amazon Bedrock.

Kết luận

Các khả năng AI agentic mới được công bố cho Amazon OpenSearch Service giúp giảm Mean Time to Resolution bằng cách cung cấp chatbot agentic nhận biết ngữ cảnh để hỗ trợ, điều tra dựa trên giả thuyết với khả năng giải thích đầy đủ và bộ nhớ agentic để duy trì ngữ cảnh. Với các khả năng AI agentic mới, nhóm kỹ sư của bạn có thể dành ít thời gian hơn để viết truy vấn và tương quan tín hiệu, và nhiều thời gian hơn để hành động dựa trên các nguyên nhân gốc rễ đã được xác nhận. Chúng tôi mời bạn khám phá các khả năng này và thử nghiệm với các ứng dụng của bạn ngay hôm nay.

Về tác giả

Muthu Pitchaimani

Muthu là Chuyên gia Tìm kiếm tại Amazon OpenSearch Service. Anh ấy xây dựng các ứng dụng và giải pháp tìm kiếm quy mô lớn. Muthu quan tâm đến các chủ đề mạng và bảo mật, và hiện đang làm việc tại Austin, Texas.

Hang (Arthur) Zuo

Arthur là Giám đốc Sản phẩm Cấp cao tại Amazon OpenSearch Service. Arthur dẫn dắt nền tảng OpenSearch UI và các tính năng AI agentic cho các trường hợp sử dụng khả năng quan sát và tìm kiếm. Arthur quan tâm đến các chủ đề AI Agentic và các sản phẩm dữ liệu.

Mikhail Vaynshteyn

Mikhail là Kiến trúc sư Giải pháp tại Amazon Web Services. Mikhail làm việc với các khách hàng trong lĩnh vực chăm sóc sức khỏe và khoa học đời sống, chuyên về các dịch vụ phân tích dữ liệu. Mikhail có hơn 20 năm kinh nghiệm trong ngành, bao gồm nhiều công nghệ và lĩnh vực khác nhau.