Bốn nguyên tắc bảo mật cho hệ thống AI tác nhân

Tác giả: Mark Ryland, Riggs Goodman III, và Todd MacDermid
Ngày phát hành: 02 APR 2026
Chuyên mục: Security, Identity, & Compliance, Thought Leadership

AI tác nhân (Agentic AI) đại diện cho một sự thay đổi định tính trong cách phần mềm hoạt động. Phần mềm truyền thống thực thi các chỉ dẫn xác định. AI tạo sinh (Generative AI) phản hồi các prompt của con người bằng đầu ra mà con người xem xét và sử dụng theo ý mình. AI tác nhân khác biệt với cả hai. Các tác nhân kết nối với các công cụ phần mềm và API, sử dụng các mô hình ngôn ngữ lớn (LLM) làm công cụ suy luận để lập kế hoạch và thực thi chuỗi hành động một cách tự chủ—với tốc độ máy móc—và có những hậu quả trong thế giới thực. Sự thay đổi này đặt ra những câu hỏi mới cho bảo mật thông tin. Vào tháng 1 năm 2026, Trung tâm Tiêu chuẩn và Đổi mới AI (CAISI) của NIST đã ban hành Yêu cầu Thông tin (RFI) nhằm tìm kiếm ý kiến đóng góp từ ngành về cách bảo mật các hệ thống này. AWS đã gửi một phản hồi dựa trên kinh nghiệm của chúng tôi trong việc xây dựng và vận hành các dịch vụ AI tác nhân. Bài viết này tóm tắt bốn nguyên tắc bảo mật cốt lõi của phản hồi đó và các khối xây dựng kiến trúc triển khai chúng.

RFI về AI tác nhân của NIST

CAISI đã yêu cầu các nhà phát triển, nhà triển khai và nhà nghiên cứu bảo mật đóng góp ý kiến về cách ngành công nghiệp nên bảo mật các hệ thống AI hoạt động tự chủ. RFI đã đặt ra các câu hỏi trên năm lĩnh vực. Những cân nhắc bảo mật độc đáo nào mà hệ thống tác nhân giới thiệu, và những cân nhắc đó thay đổi như thế nào khi hệ thống đạt được nhiều quyền tự chủ hơn? Những thực tiễn nào cải thiện bảo mật trong quá trình phát triển và triển khai? Các tổ chức đánh giá bảo mật của hệ thống tác nhân của họ như thế nào? Môi trường triển khai có thể bị giới hạn và giám sát như thế nào? Và ngành công nghiệp nên tập trung nghiên cứu tương lai vào đâu?

Tại sao điều này quan trọng

Ngay cả một phân tích rủi ro/lợi ích thận trọng cũng sẽ kết luận rằng lợi ích của AI tác nhân rõ ràng vượt trội hơn rủi ro trong nhiều lĩnh vực. Việc áp dụng nhanh chóng công nghệ tác nhân trong kinh doanh và chính phủ xác nhận điều này. Nhưng các tác nhân có giá trị chính xác là vì tính tự chủ và khả năng thích ứng của chúng, và những đặc điểm này cũng tạo ra thách thức bảo mật. Một hệ thống AI tác nhân thực hiện một hành động không mong muốn có thể làm như vậy với tốc độ máy móc, trước khi con người có thể can thiệp. Không giống như các tác nhân con người thường tạm dừng hoặc leo thang khi có điều gì đó bất thường, các tác nhân có thể không tự nhận ra những sự mơ hồ rõ ràng đối với con người, cũng như không trực giác nắm bắt được các ranh giới chính sách không được nêu rõ.

Tuy nhiên, tin tốt là phản ứng bảo mật đối với AI tác nhân không cần phải bắt đầu từ đầu. Các khuôn khổ bảo mật hiện có, bao gồm Khuôn khổ An ninh mạng của NIST, Khuôn khổ Quản lý Rủi ro AI của NIST, và Khuôn khổ Phát triển Phần mềm An toàn, vẫn còn phù hợp và nên được mở rộng cho các cân nhắc cụ thể của tác nhân thay vì thay thế. Phần mở rộng quan trọng nhất là về kiến trúc. Phản hồi của chúng tôi gửi tới NIST đã xác định bốn nguyên tắc bảo mật nền tảng giải quyết cách thực hiện phần mở rộng đó.

Bốn nguyên tắc bảo mật cho AI tác nhân

Những nguyên tắc này được xây dựng dựa trên tiền đề rằng AI tác nhân không yêu cầu một mô hình bảo mật mới, nhưng nó đòi hỏi các thực tiễn hiện có phải phát triển. Hai nguyên tắc đầu tiên đề cập đến những gì được kế thừa; hai nguyên tắc sau đề cập đến những gì thực sự mới.

Nguyên tắc 1: Các thực tiễn vòng đời phát triển an toàn áp dụng trên tất cả các thành phần hệ thống. Hệ thống AI tác nhân kết hợp các thành phần phần mềm truyền thống (API, cơ sở dữ liệu, logic điều phối) với các yếu tố AI như Foundation Model, prompt template và retrieval pipeline. Một vòng đời phát triển an toàn phải bao gồm cả hai bộ thành phần này. Đối với các thành phần truyền thống, các thực tiễn đã được thiết lập như code review, phân tích tĩnh, quét phụ thuộc và mô hình hóa mối đe dọa vẫn rất cần thiết, cần lưu ý rằng những thực tiễn đó cũng đang được tăng cường bằng các công cụ dựa trên AI. Đối với các thành phần AI, thách thức khác biệt. Foundation Model mang tính xác suất, có nghĩa là kiểm thử hồi quy truyền thống là cần thiết nhưng không đủ. Các tổ chức phải bổ sung bằng kiểm thử hành vi, đánh giá đối kháng và giám sát liên tục để xác thực rằng các thành phần AI hoạt động trong các tham số mong đợi.

Việc đánh giá lại thường xuyên cũng quan trọng không kém để giải quyết sự trôi dạt hành vi (behavioral drift). Các mô hình nhận được các bản cập nhật có thể thay đổi hành vi. Prompt template phát triển khi các nhóm tinh chỉnh khả năng của tác nhân. Các công cụ và nguồn dữ liệu mới mở rộng bề mặt hoạt động của tác nhân. Mỗi thay đổi có thể giới thiệu các chế độ lỗi mới hoặc các vấn đề bảo mật tiềm ẩn. Các tổ chức phải coi việc đánh giá là một thực tiễn hoạt động liên tục, không phải là một cổng kiểm tra một lần. Điều này bao gồm kiểm thử tự động sau khi cập nhật mô hình, các bài tập red team chống lại các tác nhân đã triển khai và giám sát phát hiện sự trôi dạt hành vi theo thời gian.

Nguyên tắc 2: Các biện pháp kiểm soát bảo mật truyền thống vẫn hoàn toàn áp dụng được. AI tác nhân giới thiệu những cân nhắc mới, nhưng nó không làm cho các rủi ro bảo mật hiện có trở nên lỗi thời. Toàn bộ các biện pháp kiểm soát bảo mật truyền thống vẫn được áp dụng. Một hệ thống AI tác nhân kết hợp phần mềm truyền thống với vòng lặp xử lý LLM-cộng-công cụ mới. Các tổ chức phải bảo mật phần mềm, công cụ và cấu hình hiện có chống lại các rủi ro đã biết để cung cấp một nền tảng vững chắc cho các yếu tố tác nhân.

Leo thang đặc quyền (privilege escalation), các vấn đề về confused deputy, chiếm quyền phiên (session hijacking), chèn mã (code injection) và rủi ro chuỗi cung ứng mở rộng trực tiếp vào các hệ thống tác nhân. Một số rủi ro này tăng lên trong bối cảnh tác nhân. Các tác nhân hoạt động ở quy mô và tốc độ lớn hơn so với các tác nhân con người, điều này có nghĩa là các đặc quyền quá mức mang lại nhiều tiềm năng hơn cho các hậu quả không mong muốn. Điều đó có nghĩa là việc áp dụng các nguyên tắc đặc quyền tối thiểu (least privilege) cho quản lý truy cập trong bối cảnh tác nhân cũng quan trọng—nếu không muốn nói là quan trọng hơn—so với trong các hệ thống truyền thống. Bề mặt chuỗi cung ứng cũng rộng hơn. Các hệ thống tác nhân không chỉ tiêu thụ các phụ thuộc mã của bên thứ ba mà còn cả Foundation Model, plugin, tool server và nguồn truy xuất dữ liệu. Các tác nhân gọi API, truy vấn cơ sở dữ liệu hoặc tạo mã tạo ra các bề mặt chèn tiềm năng mới tại các ranh giới công cụ. Các biện pháp kiểm soát dành riêng cho AI phải là phần bổ sung cho bảo mật nền tảng này, không phải là sự thay thế.

Nguyên tắc 3: Các biện pháp kiểm soát bên ngoài mang tính xác định là điểm khởi đầu cho bảo mật tác nhân. Đây là nguyên tắc kiến trúc quan trọng nhất cho bảo mật AI tác nhân. Các tổ chức nên thực thi bảo mật thông qua các biện pháp kiểm soát mang tính xác định, cấp độ hạ tầng, bên ngoài vòng lặp suy luận của tác nhân, chứ không phải thông qua suy luận của chính tác nhân, các guardrail nội bộ hoặc các hướng dẫn dựa trên prompt. Logic rất đơn giản. LLM là các công cụ suy luận xác suất, không phải là cơ chế thực thi bảo mật. Các nhà phát triển có thể hướng dẫn một LLM từ chối các yêu cầu nhất định, nhưng các kỹ thuật prompt injection có thể ghi đè lên những hướng dẫn đó. Một LLM có thể được yêu cầu tôn trọng các ranh giới truy cập, nhưng nó không có cơ chế đáng tin cậy để thực thi chúng. Cố gắng hạn chế hành vi của tác nhân chỉ thông qua prompting hoặc alignment đi ngược lại giá trị cốt lõi của tác nhân, đó là khả năng thích ứng linh hoạt với các tình huống mới lạ.

Bảo mật hiệu quả đặt các biện pháp kiểm soát mang tính xác định, được chỉ định đầy đủ bên ngoài tác nhân, điều chỉnh các công cụ mà tác nhân có thể truy cập, các hoạt động mà nó có thể thực hiện và dữ liệu mà nó có thể tiếp cận. Thao túng mô hình không thể vượt qua các biện pháp kiểm soát này. Chúng tôi mô tả điều này là hộp bảo mật (security box). Nó nằm bên ngoài tác nhân, mang tính xác định trong việc thực thi và toàn diện trong phạm vi bao phủ. Mọi tương tác giữa tác nhân và thế giới bên ngoài đều đi qua nó. Ma trận Phạm vi Bảo mật AI tác nhân giúp các tổ chức điều chỉnh mức độ nghiêm ngặt của các biện pháp kiểm soát này dựa trên mức độ tự chủ của hệ thống của họ. Phạm vi bao gồm từ các hệ thống yêu cầu sự chấp thuận rõ ràng của con người trước mỗi hành động đến các hệ thống hoàn toàn tự chủ tự khởi tạo các hoạt động của riêng chúng dựa trên các sự kiện bên ngoài.

Hộp bảo mật không phải là một giới hạn đối với giá trị của tác nhân. Đó là điều kiện tiên quyết để đạt được giá trị đó một cách có trách nhiệm. Khi công nghệ tác nhân trưởng thành, bản thân hộp bảo mật có thể sẽ phát triển để bao gồm các yếu tố tác nhân. Các tác nhân AI chuyên biệt được thiết kế để kiểm soát phạm vi của các tác nhân khác có thể thay thế một số ràng buộc xác định theo thời gian, sử dụng thông tin và ngữ cảnh mới để đưa ra các quyết định tự động phù hợp hơn so với những gì con người có thể đạt được khi quản lý các biện pháp kiểm soát xác định phức tạp.

Nguyên tắc 4: Quyền tự chủ lớn hơn nên được giành được thông qua đánh giá liên tục. Các tổ chức nên mở rộng quyền tự chủ của tác nhân một cách dần dần dựa trên hiệu suất đã được chứng minh, chứ không phải cấp mặc định. Điểm khởi đầu là con người đưa ra quyết định cho các hoạt động có hậu quả cao. Khi một tác nhân gặp một hành động có thể sửa đổi dữ liệu sản xuất có giá trị cao, khởi tạo giao dịch tài chính hoặc truyền thông tin nhạy cảm ra bên ngoài, con người sẽ đưa ra quyết định cuối cùng. Tác nhân đề xuất, và con người chấp thuận hoặc từ chối.

Cách tiếp cận này mang một rủi ro đã biết. Nếu mọi hành động của tác nhân đều yêu cầu sự chấp thuận của con người, khối lượng quyết định có thể làm cho người xem xét bị quá tải. Việc chấp thuận trở nên phản xạ thay vì có chủ ý, chuyển trách nhiệm sang con người, những người đã bị đặt vào vị trí thất bại. Các tổ chức phải giới hạn sự giám sát của con người vào các hoạt động thực sự có hậu quả cao và chống lại sự cám dỗ yêu cầu thiết kế human-in-the-loop cho các hành động thường xuyên có rủi ro thấp.

Con đường từ sự giám sát của con người đến quyền tự chủ mở rộng đi qua quá trình đánh giá. Khi các tổ chức ghi lại một cách có hệ thống những gì tác nhân đã đề xuất, những gì con người đã quyết định và những gì thực sự đã xảy ra, họ xây dựng cơ sở bằng chứng để mở rộng quyền tự chủ. Khi dữ liệu cho thấy sự phù hợp bền vững, các tổ chức có thể chuyển từ phê duyệt trước sang xem xét sau sự việc, và cuối cùng là quyền tự chủ hoàn toàn cho các loại hoạt động cụ thể. Sự tiến triển này nên xảy ra ở cấp độ hoạt động hoặc quy trình làm việc, chứ không phải trên một loạt các tác vụ không liên quan.

Sự tiến triển này không phải là một chiều. Các tổ chức nên chuẩn bị để tái giới thiệu sự giám sát của con người khi bằng chứng cho phép. Một số ranh giới xác định có thể sẽ vẫn tồn tại vĩnh viễn trong tương lai gần. Những ranh giới này tồn tại không phải vì tác nhân chưa giành được sự tin tưởng, mà vì hậu quả của một số hành động là không thể chấp nhận được theo một phân tích rủi ro hợp lý. Mô hình tổng thể là quyền tự chủ được giành được thông qua năng lực đã được chứng minh, được quản lý bằng đánh giá, bị giới hạn bởi các ràng buộc vĩnh viễn và chịu sự xem xét liên tục. Có thể sẽ đến lúc các tác nhân ranh giới chuyên biệt có thể mang lại kết quả tốt hơn các biện pháp kiểm soát hoàn toàn xác định, nhưng lựa chọn đó chỉ có thể xuất hiện theo thời gian từ kinh nghiệm và đánh giá.

Từ nguyên tắc đến thực tiễn

Bốn nguyên tắc xác định các mục tiêu. Để đạt được chúng đòi hỏi các khối xây dựng kiến trúc cụ thể tạo nên hộp bảo mật và kiến trúc bảo mật rộng hơn. Phản hồi của chúng tôi gửi tới NIST đã mô tả chi tiết hơn các khối xây dựng này. Ở đây chúng tôi cung cấp một bản tóm tắt. AWS đã triển khai chúng trong Amazon Bedrock AgentCore, một khuôn khổ để xây dựng, triển khai và vận hành các hệ thống AI tác nhân với bảo mật được tích hợp ngay từ đầu.

Cách ly tính toán (Compute isolation). Môi trường tính toán của tác nhân phải cách ly việc thực thi, ngăn chặn rò rỉ dữ liệu giữa các tác nhân và chứa các tác nhân trong các ranh giới được xác định. Amazon Bedrock AgentCore chạy các tác nhân trên Firecracker, một trình quản lý máy ảo mã nguồn mở được viết bằng Rust. Firecracker cung cấp các micro-VM nhẹ được hỗ trợ bởi Linux KVM và ảo hóa dựa trên phần cứng, mang lại tốc độ của container với các thuộc tính cách ly của máy ảo đầy đủ. Các yếu tố quan trọng về bảo mật của Firecracker đã được các nhóm AWS xác minh chính thức, bổ sung sự đảm bảo vượt ra ngoài tính an toàn bộ nhớ mà Rust cung cấp.

Quản lý danh tính và truy cập (Identity and access management). Các tác nhân yêu cầu danh tính riêng, lưu trữ thông tin xác thực an toàn và ủy quyền đặc quyền tối thiểu được thực thi ở cấp độ hạ tầng. AgentCore Identity cung cấp danh tính máy cho các tác nhân, quản lý OAuth và các luồng thông tin xác thực an toàn, đồng thời tích hợp với AWS Identity and Access Management (IAM) để kiểm soát truy cập chi tiết. Nó hỗ trợ kiểm soát truy cập dựa trên thuộc tính và duy trì các chuỗi ủy quyền có thể theo dõi để mối quan hệ giữa các hành động của tác nhân và người dùng gọi vẫn có thể kiểm toán được.

Truy cập công cụ và thực thi chính sách (Tool access and policy enforcement). Mỗi công cụ mà một tác nhân có thể truy cập đều mở rộng cả tính hữu ích và rủi ro tiềm ẩn của nó. Việc quản lý quyền truy cập công cụ riêng lẻ trên các tác nhân tạo ra một sự bùng nổ tổ hợp không thể quản lý được. AgentCore Gateway hoạt động như một trung gian tập trung giữa các tác nhân và công cụ, thực thi xác thực và ủy quyền tại một điểm kiểm soát duy nhất. Nó có thể kiểm tra các lệnh gọi công cụ xuống từng tham số riêng lẻ, không chỉ ở cấp độ API. AgentCore Policy, được xây dựng trên ngôn ngữ ủy quyền mã nguồn mở Cedar, bổ sung việc thực thi chính sách đã được xác minh chính thức. Các nhóm có thể viết chính sách Cedar bằng ngôn ngữ tự nhiên và sau đó xem xét chúng, kết hợp sự linh hoạt của LLM với sự nghiêm ngặt của các phương pháp hình thức.

Khả năng quan sát (Observability). Hạ tầng khả năng quan sát phải thu thập đủ ngữ cảnh để giám sát và điều tra theo thời gian thực, và nó phải được bảo vệ khỏi các tác nhân mà nó giám sát. Các tổ chức sẽ không cho phép nhân viên chỉnh sửa nhật ký kiểm toán của chính họ, và nguyên tắc tương tự cũng áp dụng cho các tác nhân. AgentCore cung cấp khả năng quan sát thông qua AgentCore Gateway, telemetry cấp phiên và các dấu vết chi tiết ghi lại các thay đổi trạng thái nội bộ. Những khả năng này cũng có thể mở rộng cho các tác nhân chạy bên ngoài AgentCore.

Môi trường thực thi mô hình (Model execution environment). Bảo mật của môi trường thực thi mô hình cũng quan trọng như bảo mật của chính tác nhân. Amazon Bedrock chạy các mô hình trong môi trường mạng bị cô lập, nơi cả AWS lẫn các nhà cung cấp mô hình đều không truy cập vào prompt và phản hồi của khách hàng. Khi khách hàng bật tính năng ghi nhật ký, các nhật ký đó được mã hóa khi lưu trữ và được bảo vệ bằng khóa mã hóa do khách hàng quản lý. Sự cô lập kiến trúc này là một lý do chính khiến các khách hàng chính phủ và doanh nghiệp đã áp dụng Amazon Bedrock.

Các biện pháp kiểm soát bên ngoài mang tính xác định được bổ sung bởi các biện pháp kiểm soát trong vòng lặp xử lý AI. Amazon Bedrock Guardrails kiểm tra prompt và phản hồi bằng cách sử dụng các mô hình AI nhỏ được gọi là bộ phân loại (classifiers) để giải quyết các thách thức như prompt injection. Các kiểm tra Suy luận Tự động (Automated Reasoning) còn tiến xa hơn, cho phép các nhà phát triển tạo ra một mô hình hình thức của một miền kiến thức và xác minh rằng đầu ra của LLM tuân thủ nó, tạo ra các kết quả mang tính xác định và có thể chứng minh là đúng.

Nhìn về phía trước

AI tác nhân thay đổi cách phần mềm hoạt động, nhưng phản ứng bảo mật được xây dựng dựa trên hàng thập kỷ thực tiễn đã được thiết lập. Các khuôn khổ hiện có cung cấp nền tảng đúng đắn. Nhiệm vụ là mở rộng các khuôn khổ hiện có cho các cân nhắc cụ thể của tác nhân. Các tổ chức nên áp dụng các thực tiễn vòng đời phát triển an toàn cho các thành phần AI và duy trì các biện pháp kiểm soát bảo mật truyền thống. Họ nên thực thi bảo mật thông qua các biện pháp kiểm soát xác định bên ngoài tác nhân và giành được quyền tự chủ lớn hơn thông qua đánh giá có hệ thống.

Những nguyên tắc này không phải là lý thuyết. Chúng phản ánh kinh nghiệm vận hành mà AWS đã đạt được trong việc xây dựng và vận hành các dịch vụ AI tác nhân. Chúng được tích hợp vào cách chúng tôi thiết kế hạ tầng của mình. Khi NIST phát triển hướng dẫn dựa trên ý kiến đóng góp của ngành, chúng tôi sẽ tiếp tục đầu tư vào việc giúp khách hàng xây dựng và vận hành các hệ thống AI tác nhân một cách tự tin.

Để tìm hiểu thêm về cách AWS giúp khách hàng bảo mật các workload AI của họ, hãy truy cập Bảo mật AI của AWS hoặc đọc phản hồi của Amazon đối với Yêu cầu Thông tin của CAISI về các Cân nhắc Bảo mật cho các Tác nhân Trí tuệ Nhân tạo.

Về tác giả


Mark Ryland
Mark là giám đốc Văn phòng CISO của AWS. Ông có hơn 30 năm kinh nghiệm trong ngành công nghệ và đã giữ các vai trò lãnh đạo trong an ninh mạng, kỹ thuật phần mềm, hệ thống phân tán, tiêu chuẩn hóa công nghệ và chính sách công. Trước vai trò hiện tại, ông từng là Giám đốc Kiến trúc Giải pháp và Dịch vụ Chuyên nghiệp cho nhóm AWS World Public Sector.


Riggs Goodman III
Riggs là Kiến trúc sư Giải pháp Chính tại AWS. Trọng tâm hiện tại của ông là bảo mật AI, cung cấp hướng dẫn kỹ thuật, các mẫu kiến trúc và vai trò lãnh đạo cho khách hàng và đối tác để xây dựng các workload AI trên AWS. Nội bộ, Riggs tập trung vào việc thúc đẩy chiến lược kỹ thuật tổng thể và đổi mới trên các nhóm dịch vụ AWS để giải quyết các thách thức của khách hàng và đối tác.


Todd MacDermid
Todd là Kỹ sư Bảo mật Chính trong Nhóm Bảo mật AI của Amazon. Ông đã dành hơn 15 năm tại Amazon chủ yếu làm việc trong AWS Security, và trước Amazon, ông đã dành 10 năm làm việc trong lĩnh vực tư vấn red-team và bảo mật ứng dụng và mạng.