Xây dựng các AI agent đáng tin cậy để tự động hóa quy trình làm việc bằng UI với Amazon Nova Act đã chính thức phát hành

Tác giả: Donnie PrakosoDanilo Poccia
Ngày phát hành: 02/12/2025
Chuyên mục: Amazon Nova, Announcements, Artificial Intelligence, Generative AI

Đầu năm nay, chúng tôi đã phát hành bản xem trước nghiên cứu của Nova Act, chứng minh tiềm năng của các AI agent trong việc tương tác với giao diện người dùng và tự động hóa các quy trình phức tạp. Các nhà phát triển đã thử nghiệm Nova Act và cho chúng tôi biết rằng họ muốn đưa các agent tự động hóa này vào môi trường production.

Nhưng việc đưa các agent vào production đòi hỏi nhiều hơn là chỉ truy cập vào mô hình. Các nhà phát triển đã dành nhiều thời gian để điều phối các quy trình, tinh chỉnh các câu lệnh (prompt), chọn công cụ phù hợp và kết nối các thành phần riêng lẻ lại với nhau để đạt được sự tự động hóa đáng tin cậy. Thách thức không chỉ nằm ở trí thông minh—mà còn là độ tin cậy, khả năng tích hợp và tốc độ đưa ra môi trường production. Vì vậy, chúng tôi đã xây dựng một giải pháp tích hợp hoàn chỉnh cho việc tự động hóa trình duyệt sẵn sàng cho production.

Hôm nay, chúng tôi công bố sự ra mắt chính thức của Amazon Nova Act, một dịch vụ mới của Amazon Web Services (AWS) giúp các nhà phát triển xây dựng, triển khai và quản lý các nhóm AI agent đáng tin cậy để tự động hóa các quy trình UI trong môi trường production. Nova Act mang lại độ tin cậy cho tác vụ trên 90% ở quy mô lớn, đồng thời cung cấp thời gian tạo ra giá trị nhanh nhất và dễ dàng triển khai so với các framework AI khác.

Dưới đây là cái nhìn nhanh về console của Nova Act.

Giao diện console của Nova Act

Nova Act giải quyết thách thức xây dựng tự động hóa trình duyệt đáng tin cậy ở quy mô doanh nghiệp. Được hỗ trợ bởi mô hình Amazon Nova 2 Lite tùy chỉnh, Nova Act vượt trội trong việc điều khiển trình duyệt, hỗ trợ gọi API và chuyển giao cho con người khi cần thiết. Dịch vụ này có các khả năng cốt lõi cho việc kiểm thử đảm bảo chất lượng web (QA), nhập liệu, trích xuất dữ liệu và các quy trình thanh toán.

Hầu hết các mô hình hiện nay được huấn luyện một cách riêng lẻ, tách biệt với bộ điều phối và các bộ phận thực thi tác vụ, điều này làm giảm độ tin cậy. Nova Act tiếp cận vấn đề này một cách khác biệt bằng cách sử dụng học tăng cường (reinforcement learning) trong khi các agent chạy bên trong các môi trường tổng hợp tùy chỉnh (“web gyms”) mô phỏng các giao diện người dùng trong thế giới thực. Sự tích hợp theo chiều dọc này giữa mô hình, bộ điều phối, công cụ và SDK, tất cả được huấn luyện cùng nhau, giúp đạt được tỷ lệ hoàn thành cao hơn ở quy mô lớn. Kết quả là một hệ thống agent không chỉ hoạt động đôi khi mà còn đáng tin cậy ở quy mô lớn, với khả năng suy luận và thích ứng để xử lý các thay đổi.

Sơ đồ kiến trúc của Nova Act

Bắt đầu với Nova Act
Nova Act cung cấp một trải nghiệm phát triển tích hợp giúp bạn đi từ nguyên mẫu đến môi trường production chỉ trong vài giờ. Hãy để tôi hướng dẫn bạn qua hành trình này.

Bắt đầu trong playground
Chúng ta bắt đầu bằng cách truy cập nova.amazon.com/act để vào Nova Act Playground. Tại đây, chúng ta có thể nhanh chóng thử nghiệm và xem Nova Act hoạt động.

Giao diện Nova Act Playground

Đối với các bài kiểm thử này, chúng tôi sử dụng Nova Act Gym, một môi trường trình duyệt mô phỏng được thiết kế để kiểm thử các agent của Nova Act. Chúng tôi đang sử dụng một trang web đặt vé du lịch hư cấu đến các ngoại hành tinh trên cạn.

Trang web du lịch hư cấu trong Nova Act Gym

Tại đây, chúng ta có thể nhanh chóng tạo nguyên mẫu các quy trình bằng cách sử dụng các lệnh ngôn ngữ tự nhiên mà không cần viết bất kỳ đoạn mã nào. Chúng ta nhập URL cần tự động hóa và mô tả các hành động mà Nova Act cần thực hiện. Chúng ta có thể thêm các hành động bổ sung bằng cách chọn Add an action.

Thêm hành động trong Nova Act Playground

Sau khi xác định các hành động, chúng ta chạy agent của Nova Act trong một phiên trình duyệt trực tiếp. Bằng cách này, chúng ta có thể xác thực rằng phương pháp tự động hóa hoạt động như mong đợi.

Chạy agent trong phiên trình duyệt trực tiếp

Sau khi xác thực quy trình, chúng ta có thể xuất nó ra để tiếp tục phát triển trong một môi trường phát triển tích hợp (IDE) như Visual Studio Code (VS Code), Kiro, và Cursor.

Xuất quy trình sang IDE

Tinh chỉnh trong IDE
Ở giai đoạn này, chúng ta cần tinh chỉnh việc tự động hóa trong một IDE được hỗ trợ. Chúng tôi sử dụng Kiro và cài đặt plugin extension Nova Act.

Cài đặt extension Nova Act trong Kiro IDE

Extension này cung cấp một chế độ xây dựng kiểu notebook, nơi chúng ta có thể kiểm thử và gỡ lỗi từng bước một cách riêng lẻ. Chế độ xem trình duyệt trực tiếp cho thấy chính xác những gì agent đang làm, trong khi nhật ký thực thi tiết lộ lý luận và hành động của mô hình. Điều này giúp việc tinh chỉnh quy trình và xử lý các trường hợp ngoại lệ trở nên đơn giản.

Gỡ lỗi từng bước trong IDE

Để tìm hiểu cách sử dụng extension Nova Act trong IDE của bạn, hãy truy cập Tăng tốc phát triển AI agent với extension Nova Act IDE trên AWS News Blog. Extension Nova Act bao gồm các mẫu để giúp bạn bắt đầu nhanh chóng với các mẫu quy trình phổ biến.

Các mẫu quy trình trong extension Nova Act

Với bản phát hành này, extension Nova Act IDE giới thiệu các tab chuyên dụng cho việc xác thực, chế độ xây dựng, triển khai và chạy các quy trình—đưa toàn bộ vòng đời phát triển vào IDE của bạn. Mặc dù extension cung cấp con đường dễ dàng nhất để đưa vào production, các nhà phát triển cũng có thể sử dụng giao diện dòng lệnh (CLI) hoặc SDK của Nova Act trực tiếp cho các cấu hình triển khai nâng cao hơn.

Các tab chức năng trong extension Nova Act

Triển khai lên AWS
Khi quy trình đã sẵn sàng cho môi trường production, chúng ta điều hướng đến tab Deploy để triển khai trực tiếp lên AWS. Chúng ta nhập tên định nghĩa quy trình (phải khớp với tên trong script), chọn AWS Region, và tùy chọn cung cấp một Amazon Resource Name (ARN) của vai trò AWS Identity and Access Management (IAM) hiện có. Extension sẽ đóng gói quy trình vào một container Docker, đẩy nó lên Amazon Elastic Container Registry (Amazon ECR), tạo các vai trò IAM và bucket Amazon Simple Storage Service (Amazon S3) cần thiết, và triển khai nó lên Amazon Bedrock AgentCore Runtime.

Giao diện triển khai trong extension Nova Act

Sau khi triển khai, chúng ta có thể giám sát việc thực thi quy trình thông qua console của Nova Act. Chúng ta điều hướng đến Workflow definitions. Console cung cấp các bảng điều khiển quan sát, và khi các quy trình cần sự can thiệp của con người, chúng ta có thể cấu hình các bảng điều khiển tùy chỉnh với thông báo để người giám sát can thiệp.

Giám sát quy trình trong console Nova Act

Sau đó, để chọn định nghĩa quy trình, chúng ta cuộn xuống để tìm lần chạy quy trình.

Danh sách các lần chạy quy trình

Tại đây, chúng ta có thể xem thêm thông tin về lần chạy quy trình.

Thông tin chi tiết về một lần chạy quy trình

Từ đây, chúng ta theo dõi tiến trình và nhật ký thực thi của quy trình. Mỗi bước hiển thị lý luận, hành động của agent và ảnh chụp màn hình trình duyệt—cùng mức độ hiển thị mà chúng ta có khi phát triển trong IDE, giờ đây có sẵn để giám sát các lần thực thi trong môi trường production ở quy mô lớn.

Nhật ký chi tiết và ảnh chụp màn hình của từng bước

Quá trình tiến triển đơn giản này từ thử nghiệm đến production giúp loại bỏ hàng tuần thường dành cho việc kết nối các công cụ và logic điều phối riêng lẻ.

Kết hợp tốt hơn: Nova Act và Strands Agents
Khi các hệ thống agent trưởng thành, nhu cầu về các agent chuyên biệt có thể làm việc cùng nhau một cách liền mạch trở nên thiết yếu. Nova Act tích hợp một cách tự nhiên với framework Strands Agents, vì vậy bạn có thể xây dựng các quy trình đa agent toàn diện mà không cần công việc tích hợp tùy chỉnh. Strands cung cấp lớp điều phối để phối hợp các hệ thống agent trên các lĩnh vực khác nhau, trong khi Nova Act cung cấp độ tin cậy chuyên biệt cho việc tự động hóa UI trên trình duyệt. Khả năng tương thích ngay lập tức này phản ánh cách các kiến trúc agent hiện đại nên hoạt động—các thành phần được xây dựng có mục đích tích hợp với nhau để giải quyết các vấn đề kinh doanh phức tạp.

Các nhà phát triển có thể sử dụng Strands để điều phối các quy trình phức tạp, trong đó Nova Act xử lý các thành phần tự động hóa trình duyệt như các công cụ chuyên biệt, kết hợp chúng với các agent khác. Các nhóm có thể sử dụng kiến trúc này để khai thác các khả năng tự động hóa UI được xây dựng có mục đích của Nova Act trong các hệ sinh thái agent rộng lớn hơn được điều phối bởi Strands.

Những điều cần biết
Dưới đây là những điểm chính cần lưu ý:

  • Tích hợp – Hoạt động với framework Strands Agents để xây dựng các quy trình đa agent phức tạp trên các lĩnh vực khác nhau.
  • Giá cả – Truy cập trang giá của Amazon Nova Act để biết chi tiết.
  • Nova Act và AI có trách nhiệm – Nova Act bao gồm các biện pháp kiểm soát an toàn và khả năng kiểm duyệt nội dung tích hợp sẵn để thúc đẩy việc sử dụng AI có trách nhiệm, kết hợp các tiến bộ trong lý luận và an toàn agent cũng như khả năng chống lại các cuộc tấn công đối nghịch.
  • Tính sẵn có – Amazon Nova Act hiện có sẵn tại AWS Region US East (N. Virginia). Để biết thông tin mới nhất về tính sẵn có tại các Region, hãy truy cập trang AWS Capabilities by Region.

Hãy bắt đầu với Nova Act bằng cách truy cập nova.amazon.com/act để nhận khóa API của bạn và khám phá playground.

Chúc bạn tự động hóa vui vẻ!

Tìm hiểu thêm

Trang sản phẩm chính của Amazon Nova

Các lần ra mắt khác của Amazon Nova:

Giới thiệu Amazon Nova 2 Sonic: Mô hình speech-to-speech thế hệ mới của chúng tôi cho AI đàm thoại

Giới thiệu Amazon Nova 2 Lite, một mô hình suy luận nhanh, hiệu quả về chi phí

Giới thiệu Amazon Nova Forge: Xây dựng các mô hình tiên phong của riêng bạn bằng Nova

Giới thiệu Amazon Nova 2 Omni trong bản Preview

Danilo & Donnie

Về tác giả

Donnie Prakoso

Donnie Prakoso
Donnie Prakoso là một kỹ sư phần mềm, một barista tự phong và là Principal Developer Advocate tại AWS. Với hơn 17 năm kinh nghiệm trong ngành công nghệ, từ viễn thông, ngân hàng đến các công ty khởi nghiệp. Hiện anh đang tập trung vào việc giúp các nhà phát triển hiểu rõ các loại công nghệ khác nhau để biến ý tưởng của họ thành hiện thực. Anh yêu thích cà phê và mọi cuộc thảo luận về bất kỳ chủ đề nào từ microservices đến AI/ML.

Danilo Poccia

Danilo Poccia
Danilo làm việc với các công ty khởi nghiệp và các công ty ở mọi quy mô để hỗ trợ sự đổi mới của họ. Trong vai trò Chief Evangelist (EMEA) tại Amazon Web Services, anh tận dụng kinh nghiệm của mình để giúp mọi người biến ý tưởng của họ thành hiện thực, tập trung vào kiến trúc serverless và lập trình hướng sự kiện, cũng như tác động kỹ thuật và kinh doanh của machine learning và điện toán biên. Anh là tác giả của cuốn sách AWS Lambda in Action từ nhà xuất bản Manning.

Leave a comment