Tự động hoá dịch và chuẩn hoá tài liệu với Amazon Bedrock và Amazon Translate

Tác giả: Nadhya Polanco và Steve Bell | Ngày 1/5/2025

Thể loại: Advanced (300)Amazon BedrockAmazon TranslateCustomer Solutions

Các tổ chức đa quốc gia (multinational organizations) đối mặt với thách thức phức tạp khi phải quản lý lực lượng lao động và vận hành trên nhiều quốc gia, nền văn hoá, và ngôn ngữ khác nhau. Việc giữ cho các hoạt động toàn cầu luôn nhất quán và đồng bộ có thể rất khó, đặc biệt khi cần cập nhật và chia sẻ tài liệu hoặc các quy trình kinh doanh. Những chậm trễ hay hiểu nhầm có thể gây tổn thất về năng suất, bất cập trong vận hành hoặc thậm chí gián đoạn kinh doanh. Việc cung cấp kịp thời các bản dịch chính xác tài liệu trong tổ chức là bước quan trọng để đảm bảo nhân viên truy cập được thông tin mới nhất trong ngôn ngữ của họ.

Trong bài này, chúng tôi trình bày cách bạn có thể tự động hoá bản địa hóa ngôn ngữ (localization) tài liệu bằng AWS. Giải pháp kết hợp Amazon Bedrock và các dịch vụ serverless của AWS — tức các dịch vụ được quản lý đầy đủ, kích hoạt theo sự kiện — cho phép chạy mã, quản lý dữ liệu và tích hợp ứng dụng mà không cần quản lý máy chủ. Amazon Bedrock là dịch vụ được quản lý toàn phần, cung cấp lựa chọn các foundation model (FM) hiệu năng cao từ các nhà cung cấp như AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI. Amazon Bedrock truy cập qua một API duy nhất, và đi kèm một tập hợp năng lực cần thiết để xây dựng ứng dụng AI generative với các đảm bảo về bảo mật, quyền riêng tư và AI có trách nhiệm.

Tổng quan giải pháp (Solution overview)

Giải pháp dùng AWS Step Functions để điều phối (orchestrate) quy trình dịch tài liệu nguồn sang ngôn ngữ đích (ví dụ: tiếng Anh, tiếng Pháp hoặc tiếng Tây Ban Nha) thông qua các hàm AWS Lambda gọi API Amazon Translate. (Lưu ý: Amazon Translate hiện hỗ trợ dịch 75 ngôn ngữ, và trong bản demo này chọn 3 ngôn ngữ để minh họa.) Sau đó, sử dụng Amazon Bedrock để “tinh chỉnh” (refine) bản dịch, tạo nội dung tự nhiên, mạch lạc hơn.

Việc xây dựng giải pháp này — như trong sơ đồ kiến trúc trong bài gốc — trên nền tảng các dịch vụ AWS serverless và fully managed giúp loại bỏ nhu cầu tự vận hành hạ tầng, quản lý công suất hoặc đầu tư vốn ban đầu lớn để đánh giá lợi ích. Các dịch vụ compute và AI dùng để xử lý tài liệu chỉ hoạt động theo yêu cầu (on-demand), dẫn tới mô hình thanh toán theo mức sử dụng (consumption-based billing).

Quy trình dịch và chuẩn hoá tài liệu (document translation & standardization workflow) gồm các bước sau:

  1. Người dùng upload tài liệu nguồn cần dịch vào bucket S3 đầu vào (input S3 bucket). Bucket này có ba thư mục con: English, French, Spanish. Người dùng đặt tài liệu vào thư mục tương ứng với ngôn ngữ hiện tại của tài liệu. Upload có thể qua AWS Console, AWS CLI hoặc công cụ bên ngoài cho phép thao tác như hệ thống file.
  2. Sự xuất hiện tài liệu mới (new object) trong bucket input kích hoạt workflow Step Functions thông qua S3 Event Notifications.
  3. Bước đầu trong workflow là một hàm Lambda: nó lấy tài liệu nguồn từ S3, lưu tạm (temp storage), và gọi API TranslateDocument của Amazon Translate, chỉ định tài liệu nguồn là mục tiêu để dịch.
  4. Bước kế tiếp là một lambda khác gửi bản dịch đã có vào Amazon Bedrock, cùng prompt được dựng sẵn, với bản dịch đính kèm. Prompt này yêu cầu Bedrock thực hiện việc kiểm tra “transcreation” (tức kiểm tra/adapt lại bản dịch) để đảm bảo ý định, phong cách, và tông (tone) của tài liệu được giữ. Bản dịch cuối cùng được lưu vào bucket S3 đầu ra (output).
  5. Bước cuối của workflow dùng Amazon Simple Notification Service (SNS) để thông báo kết quả workflow (thành công hay thất bại). Thông báo gửi tới chủ đề SNS, từ đó gửi email tới các subscriber.
  6. Người dùng tải bản dịch cuối từ bucket output (qua Console, CLI hoặc công cụ tương tự).

Giải pháp này đi kèm mã triển khai bằng AWS Cloud Development Kit (CDK) đặt sẵn trên GitHub, để bạn có thể deploy trong tài khoản AWS của mình. CDK là framework mã nguồn mở để định nghĩa hạ tầng như mã (Infrastructure as Code — IaC) và provision qua CloudFormation, giúp tự động hoá việc triển khai. 

Yêu cầu trước khi bắt đầu (Prerequisites)

Trước khi bạn thực thi hướng dẫn, cần có:

  • Tài khoản AWS để deploy giải pháp.
  • IAM role trong tài khoản với quyền đủ để tạo các tài nguyên cần thiết. Nếu bạn đã có quyền administrator, không cần thao tác thêm.
  • AWS CDK (trên máy local hoặc môi trường Cloud9).
  • Python 3.9 hoặc mới hơn.
  • Docker, nếu mã triển khai yêu cầu môi trường container.

Các bước triển khai (Deployment steps)

  1. Mở editor bạn ưa thích, xác thực (authenticate) vào tài khoản AWS của bạn. Hướng dẫn liên kết với Visual Studio Code có trong tài liệu AWS.

Clone repository từ GitHub:

git clone https://github.com/aws-samples/sample-document-standardization-with-bedrock-and-translate.git
  1. Làm theo hướng dẫn triển khai trong file README của repository.
  2. Khi stack đã deploy xong, vào console S3, tìm bucket được tạo (ví dụ: docstandardizationstack-inputbucket). Upload file mẫu word_template.docx (có sẵn trong repo). Các thư mục English / French / Spanish sẽ tự động được tạo.
  1. Vào console SNS (Simple Notification Service), tạo subscription tới topic DocStandardizationStack-ResultTopic mà stack đã tạo. Sau khi tạo, bạn phải xác nhận subscription qua link xác nhận được gửi email.
  1. Khi subscription được xác nhận, bạn có thể thử workflow bằng cách upload file .docx vào thư mục tương ứng với ngôn ngữ gốc.

Dịch ngôn ngữ (Language translation)

Để kiểm thử workflow, bạn upload một file .docx vào thư mục tương ứng ngôn ngữ gốc (English, French, hoặc Spanish). Ví dụ: nếu tài liệu gốc là tiếng Anh, upload vào thư mục “English”. Nếu bạn không có file .docx, bạn có thể sử dụng file mẫu tone_test.docx có trong repository. 

Khi tài liệu được upload, state machine Step Functions được kích hoạt. Các phiên bản dịch của tài liệu nguồn được tạo và đặt trong các thư mục tương ứng trong bucket output. Trong ví dụ bài viết, khi upload tài liệu tiếng Anh, hệ thống sẽ dịch sang Tây Ban Nha và Pháp. 

Quá trình “Transcreation” (Transcreation process)

Các bản dịch sau đó được xử lý bằng Amazon Bedrock. Bedrock xem xét mục đích, phong cách, tông giọng của tài liệu để đảm bảo tài liệu có thể dùng trong ngữ cảnh doanh nghiệp. Bạn có thể tinh chỉnh tone và phong cách đầu ra bằng cách sửa prompt gửi tới Bedrock để phù hợp với yêu cầu cụ thể của bạn.

Phiên bản cuối của tài liệu được lưu trong bucket output với hậu tố _corrected, và mỗi tài liệu được đặt trong thư mục ngôn ngữ tương ứng. Bucket output có cấu trúc thư mục giống bucket input, tức mỗi ngôn ngữ có thư mục riêng.

Prompt dùng để chỉ dẫn mô hình AI thực hiện nhiệm vụ transcreation được thiết kế để tạo ra các hiệu chỉnh nhất quán và hợp lý. Prompt này bao gồm chỉ dẫn loại thay đổi nào mô hình nên thực hiện, và ranh giới (boundaries) kiểm soát mức độ điều chỉnh. Bạn có thể tùy chỉnh prompt nếu muốn thay đổi kết quả. 

Khi các tài liệu đã xử lý xong, bạn sẽ nhận được thông báo qua SNS. Sau đó bạn có thể download các tài liệu đã hiệu chỉnh từ bucket output (ví dụ bucket DocStandardizationStack-OutputBucket). 

Dọn dẹp (Clean up)

Nếu bạn muốn tháo gỡ (teardown) các tài nguyên đã triển khai:

  • Chạy lệnh cdk destroy trong terminal.
  • Hoặc dùng giao diện CloudFormation để xóa stack DocStandardizationStack.

Kết luận (Conclusion)

Trong bài viết này, chúng ta đã khảo sát cách tự động hoá việc dịch tài liệu kinh doanh bằng cách kết hợp AI và công nghệ serverless AWS. Với quy trình này, các công ty có thể cải thiện giao tiếp, đồng bộ và tính nhất quán trên quy mô toàn cầu, đảm bảo nhân viên truy cập được thông tin cần khi cần. Khi tổ chức mở rộng phạm vi toàn cầu, những công cụ như thế này càng trở nên cần thiết để duy trì lực lượng làm việc liên kết và thông hiểu, bất kể vị trí địa lý. Bằng cách tận dụng khả năng của AWS, các doanh nghiệp có thể tập trung vào nhiệm vụ cốt lõi mà không cần quản lý thêm gánh nặng hạ tầng IT.

Về tác giả

Nadhya Polanco là Associate Solutions Architect tại AWS trụ sở tại Brussels, Bỉ. Trên vai trò này, cô đã tổ hỗ trợ các tổ chức đang tìm kiếm kết hợp AI và Machine Learning trong công việc. Trong thời gian rảnh Nadhya thích đắm mình trong niềm đam mê cà phê và khám phá những điểm đến mới.

Steve Bell là Kiến trúc sư giải pháp cấp cao tại AWS có trụ sở tại Amsterdam, Hà Lan. Ông giúp các tổ chức doanh nghiệp giải quyết sự phức tạp của quá trình di chuyển, hiện đại hóa và chiến lược đa đám mây. Ngoài công việc, anh ấy thích dắt chú chó labrador của mình đi dạo, Lily và rèn luyện kỹ năng BBQ nghiệp dư của mình.