Phá bỏ rào cản: AWS cách mạng hóa khả năng tiếp cận thông tin của các cơ quan liên bang cho người khiếm thị

Tác giả: Natti Swaminathan và Sri Gudavalli
Ngày đăng: 29 tháng 4 năm 2025
Chủ đề: Accessibility, Amazon DynamoDB, Amazon Polly, Amazon Simple Queue Service (SQS), Amazon Simple Storage Service (S3), Amazon Textract, AWS Lambda, AWS Step Functions, Customer Solutions, Government, Public Sector

Hơn 7,2 triệu người Mỹ khiếm thị gặp rào cản trong việc tiếp cận thông tin quan trọng của chính phủ. Đảm bảo khả năng tiếp cận bình đẳng với các thông tin liên lạc công cộng là yêu cầu pháp lý và dịch vụ thiết yếu. AWS hỗ trợ các cơ quan liên bang cung cấp thông tin liên lạc dễ tiếp cận thông qua giải pháp chuyển đổi tài liệu thành giọng nói tự động. Giải pháp này kết hợp Amazon Simple Storage Service (Amazon S3), Amazon Textract và Amazon Polly để chuyển đổi tài liệu văn bản của chính phủ thành nội dung âm thanh chất lượng cao.

Khi các cơ quan tải tài liệu lên Amazon S3, Amazon Textract trích xuất văn bản, và Amazon Polly chuyển đổi văn bản đó thành giọng nói tự nhiên. Quá trình tự động này đảm bảo quyền riêng tư của tài liệu, đồng thời cho phép người khiếm thị tiếp cận thông tin quan trọng một cách độc lập. Bài viết này sẽ trình bày giải pháp đáp ứng ba nhu cầu thiết yếu: tuân thủ quy định về khả năng tiếp cận, cải thiện dịch vụ cho người khiếm thị và sử dụng hiệu quả nguồn lực của cơ quan.

Các cơ quan liên bang có thể triển khai giải pháp này để đáp ứng yêu cầu pháp lý về khả năng tiếp cận, phục vụ công dân hiệu quả hơn, giảm chi phí xử lý thủ công và mở rộng quy mô dịch vụ tiếp cận. Tài liệu này phác thảo kiến trúc kỹ thuật, cách tiếp cận triển khai và kết quả kỳ vọng khi sử dụng các dịch vụ AWS để triển khai chuyển đổi tài liệu thành giọng nói tự động.

Dịch vụ AWS hỗ trợ triển khai khả năng tiếp cận

Giải pháp được trình bày trong bài viết này sử dụng các dịch vụ AWS để tự động hóa xử lý và cung cấp tài liệu. Amazon S3 lưu trữ và quản lý các tài liệu nguồn, trong khi AWS Lambda xử lý tài liệu và điều phối tương tác giữa các dịch vụ trong quy trình làm việc. Amazon Textract trích xuất văn bản từ tài liệu, và Amazon Polly chuyển đổi văn bản này thành giọng nói tự nhiên.AWS Step Functions quản lý việc điều phối quy trình làm việc, với Amazon Simple Queue Service (Amazon SQS) xử lý hàng đợi tin nhắn để đảm bảo xử lý đáng tin cậy. Amazon DynamoDB theo dõi trạng thái tài liệu và siêu dữ liệu trong suốt quá trình. Cuối cùng, Amazon Connect cung cấp nội dung âm thanh đến công dân.

Kiến trúc này giúp giao tiếp của chính phủ trở nên dễ tiếp cận thông qua chuyển đổi văn bản thành giọng nói tự động, từ đó cải thiện việc cung cấp dịch vụ cho tất cả công dân.

Kiến trúc

Hình minh họa sau đây mô tả một quy trình làm việc không máy chủ, trong đó các tài liệu văn bản được xử lý bởi nhiều dịch vụ AWS. Tài liệu được lưu trữ trong Amazon S3 kích hoạt một quy trình xử lý, sử dụng AWS Step Functions để điều phối Amazon Textract thực hiện trích xuất văn bản và Amazon Polly chuyển đổi văn bản thành giọng nói. Amazon Connect cung cấp giao diện để công dân truy cập nội dung âm thanh, trong khi Amazon DynamoDB theo dõi trạng thái xử lý của tài liệu.

Hình 1. Sơ đồ kiến trúc của giải pháp

Luồng hoạt động của kiến trúc

Giải pháp tiếp cận của chúng tôi xử lý tài liệu thông qua luồng hoạt động sau:

Các cơ quan liên bang tải lên các thông báo PDF vào Amazon S3, kích hoạt xử lý ngay lập tức. Amazon S3 triển khai tính năng versioning và mã hóa phía máy chủ, với các chính sách IAM hạn chế quyền truy cập bucket.
Một hàm AWS Lambda, được kích hoạt bởi thông báo sự kiện từ S3, xử lý metadata của tài liệu bằng các thư viện xử lý PDF tiêu chuẩn. Nó tạo một mục trong DynamoDB với trạng thái “RECEIVED” và ID duy nhất, sau đó định tuyến thông tin chi tiết của tài liệu đến một hàng đợi Amazon SQS.
AWS Step Functions xử lý các tài liệu theo lô 200 tài liệu hoặc sau 5 phút thông qua một Map state, cho phép xử lý tối đa 200 tài liệu đồng thời.
AWS Step Functions gọi API bất đồng bộ của Amazon Textract để trích xuất văn bản, biểu mẫu và bảng từ các tệp PDF, đồng thời thu thập thông tin không gian và điểm độ tin cậy. Amazon Textract gửi thông báo hoàn tất thông qua SNS.
Một hàm AWS Lambda xử lý văn bản đã được trích xuất bằng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP), phát hiện ranh giới câu, các thực thể được đặt tên và chuẩn hóa văn bản. Nó áp dụng các quy tắc thuật ngữ cụ thể của chính phủ, lưu trữ văn bản đã xử lý trong Amazon S3 và cập nhật trạng thái trong Amazon DynamoDB thành “PROCESSED.”
AWS Step Functions gửi văn bản đã xử lý với các thẻ SSML (Speech Synthesis Markup Language) đến Amazon Polly. SSML nâng cao chất lượng đầu ra âm thanh bằng cách kiểm soát các khía cạnh như cách phát âm, âm lượng, cao độ và tốc độ, tạo ra giọng nói tự nhiên hơn.Ví dụ, SSML có thể xử lý chính xác các từ viết tắt, con số và các thuật ngữ chuyên ngành của chính phủ. Hệ thống tạo ra tệp MP3 24kHz bằng các giọng nói neural TTS được khớp với ngôn ngữ và nội dung của tài liệu.
Hệ thống lưu trữ các tệp âm thanh trong một bucket Amazon S3 được tối ưu hóa cho việc đọc, sử dụng ID tài liệu, cập nhật trạng thái Amazon DynamoDB thành “AUDIO_READY”, và phát tín hiệu sẵn sàng thông qua SQS.
Amazon Connect truy xuất danh sách người nhận từ Amazon DynamoDB và tạo các luồng cuộc gọi, xử lý tín hiệu bận, hộp thư thoại và lỗi, trong khi vẫn tôn trọng múi giờ.
Amazon Connect thực hiện các cuộc gọi đi bằng ID hiển thị của cơ quan chính phủ, phát trực tiếp các tệp âm thanh từ S3 đến người nhận. Người nhận có thể điều khiển phát lại bằng các phím trên điện thoại.
Amazon Connect ghi lại kết quả vào DynamoDB, đánh dấu các lần gửi thành công là “DELIVERED”. Đối với các lỗi, Lambda phân tích nguyên nhân và lên lịch thử lại bằng cách sử dụng cơ chế exponential backoff.

Kết luận

Giải pháp được trình bày trong bài viết này sử dụng các dịch vụ AWS để cải thiện khả năng tiếp cận thông tin liên lạc của chính phủ và đáp ứng các yêu cầu tiếp cận của liên bang. Kiến trúc không máy chủ tự động hóa việc chuyển đổi tài liệu thành giọng nói và cung cấp thông tin cho công dân khiếm thị. Các tính năng chính của giải pháp bao gồm xử lý tài liệu an toàn, chuyển đổi văn bản thành giọng nói và theo dõi quá trình phân phối. Giải pháp mang lại giá trị đồng thời duy trì tính linh hoạt để thích ứng với nhu cầu của cơ quan và phản hồi từ công dân.

Nhìn về tương lai, chúng tôi dự kiến khám phá các cải tiến để nâng cao chức năng của giải pháp, bao gồm:

Triển khai AWS X-Ray cho truy vết phân tán (distributed tracing), Amazon CloudWatch để giám sát toàn diện, và AWS CloudTrail để kiểm toán API (API auditing).
Tích hợp Amazon Comprehend để phân tích văn bản nâng cao và Amazon Translate để hỗ trợ khả năng đa ngôn ngữ.
Thêm bảng điều khiển Amazon CloudWatch, thẻ phân bổ chi phí và kiểm tra chất lượng âm thanh tự động để nâng cao khả năng quan sát và quản lý vận hành.

TAGS: accessibility, Amazon DynamoDB, Amazon Polly, Amazon S3, Amazon SQS, Amazon Textract, aws lambda, AWS Public Sector, AWS Step Functions, federal goverment, government.

Natti Swaminathan

Natti là kiến trúc sư giải pháp cấp cao trong nhóm phụ trách khu vực dân sự liên bang Hoa Kỳ tại AWS. Anh làm việc chặt chẽ với khách hàng để xây dựng và thiết kế các giải pháp có tính chất then chốt đối với nhiệm vụ. Natti có nhiều kinh nghiệm trong việc dẫn dắt, thiết kế và triển khai các giải pháp công nghệ có tác động lớn, đáp ứng đa dạng nhu cầu kinh doanh. Anh có bằng thạc sĩ ngành kỹ thuật điện và máy tính từ Đại học Wichita State và bằng MBA từ Đại học Bang North Carolina.

Sri Gudavalli

Sri là kiến trúc sư giải pháp tại AWS, chuyên về chuyển đổi hệ thống doanh nghiệp sang điện toán đám mây và triển khai trí tuệ nhân tạo sinh (generative AI). Anh hợp tác với các khách hàng doanh nghiệp trên toàn khu vực miền Đông nước Mỹ để thiết kế và triển khai các giải pháp gốc đám mây, tận dụng các dịch vụ tiên tiến của AWS như Amazon Bedrock, Amazon CodeWhisperer và các mô hình ngôn ngữ lớn. Chuyên môn của anh bao gồm di trú lên đám mây và hiện đại hóa ứng dụng, đồng thời anh hỗ trợ các tổ chức khai thác sức mạnh của AI sinh để thúc đẩy đổi mới và gia tăng giá trị kinh doanh.