Tác giả: Vince Palazzo, Raglin Anthony, Alen Zograbyan, và Chris Gillespie
Ngày đăng: Ngày 4 Tháng 4 Năm 2025
Danh mục: Amazon Bedrock, Amazon Machine Learning, Amazon Nova, Artificial Intelligence, Data Science & Analytics for Media, Featured, Industries, Media & Entertainment Permalink Share
Chuyển đổi việc tuân thủ nội dung từ nút thắt cổ chai thành lợi thế cạnh tranh. Tìm hiểu cách các tổ chức truyền thông có thể rút ngắn thời gian xem xét nội dung bằng Amazon Bedrock và các mô hình nền tảng Amazon Nova. Tự động hóa phân tích nội dung trên nhiều hệ thống đánh giá đồng thời vẫn duy trì độ chính xác và giảm chi phí.
Giới thiệu
Mỗi phút đều quan trọng trong môi trường phát trực tuyến cạnh tranh ngày nay. Khi thư viện nội dung mở rộng và thị trường quốc tế tăng lên, thách thức đảm bảo tuân thủ nội dung cũng gia tăng. Các nhóm nội dung phải đối mặt với:
- Khối lượng nội dung ngày càng tăng
- Hệ thống đánh giá ngày càng phức tạp và khác biệt giữa các khu vực
- Nhu cầu cấp bách phải duy trì độ chính xác trong khi đẩy nhanh thời gian ra mắt
Các nhân viên kiểm duyệt dành hàng giờ xem xét nội dung từng khung hình, xoay xở với nhiều hệ thống đánh giá và ghi chép kết quả — trong khi phải chạy đua với hạn chót phát hành. Cách tiếp cận này không chỉ tốn thời gian mà còn đắt đỏ, dễ thiếu nhất quán (prone to inconsistency), và ngày càng không bền vững khi khối lượng nội dung tăng lên.
Thế hệ mới của các mô hình AI sinh tạo bao gồm Amazon Nova, một thế hệ mô hình nền tảng tiên tiến, chỉ có trên Amazon Bedrock. Amazon Nova cung cấp các mô hình thấu hiểu (understanding models) có thể nhận đầu vào là văn bản, hình ảnh và video, và tạo ra đầu ra dạng văn bản.
Các mô hình mạnh mẽ này có thể được sử dụng để cải cách quy trình tuân thủ nội dung bằng cách đưa AI sinh tạo vào kiểm duyệt nội dung ở quy mô lớn. Sử dụng các mô hình này, chúng ta có thể:
- Tạo hệ thống kiểm duyệt nội dung thông minh có khả năng phân tích nội dung
- Tự động đánh dấu các vấn đề tiềm ẩn kèm mốc thời gian liên quan
- Thích ứng với nhiều hệ thống đánh giá cùng lúc
Các nhân viên kiểm duyệt sau đó có thể tập trung chuyên môn vào các trường hợp biên (edge cases) và các quyết định tinh vi thực sự cần sự phán đoán của con người.
Qua việc phân tích các video âm nhạc, chúng ta sẽ khám phá cách xây dựng hệ thống tuân thủ nội dung tự động này, xem xét kiến trúc kỹ thuật, các bước triển khai và lợi ích thực tiễn. Giải pháp này cung cấp một bản thiết kế để mở rộng tuân thủ nội dung, đồng thời giảm chi phí mà không ảnh hưởng đến độ chính xác hay tốc độ.
Hiểu rõ thách thức
Tuân thủ nội dung trong ngành truyền thông đã đạt đến một bước ngoặt (inflection point) quan trọng. Một số khách hàng quản lý thư viện hàng trăm nghìn giờ nội dung trên nhiều khu vực. Quy mô này khiến việc xem xét thủ công từng khung hình trở nên ngày càng không khả thi.
Phức tạp hơn là sự gia tăng các hệ thống đánh giá và tiêu chuẩn nội dung trên toàn thế giới. Các nhà cung cấp nội dung phải đồng thời điều hướng nhiều khung xếp hạng (frameworks). Mỗi hệ thống có các tiêu chí tinh vi, cân nhắc văn hóa và yêu cầu tuân thủ riêng, tạo nên một thách thức đa chiều cho các nhóm nội dung.
Các nhân viên kiểm duyệt, dù có chuyên môn, vẫn đối mặt với những giới hạn cố hữu. Việc duy trì sự nhất quán trong các phiên đánh giá dài trở nên khó khăn, và mệt mỏi có thể ảnh hưởng đến phán đoán, đặc biệt khi xử lý nội dung nhạy cảm hoặc gây khó chịu (challenging). Tác động tâm lý của việc tiếp xúc liên tục với nội dung có thể gây lo ngại về sức khỏe tinh thần (wellbeing) của người đánh giá.
Hệ quả tài chính của việc duy trì quy trình kiểm duyệt hoàn toàn thủ công cũng đáng kể. Ngoài chi phí lao động trực tiếp, thời gian cần thiết cho việc xem xét thủ công toàn diện có thể trì hoãn phát hành nội dung, ảnh hưởng đến doanh thu và khả năng cạnh tranh trên thị trường. Với các tổ chức mở rộng sang thị trường mới, việc tăng quy mô đội ngũ kiểm duyệt thủ công cho từng thị trường trở nên tốn kém quá mức.
Những thách thức này tạo ra một nhu cầu cấp thiết cho sự chuyển đổi. Các tổ chức truyền thông cần một giải pháp có thể:
- Xử lý khối lượng nội dung lớn hiệu quả và nhất quán
- Thích ứng đồng thời với nhiều hệ thống đánh giá
- Hỗ trợ nhân viên kiểm duyệt thay vì thay thế họ
- Giảm chi phí vận hành trong khi duy trì hoặc cải thiện độ chính xác
Đây là nơi sự kết hợp giữa các mô hình nền tảng Amazon Nova và Amazon Bedrock tạo ra một hướng đi khả thi, cho phép tiếp cận lai, khuếch đại chuyên môn con người với khả năng AI sinh tạo.
Tổng quan giải pháp

Hình 1: Sơ đồ kiến trúc cho tuân thủ nội dung sử dụng Amazon Nova
Các thành phần chính của giải pháp:
- Amazon Bedrock: Cung cấp quyền truy cập các mô hình nền tảng hàng đầu thông qua một API duy nhất, cho phép phát triển linh hoạt các ứng dụng AI sinh tạo.
- Amazon Nova Lite và Amazon Nova Pro là các mô hình thấu hiểu đa phương tiện (multimodal understanding models), hỗ trợ cửa sổ ngữ cảnh 300k và phân tích video, tài liệu, hình ảnh, lý tưởng cho phân tích nội dung toàn diện. Các mô hình Nova hiểu các hệ thống phân loại nội dung công khai để tạo phân tích tuân thủ.
- Các mô hình thị giác máy tính (computer vision) truyền thống, như Amazon Rekognition, được sử dụng cho phân loại hình ảnh, nhận dạng nhãn, phân đoạn đối tượng (object segmentation), nhận diện văn bản, nhận diện khuôn mặt và kiểm duyệt nội dung. Tuy mạnh trong các tác vụ riêng lẻ, chúng ta sẽ dùng mô hình nền tảng (FM) để hiểu sâu video và hình ảnh, có khả năng xử lý nhiều tác vụ chỉ trong một lần gọi (in a single shot) và cho phép tạo prompt đa mục đích hiểu các hệ thống phân loại nội dung.
Ở Bước 1, chúng ta truyền vào video âm nhạc (video), lời bài hát đi kèm (tài liệu văn bản), và một câu lệnh prompt được soạn kỹ lưỡng với các hệ thống xếp hạng và phân loại tuân thủ cần thiết (văn bản). Amazon Nova xử lý yêu cầu với độ trễ thấp (low latency), và trả về một phân tích tuân thủ kèm điểm tin cậy (confidence scores). Chúng ta chuyển đổi phân tích tuân thủ này sang một báo cáo chuẩn, và dùng nó để quyết định xem có cần phân tích sâu hơn từng khung hình (Bước 2) hay không.
Bước 1: Phân tích cấp độ video (Video level analysis) bằng Amazon Nova
Để đạt độ chính xác cao hơn trong việc hiểu video, cả video và âm thanh cần được cung cấp làm ngữ cảnh cho mô hình. Các mô hình hiểu đa phương tiện Amazon Nova hiện yêu cầu bản chép lời (transcript) âm thanh được truyền riêng với video. Nếu bản chép lời không có sẵn… Amazon Transcribe có thể được dùng để cung cấp bản chép lời (transcription). Amazon Transcribe là dịch vụ nhận diện giọng nói tự động được quản lý toàn phần (fully managed), cung cấp bản transcript với độ chính xác cao.
Trong ví dụ prompt tiếp theo, chúng ta dùng API Converse của Amazon Bedrock để truyền video và transcript tới Amazon Nova, nhằm đánh giá tuân thủ theo các hệ thống đánh giá khu vực khác nhau. Đồng thời, sẽ thực hiện phân tích kiểm duyệt nội dung tổng quát và tạo bản tóm tắt tổng quan (executive summary):
Analyze the attached video and lyrics. Provide a detailed analysis including:
Content Rating Analysis:
1. Region A Rating Assessment
- Suggested rating (Adult 18+, Teen 13+, Child 7+, General)
- Confidence score (0-100%)
- Justification for rating
- Content elements influencing rating
2. Region B Rating Assessment
- Suggested rating (Mature, Youth, Family, All Ages)
- Confidence score (0-100%)
- Key Classification issues
- Content advisories
3. Region C Rating Assessment
- Suggested rating (Restricted, Teen+, Child+, Universal)
- Confidence score (0-100%)
- Content warnings required
- Justification for rating
4. Content Moderation Flags
- Violence
- Adult Content
- Hate Speech
- Self-Harm
- Profanity
- Drug Reference
- Alcohol Reference
(Include confidence score for each flag)
Content Analysis:
5. Theme and Messaging
6. Visual Content Assessment
7. Lyrical Content Analysis
8. Target Audience
9. Potentially Sensitive Content Areas
Format the ratings and flags with confidence scores in the response.
Provide a brief executive summary (2-3 sentences) of the overall content analysis and rating recommendation.`
Một ví dụ về phản hồi có thể được xem như sau. Phản hồi cho thấy Amazon Nova đã thực hiện đánh giá và phát hiện các vấn đề cần lưu ý về tuân thủ. Nó cũng cung cấp các cờ kiểm duyệt nội dung kèm điểm độ tin cậy và bản tóm tắt điều hành.
Content Rating Analysis:
1. Region A Rating Assessment:
Suggested rating: Adult 18+
Confidence score: 95%
Justification for rating: The video contains profanity, suggestive themes, references to alcohol and drug use, and some suggestive content. The lyrical content includes themes of crime, drinking, and struggle, which are not suitable for younger audiences.
Content elements influencing rating:
- Profanity (Confidence score: 90%)
- References to alcohol and drug use (Confidence score: 75%)
2. Region B Rating Assessment:
Suggested rating: Mature
Confidence score: 90%
Key classification issues: The video includes explicit language, and references to alcohol and drug use, which are not suitable for a younger audience
Content advisories: Viewer discretion advised for mature themes
3. Region C Rating Assessment:
Suggested rating: Teen+
Confidence score: 85%
Key classification issues: The video includes explicit language and references to alcohol and drug use, which may not be suitable for younger teens.
4. Content Moderation Flags:
- Violence: 10%
Depictions of violence in the video and lyrics.
- Adult Content: 60%
References to sexual content and mature themes.
- Hate Speech: 10%
No direct hate speech, but some lyrics may be interpreted as aggressive.
- Self-Harm: 5%
Indirect references to personal struggles and loss.
- Profanity: 80%
Frequent use of explicit language in the lyrics.
- Drug Reference: 75%
References to drug use and dealing in the lyrics.
- Alcohol Reference: 80%
References to partying and nightlife, including drinking alcohol.
Content Analysis:
5. Theme and Messaging: The video revolves around themes of betrayal, blame, and the consequences of reckless behavior. The lyrics suggest a narrative of mutual involvement in wrongdoing and the fallout from it.
6. Visual Content Assessment: The visuals are dark and moody, with flashing lights and silhouettes that enhance the dramatic and intense atmosphere of the content.
7. Lyrical Content Analysis: The lyrics contain strong language, references to alcohol and drug use, and suggest a narrative of mutual blame and involvement in wrongdoing.
8. Target Audience: The target audience is likely adults, given the mature themes and language. The content may not be suitable for younger viewers.
9. Potentially Sensitive Content Areas:
- References to drug use and alcohol consumption.
- Strong language.
- Suggestive themes.
Executive Summary:
The video contains strong language, references to drug and alcohol use, and suggestive themes. It carries a medium risk for brand safety and requires appropriate warnings and restrictions for broadcast. The content is likely to cause offense and is best suited for an adult audience.
Kết quả phân tích có thể được xuất dưới định dạng JSON, sau đó có thể được phân tách (parsed) để tạo báo cáo tuân thủ sử dụng trong tổ chức của bạn.

Hình 2: Đầu ra JSON từ Phân tích Cấp độ Video (Video Level Analysis).
Dưới đây là một ví dụ về báo cáo tuân thủ được tạo ra bằng cách phân tích file JSON:

Hình 3: Kết quả từ Phân tích Cấp độ Video (Video Level Analysis).
Nếu bất kỳ cờ nào vượt ngưỡng cho phép, phân tích chi tiết theo khung hình có thể được kích hoạt như bước phụ.
Bước 2: Phân tích cấp độ khung hình (Frame level analysis) bằng Amazon Nova
Giai đoạn này chỉ được thực hiện khi cần, để khám phá sâu hơn các vấn đề tuân thủ phát hiện ở giai đoạn trước. Với mỗi khung hình được phân tích, chúng ta có thể tạo phân tích timeline, hiển thị chuỗi thời gian và phân tích chi tiết các sự kiện tuân thủ cụ thể.
Phân tích khung hình từng bước gồm hai bước:
- Trích xuất khung hình từ video theo tần số nhất định, ví dụ: dùng AWS Elemental MediaConvert để trích xuất một khung hình mỗi giây.
- Đối với mỗi khung hình trích xuất:
- Bỏ qua khung hình nếu quá giống khung hình trước đó. Một cách đánh giá là dùng hàm băm nhận thức (perceptual hashing) giữa các khung hình, giúp giảm chi phí.
- Phân tích khung hình để phát hiện các cờ kiểm duyệt.
Sử dụng prompt sau, kèm theo việc truyền hình ảnh khung hình đến Amazon Nova:
You are an expert content moderator. Analyze the image for:
- Violence or graphic content
- Adult or inappropriate content
- Hate or offensive symbols
- Self-harm indicators
- Drug or alcohol references
Provide detailed analysis with confidence scores.
Mốc thời gian của bất kỳ vấn đề kiểm duyệt nào có thể được tính bằng cách biết tần số trích xuất khung hình và số khung hình đã xử lý trong chuỗi. Các cờ và mốc thời gian có thể được tổng hợp để tạo phân tích timeline, hiển thị chuỗi thời gian của các sự kiện tuân thủ cụ thể.

Hình 4: Đầu ra JSON từ Phân tích Cấp độ Khung hình (Frame Level Analysis).
Dưới đây (Hình 5) là một ví dụ về báo cáo tuân thủ được tạo ra bằng cách phân tích file JSON của phân tích timeline.

Hình 5: Kết quả từ Phân tích Cấp độ Khung hình (Frame Level Analysis).
Lợi ích và kết quả
Video âm nhạc đặt ra các thách thức riêng cho việc xem xét nội dung do nhịp độ nhanh, nhiều chủ đề và yếu tố hình ảnh phức tạp. Video âm nhạc có nhịp độ nhanh với các cảnh thay đổi liên tục, có thể trình bày nhiều chủ đề trong thời gian ngắn, và mang sức mạnh hình ảnh. Những yếu tố này làm cho việc kiểm duyệt thủ công dễ mắc lỗi hơn.
Chúng tôi đã thử nghiệm khả năng hiểu hình ảnh của Amazon Nova Lite và Amazon Nova Pro với các video âm nhạc theo các tiêu chuẩn đánh giá khu vực. Có nhiều biến số ảnh hưởng đến kết quả, và phân tích này mang tính định hướng (directional), không mang tính tuyệt đối. Chúng tôi khuyến nghị bạn chạy thử nghiệm trên nội dung cụ thể của mình.
Những quan sát chính:
- Cả hai mô hình Amazon Nova đều thể hiện sự thận trọng, đánh giá các hạng mục một cách bảo thủ
- Amazon Nova Pro cho thấy độ chính xác cao hơn trong việc phát hiện các yếu tố nội dung tinh vi
- Amazon Nova Lite đủ dùng cho các trường hợp tiêu chuẩn với độ chính xác trên 83%
- Nova Lite phù hợp với nhiều trường hợp thử nghiệm, nhưng trong một số trường hợp, Nova Pro cung cấp mô tả chi tiết hơn về cảnh (mà không cần prompt yêu cầu). Nên cân nhắc dùng Nova Pro khi cần chi tiết về:
- Biểu cảm khuôn mặt
- Phân tích cốt truyện hoặc chủ đề nâng cao
- Hiểu biết không gian
- Vị trí cụ thể của đối tượng
Một số yếu tố mà kiểm duyệt viên con người có thể bỏ sót:
- Đèn nhấp nháy nhanh
- Một số chủ đề tự gây hại
- Hơi khỏa thân ở nền do mờ mạnh ở các khu vực ngoài tiêu cự
- Nội dung gợi ý hiển thị trên hình xăm
Các thực hành tốt và cân nhắc:
Khi triển khai tự động hóa tuân thủ nội dung với các mô hình Amazon Nova, tổ chức nên cân nhắc tối ưu chi phí và hiệu suất. Thử nghiệm cho thấy phân tích một video âm nhạc bốn phút bằng Nova Lite sử dụng 76.497 token đầu vào (input tokens) và 496 token đầu ra (output tokens), chi phí khoảng $0.0047 theo mức giá hiện tại. Cách tiếp cận ba giai đoạn (chuẩn bị nội dung, phân tích video, phân tích khung hình) cho phép mở rộng độc lập và giải quyết vấn đề cụ thể mà không gián đoạn toàn bộ workflow.
Để đạt hiệu quả tối đa, các câu lệnh prompt (prompts) nên được cấu trúc theo phân cấp (hierarchically) với các hạng mục rõ ràng và ví dụ cụ thể, nội dung đa phương tiện (media content) được trình bày trước hướng dẫn phân tích. Tham khảo Prompting best practices for Amazon Nova understanding models để biết thêm chi tiết.
Các tổ chức nên sử dụng Amazon Bedrock Prompt Management để kiểm soát phiên bản (version control). Nên triển khai quy trình có sự tham gia của con người (human-in-the-loop) cho nội dung trong ngưỡng độ tin cậy cụ thể, đồng thời bao gồm cơ chế phản hồi để người kiểm duyệt sửa các quyết định AI và xây dựng các bộ dữ liệu (datasets) giá trị cho các cải tiến trong tương lai. Đánh giá hiệu suất định kỳ và các chỉ số tự động sẽ hỗ trợ tinh chỉnh prompt, cho phép cập nhật nhanh mà không phụ thuộc vào ứng dụng.
Bằng cách tuân theo các thực hành tốt này, tổ chức có thể tối ưu hóa tự động hóa tuân thủ nội dung, đảm bảo hoạt động hiệu quả, chính xác, tiết kiệm chi phí và vẫn linh hoạt thích ứng với yêu cầu thay đổi.
Kết luận
Sử dụng các mô hình nền tảng Amazon Nova và Amazon Bedrock cho workflow tuân thủ nội dung đại diện cho một sự thay đổi mô hình (paradigm shift) đối với các tổ chức truyền thông. Cách tiếp cận dựa trên AI sinh tạo này không chỉ giải quyết các thách thức về quy mô, độ phức tạp và chi phí, mà còn giúp các nhóm nội dung phát triển trong môi trường toàn cầu và giàu nội dung.
Các tổ chức có thể kỳ vọng thời gian xem xét nội dung nhanh hơn, các xếp hạng nhất quán, và tiết kiệm chi phí đáng kể.
Bắt đầu bằng việc đánh giá quy trình công việc (workflow) hiện tại và triển khai bằng chứng khái niệm (proof of concept – PoC) trước khi mở rộng triển khai toàn bộ (full deployment).
Sẵn sàng biến đổi workflow tuân thủ nội dung? Liên hệ đại diện AWS để biết cách chúng tôi có thể giúp tăng tốc kinh doanh của bạn.
Tham khảo thêm các trường hợp sử dụng ngành truyền thông và giải trí:
- Kênh blog AWS M&E
- Tìm kiếm ngữ nghĩa video với AI trên AWS
- Thực hành tốt khi prompt phân tích video
- Tổng quan mô hình nền tảng Amazon Nova
- Giải pháp AWS Media & Entertainment
Vince Palazzo

Vince Palazzo là Kiến trúc sư Giải pháp Chính tại Amazon Web Services. Ông tập trung hỗ trợ các khách hàng doanh nghiệp trong ngành Truyền thông và Giải trí xây dựng và vận hành các tải công việc (workloads) một cách an toàn trên AWS.
Raglin Anthony

Raglin Anthony là Kiến trúc sư Giải pháp Chuyên gia (Specialist Solutions Architect). Anh làm việc trong ngành Truyền thông và Giải trí, tập trung vào các mô hình kiến trúc, triển khai theo thực hành tốt nhất, và hỗ trợ khách hàng với các tải công việc (workloads) dựa trên container.
Alen Zograbyan

Alen Zograbyan là Kiến trúc sư Giải pháp Cao cấp tại Amazon Web Services. Hiện anh phục vụ các khách hàng trong ngành Truyền thông và Giải trí, với chuyên môn về kỹ thuật phần mềm, DevOps, bảo mật và AI/ML.
Chris Gillespie

Chris Gillespie là Kiến trúc sư Giải pháp Cao cấp tại AWS. Anh chủ yếu làm việc với các khách hàng phát triển nhanh, thuần đám mây (“born in the cloud”).