Tác giả: Alex Burkleaux và James Wu
Ngày xuất bản: ngày 17 tháng 4 năm 2025
Danh mục: Amazon Bedrock, Artificial Intelligence, Data Science & Analytics for Media, Marketing & Advertising, Media & Entertainment
Quảng cáo theo ngữ cảnh, một chiến lược khớp quảng cáo với nội dung kỹ thuật số liên quan, đã biến đổi marketing kỹ thuật số bằng cách mang đến trải nghiệm cá nhân hóa cho người xem. Tuy nhiên, việc triển khai phương pháp này cho nội dung video theo yêu cầu (VOD) streaming đặt ra những thách thức đáng kể, đặc biệt trong việc đặt quảng cáo và tính liên quan. Các phương pháp truyền thống phụ thuộc nhiều vào phân tích nội dung thủ công. Ví dụ, một nhà phân tích nội dung có thể dành hàng giờ xem một bộ phim tình cảm, đặt ngắt quảng cáo ngay sau cảnh thú nhận đỉnh điểm, nhưng trước phần kết của câu chuyện. Sau đó, họ gắn thẻ nội dung thủ công với metadata như lãng mạn, cảm xúc, hoặc thân thiện với gia đình để xác minh việc khớp quảng cáo phù hợp. Mặc dù quy trình thủ công này giúp tạo ra trải nghiệm người xem liền mạch và duy trì tính liên quan của quảng cáo, nó chứng tỏ rất không thực tế ở quy mô lớn.
Những tiến bộ gần đây trong AI tổng quát, đặc biệt là các mô hình nền tảng đa phương thức (FM), thể hiện khả năng hiểu video nâng cao và cung cấp một giải pháp đầy hứa hẹn cho những thách thức này. Trước đây, chúng tôi đã khám phá tiềm năng này trong bài đăng Media2Cloud on AWS Guidance: Scene and ad-break detection and contextual understanding for advertising using generative AI, trong đó chúng tôi đã trình diễn quy trình làm việc tùy chỉnh bằng cách sử dụng Amazon Titan Multimodal embeddings G1 models và Anthropic’s Claude FMs từ Amazon Bedrock. Trong bài đăng này, chúng tôi sẽ giới thiệu một cách đơn giản hơn để xây dựng các giải pháp quảng cáo theo ngữ cảnh.
Amazon Bedrock Data Automation (BDA) là một tính năng được quản lý mới được hỗ trợ bởi FMs trong Amazon Bedrock. BDA trích xuất đầu ra có cấu trúc từ nội dung không có cấu trúc bao gồm tài liệu, hình ảnh, video và âm thanh đồng thời giảm bớt nhu cầu về các quy trình tùy chỉnh phức tạp. Trong bài viết này, chúng tôi trình diễn cách BDA tự động trích xuất thông tin chi tiết video phong phú như phân đoạn chương và phân đoạn âm thanh, phát hiện văn bản trong cảnh, và phân loại nội dung theo hệ thống phân loại của Interactive Advertising Bureau (IAB), sau đó sử dụng những thông tin chi tiết này để xây dựng giải pháp quảng cáo phi tuyến tính nhằm tăng cường hiệu quả quảng cáo theo ngữ cảnh. Một notebook Jupyter mẫu có sẵn trong GitHub repository.
Tổng quan giải pháp
Quảng cáo phi tuyến tính là quảng cáo video kỹ thuật số xuất hiện đồng thời với nội dung video chính mà không làm gián đoạn việc phát lại. Những quảng cáo này được hiển thị dưới dạng lớp phủ, đồ họa, hoặc các yếu tố phương tiện phong phú trên đầu trình phát video, thường xuất hiện ở dưới cùng của màn hình. Ảnh chụp màn hình sau đây là minh họa của giải pháp quảng cáo phi tuyến tính cuối cùng mà chúng tôi sẽ triển khai trong bài viết này.

Sơ đồ sau đây trình bày tổng quan về kiến trúc và các thành phần chính của nó.

Quy trình làm việc như sau:
- Người dùng tải video lên Amazon Simple Storage Service (Amazon S3).
- Mỗi video mới gọi một hàm AWS Lambda kích hoạt BDA để phân tích video. Một tác vụ không đồng bộ chạy để phân tích video.
- Đầu ra phân tích được lưu trữ trong vùng lưu trữ S3 đầu ra.
- Hệ thống xuôi dòng (AWS Elemental MediaTailor) có thể sử dụng phân đoạn chương, thông tin chi tiết theo ngữ cảnh và siêu dữ liệu (chẳng hạn như phân loại IAB) để đưa ra quyết định quảng cáo tốt hơn trong video.
Để đơn giản trong ví dụ notebook của chúng tôi, chúng tôi cung cấp một từ điển ánh xạ metadata tới một tập hợp các tệp inventory quảng cáo (nguồn quảng cáo có sẵn) cục bộ được hiển thị với các phân đoạn video. Điều này mô phỏng cách MediaTailor tương tác với các tệp manifest nội dung và yêu cầu quảng cáo thay thế từ Ad Decision Service.
Điều kiện tiên quyết
Các điều kiện tiên quyết sau đây cần thiết để chạy notebook và theo dõi các ví dụ trong bài viết này:
- Một AWS account với quyền cần thiết, bao gồm quyền truy cập Amazon Bedrock, Amazon S3, và môi trường notebook Jupyter để chạy các notebook mẫu.
- Môi trường notebook Jupyter với quyền phù hợp để truy cập Amazon Bedrock APIs. Để biết thêm thông tin về cấu hình policy Amazon Bedrock, xem Get credentials to grant programmatic access.
- Cài đặt các thư viện bên thứ ba như FFmpeg, open-cv, và webvtt-py trước khi thực thi các phần mã.
- Sử dụng Meridian short film from Netflix Open Content theo Creative Commons Attribution 4.0 International làm video mẫu.
Phân tích video sử dụng BDA
Nhờ BDA, việc xử lý và phân tích video đã trở nên đơn giản hơn đáng kể. Quy trình làm việc bao gồm ba bước chính: tạo dự án, gọi phân tích, và lấy kết quả phân tích. Bước đầu tiên tạo dự án thiết lập một template cấu hình có thể tái sử dụng cho các tác vụ phân tích của bạn. Trong dự án, bạn định nghĩa các loại phân tích bạn muốn thực hiện và cách bạn muốn cấu trúc kết quả. Để tạo dự án, sử dụng API create_data_automation_project từ BDA boto3 client. Hàm này trả về một dataAutomationProjectArn, mà bạn sẽ cần bao gồm với mỗi lần gọi runtime.
{
'projectArn': 'string',
'projectStage': 'DEVELOPMENT'|'LIVE',
'status': 'COMPLETED'|'IN_PROGRESS'|'FAILED'
}
Khi hoàn thành dự án (status: COMPLETED), bạn có thể sử dụng API invoke_data_automation_async từ BDA runtime client để bắt đầu phân tích video. API này yêu cầu vị trí S3 đầu vào/đầu ra và cross-Region profile ARN trong yêu cầu của bạn. BDA yêu cầu hỗ trợ suy luận liên Region (cross-Region) cho tất cả các tác vụ xử lý tệp, tự động chọn AWS Region tối ưu trong khu vực địa lý của bạn để tối đa hóa tài nguyên tính toán và tính khả dụng của mô hình. Tính năng bắt buộc này giúp cung cấp hiệu suất tối ưu và trải nghiệm khách hàng mà không có chi phí bổ sung. Bạn cũng có thể tùy chọn cấu hình thông báo Amazon EventBridge để theo dõi công việc (để biết thêm chi tiết, xem Tutorial: Send an email when events happen using Amazon EventBridge). Sau khi kích hoạt, quy trình sẽ trả về ngay lập tức một ID công việc trong khi tiếp tục xử lý dưới nền.
default_profile_arn = "arn:aws:bedrock:{region}:{account_id}:data-automation-profile/us.data-automation-v1"
response = bda_runtime_client.invoke_data_automation_async(
inputConfiguration={
's3Uri': f's3://{data_bucket}/{s3_key}'
},
outputConfiguration={
's3Uri': f's3://{data_bucket}/{output_prefix}'
},
dataAutomationConfiguration={
'dataAutomationProjectArn': dataAutomationProjectArn,
'stage': 'DEVELOPMENT'
},
notificationConfiguration={
'eventBridgeConfiguration': {
'eventBridgeEnabled': False
}
},
dataAutomationProfileArn=default_profile_arn
)
Các kết quả đầu ra tiêu chuẩn của BDA cho video
Hãy khám phá các đầu ra từ BDA để phân tích video. Hiểu các đầu ra này là điều cần thiết để hiểu loại thông tin chi tiết mà BDA cung cấp và cách sử dụng chúng để xây dựng giải pháp quảng cáo theo ngữ cảnh của chúng ta. Sơ đồ sau đây là minh họa các thành phần chính của video, và mỗi thành phần định nghĩa một mức độ chi tiết bạn cần để phân tích nội dung video.

Các thành phần chính như sau:
- Frame – Một hình ảnh tĩnh duy nhất tạo ra ảo giác về chuyển động khi được hiển thị liên tiếp nhanh chóng với các frame khác trong video.
- Shot – Một chuỗi frame liên tiếp được ghi từ lúc máy quay bắt đầu quay cho đến khi dừng.
- Chapter – Một chuỗi shot tạo thành một đơn vị hành động hoặc tường thuật mạch lạc trong video, hoặc một chủ đề cuộc trò chuyện liên tục. BDA xác định ranh giới chương bằng cách đầu tiên phân loại video có nội dung chủ yếu là hình ảnh (như phim hoặc nội dung theo tập) hoặc nội dung chủ yếu là âm thanh (như tin tức hoặc thuyết trình). Dựa trên phân loại này, sau đó nó quyết định có nên thiết lập ranh giới sử dụng chuỗi shot dựa trên hình ảnh hay chủ đề cuộc trò chuyện dựa trên âm thanh.
- Video – Nội dung hoàn chỉnh cho phép phân tích ở mức video đầy đủ.
Phân tích ở cấp độ video
Bây giờ chúng ta đã định nghĩa các thuật ngữ chi tiết video, hãy xem xét những thông tin chi tiết mà BDA cung cấp. Ở mức video đầy đủ, BDA tạo ra một tóm tắt toàn diện cung cấp tổng quan ngắn gọn về các chủ đề chính và nội dung chính của video. Hệ thống cũng bao gồm nhận dạng người nói, một quá trình cố gắng suy ra tên người nói dựa trên các gợi ý có thể nghe được (Ví dụ, “Tôi là Jane Doe”) hoặc gợi ý hình ảnh trên màn hình bất cứ khi nào có thể. Để minh họa khả năng này, chúng ta có thể xem xét tóm tắt video đầy đủ sau đây mà BDA đã tạo ra cho phim ngắn Meridian:
Trong một loạt các vụ mất tích bí ẩn dọc theo một đoạn đường phía trên bãi biển El Matador, ba người đàn ông dường như không có mối liên hệ đã biến mất không dấu vết. Các nạn nhân – một giáo viên trường học, một nhân viên bán bảo hiểm và một người về hưu – có rất ít điểm chung ngoại trừ việc ly hôn, không có tiền án đáng kể hoặc mối quan hệ với các tổ chức tội phạm… Thám tử Sullivan điều tra các vụ án, ban đầu bác bỏ khả năng tự tử do không có thi thể. Một bước đột phá quan trọng đến từ một nhân chứng đáng tin cậy, người đang dắt chó đi dạo dọc theo những vách đá vào ngày mất tích cuối cùng. Nhân chứng mô tả đã nhìn thấy một người đàn ông trên đỉnh một khối đá khổng lồ ở bờ biển, tách biệt với đất liền. Người đàn ông dường như đang tìm kiếm thứ gì đó hoặc ai đó thì đột nhiên, thời tiết khắc nghiệt chưa từng có tấn công khu vực này với sấm sét… Cuộc điều tra chuyển sang một bước ngoặt khác khi Đại úy Foster của LAPD đến địa điểm El Matador, phát hiện ra rằng Thám tử Sullivan cũng đã mất tích. Vụ án ngày càng trở nên phức tạp khi mối liên hệ giữa những vụ mất tích, người phụ nữ bí ẩn và các hiện tượng thời tiết bất thường vẫn chưa được giải thích.
Cùng với tóm tắt, BDA tạo ra một bản transcript âm thanh hoàn chỉnh bao gồm nhận dạng người nói. Transcript này ghi lại nội dung được nói trong khi ghi chú ai đang nói xuyên suốt video. Sau đây là ví dụ về transcript được tạo bởi BDA từ phim ngắn Meridian:
[spk_0]: Vậy là những người này biến mất.
[spk_1]: Vâng, trên đoạn đường ngay phía trên El Matador. Bạn biết điều đó. Với tảng đá lớn. Đúng vậy, vâng.
[spk_2]: Bạn biết đấy, Mickey Cohen đã từng đưa các cộng sự của mình ra ngoài đó, cho anh ta một chuyến đi trái phiếu.
...
Phân tích ở cấp độ chương
BDA thực hiện phân tích chi tiết ở mức chương bằng cách tạo ra các tóm tắt chương toàn diện. Mỗi tóm tắt chương bao gồm timestamp bắt đầu và kết thúc cụ thể để đánh dấu chính xác thời lượng của chương. Ngoài ra, khi liên quan, BDA áp dụng các danh mục IAB để phân loại nội dung của chương. Các danh mục IAB này là một phần của hệ thống phân loại được tiêu chuẩn hóa được tạo ra để tổ chức và ánh xạ nội dung nhà xuất bản, phục vụ nhiều mục đích, bao gồm nhắm mục tiêu quảng cáo, bảo mật internet, và lọc nội dung. Ví dụ sau đây trình diễn một phân tích mức chương điển hình:
[00:00:20; 04 – 00:00:23; 01] Ô tô, Loại
ô tô Video giới thiệu khung cảnh đường phố đô thị cổ điển từ giữa thế kỷ 20. Tâm điểm là tòa nhà Florentine Gardens, một công trình kiến trúc trang trí công phu với bảng hiệu nổi bật hiển thị “Florentine GARDENS” và “GRUEN Time”. Mặt tiền của tòa nhà có các yếu tố trang trí như cột và cửa sổ hình vòm, tạo cho nó một diện mạo hoành tráng. Những cây cọ dọc vỉa hè trước tòa nhà, làm tăng thêm bầu không khí nhiệt đới. Một số chiếc xe cổ đang đậu dọc theo đường phố, bao gồm một chiếc taxi màu vàng và một chiếc sedan màu đen. Người đi bộ có thể được nhìn thấy đi bộ trên vỉa hè, góp phần tạo nên bầu không khí sôi động. Khung cảnh tổng thể nắm bắt được bản chất của một môi trường thành phố nhộn nhịp trong thời kỳ đó.
Để có danh sách đầy đủ các danh mục phân loại IAB được hỗ trợ, xem “Videos“
Cũng ở mức chương, BDA tạo ra các bản transcript âm thanh chi tiết với timestamp chính xác cho mỗi phân đoạn được nói. Những bản transcript chi tiết này đặc biệt hữu ích cho các tác vụ tạo phụ đề chi tiết (closed captioning) và phụ đề dịch thuật (subtitling). Sau đây là ví dụ về bản transcript mức chương:
[26.85 – 29.59] Vì vậy, những người này đã biến mất.
[30.93 – 34.27] Vâng, trên đoạn đường ngay phía trên El Matador.
[35.099 – 35.959] Bạn biết điều đó.
[36.49 – 39.029] Với tảng đá lớn. Đúng vậy, vâng.
[40.189 – 44.86] Bạn biết đấy, Mickey Cohen đã từng đưa các cộng sự của mình ra ngoài đó, cho anh ta một chuyến đi trái phiếu.
...
Thông tin chi tiết ở cấp độ shot và frame
Ở mức độ chi tiết hơn, BDA cung cấp dấu thời gian chính xác đến từng frame (frame-accurate timestamps) cho ranh giới shot. Hệ thống cũng thực hiện phát hiện văn bản và phát hiện logo trên các frame riêng lẻ, tạo ra các hộp giới hạn xung quanh văn bản và logo được phát hiện cùng với điểm tin cậy cho mỗi phát hiện.

Giải pháp quảng cáo theo ngữ cảnh
Hãy áp dụng những thông tin chi tiết được trích xuất từ BDA để hỗ trợ các giải pháp quảng cáo phi tuyến tính. Không như quảng cáo tuyến tính truyền thống dựa vào các khe thời gian được định trước, quảng cáo phi tuyến tính cho phép đặt quảng cáo động dựa trên ngữ cảnh nội dung. Ở mức chương, BDA tự động phân đoạn video và cung cấp thông tin chi tiết chi tiết bao gồm tóm tắt nội dung, danh mục IAB, và timestamp chính xác. Những thông tin chi tiết này phục vụ như các dấu hiệu thông minh cho các cơ hội đặt quảng cáo, cho phép nhà quảng cáo nhắm mục tiêu các chương cụ thể phù hợp với nội dung quảng cáo của họ.
Trong ví dụ này, chúng tôi đã chuẩn bị một danh sách hình ảnh quảng cáo và ánh xạ từng hình ảnh tới các danh mục IAB cụ thể. Khi BDA xác định các danh mục IAB ở mức chương, hệ thống tự động khớp và chọn quảng cáo phù hợp nhất từ danh sách để hiển thị dưới dạng banner lớp phủ trong chương đó. Trong ví dụ sau, khi BDA xác định một cảnh với xe ô tô lái trên đường quê (danh mục IAB: Automotive, Travel), hệ thống chọn và hiển thị một chiếc vali tại sân bay từ cơ sở dữ liệu quảng cáo được ánh xạ trước. Quá trình khớp tự động này thúc đẩy việc đặt quảng cáo chính xác trong khi duy trì trải nghiệm người xem tối ưu.

Dọn dẹp
Theo hướng dẫn trong phần dọn dẹp của notebook để xóa các dự án và tài nguyên được cung cấp để tránh chi phí không cần thiết. Tham khảo giá Amazon Bedrock để biết chi tiết về chi phí BDA.
Kết thúc
Tự động hóa dữ liệu Amazon Bedrock, được hỗ trợ bởi các mô hình nền tảng từ Amazon Bedrock, đánh dấu một bước tiến đáng kể trong phân tích video. BDA giảm thiểu các lớp điều phối phức tạp trước đây cần thiết để trích xuất thông tin chuyên sâu từ nội dung video, biến những gì từng là một thách thức kỹ thuật phức tạp thành một giải pháp được quản lý hợp lý. Bước đột phá này cho phép các công ty truyền thông cung cấp trải nghiệm quảng cáo hấp dẫn hơn, được cá nhân hóa đồng thời giảm đáng kể chi phí hoạt động. Chúng tôi khuyến khích bạn khám phá sổ ghi chép Jupyter mẫu được cung cấp trong GitHub repository để trải nghiệm trực tiếp BDA và khám phá các trường hợp sử dụng BDA bổ sung trên các phương thức khác trong các tài nguyên sau:
- Simplify multimodal generative AI with Amazon Bedrock Data Automation
- Get insights from multimodal content with Amazon Bedrock Data Automation, now generally available
Về các tác giả

James Wu‘
James Wu là Senior AI/ML Specialist Solution Architect tại AWS, giúp khách hàng thiết kế và xây dựng các giải pháp AI/ML. Công việc của James bao gồm một loạt các trường hợp sử dụng ML, với sự quan tâm chính về computer vision, deep learning, và mở rộng ML trên toàn doanh nghiệp. Trước khi tham gia AWS, James là một kiến trúc sư, nhà phát triển, và lãnh đạo công nghệ trong hơn 10 năm, bao gồm 6 năm trong kỹ thuật và 4 năm trong các ngành marketing & quảng cáo.

Alex Burkleaux
Alex Burkleaux là Senior AI/ML Specialist Solution Architect tại AWS. Cô ấy giúp khách hàng sử dụng AI Services để xây dựng các giải pháp truyền thông sử dụng Generative AI. Kinh nghiệm ngành của cô ấy bao gồm over-the-top video, hệ thống quản lý cơ sở dữ liệu, và kỹ thuật độ tin cậy.