Tác giả: Christian Kamwangala, Jarryd Konar, Jared Dean, Melanie Li, and Saurabh Trikande
Ngày phát hành: 30 JAN 2026
Chuyên mục: Advanced (300), Amazon Bedrock, Amazon Bedrock Guardrails, Amazon Bedrock Knowledge Bases, Amazon Machine Learning, Announcements, Artificial Intelligence
Xây dựng các ứng dụng AI với Amazon Bedrock đặt ra những thách thức về thông lượng ảnh hưởng đến khả năng mở rộng của ứng dụng của bạn. Tính năng suy luận xuyên Region toàn cầu (Global cross-Region inference) trong AWS Region af-south-1 đã thay đổi điều đó. Giờ đây, bạn có thể gọi các mô hình từ Region Cape Town trong khi Amazon Bedrock tự động định tuyến các yêu cầu đến các Region có dung lượng khả dụng. Ứng dụng của bạn sẽ có thời gian phản hồi nhất quán, người dùng của bạn sẽ có trải nghiệm đáng tin cậy, và nhật ký Amazon CloudWatch cùng AWS CloudTrail của bạn vẫn được tập trung tại af-south-1.
Tính năng suy luận xuyên Region toàn cầu với Anthropic Claude Sonnet 4.5, Haiku 4.5 và Opus 4.5 trên Amazon Bedrock tại Region Cape Town (af-south-1) cung cấp cho bạn quyền truy cập vào dòng mô hình Claude 4.5. Khách hàng Nam Phi giờ đây có thể sử dụng các hồ sơ suy luận toàn cầu (global inference profiles) để truy cập các mô hình này với thông lượng và khả năng phục hồi được nâng cao. Suy luận xuyên Region toàn cầu định tuyến các yêu cầu đến các Region thương mại được hỗ trợ trên toàn thế giới, tối ưu hóa tài nguyên và cho phép thông lượng cao hơn—đặc biệt có giá trị trong thời gian sử dụng cao điểm. Tính năng này hỗ trợ Amazon Bedrock prompt caching, batch inference, Amazon Bedrock Guardrails, Amazon Bedrock Knowledge Bases, và nhiều hơn nữa.
Trong bài viết này, chúng tôi sẽ hướng dẫn cách suy luận xuyên Region toàn cầu định tuyến các yêu cầu và nơi dữ liệu của bạn được lưu trữ, sau đó chỉ cho bạn cách cấu hình các quyền AWS Identity and Access Management (IAM) cần thiết và gọi các mô hình Claude 4.5 bằng cách sử dụng Amazon Resource Name (ARN) của hồ sơ suy luận toàn cầu. Chúng tôi cũng sẽ đề cập đến cách yêu cầu tăng hạn mức cho khối lượng công việc của bạn. Cuối cùng, bạn sẽ có một triển khai hoạt động của tính năng suy luận xuyên Region toàn cầu tại af-south-1.
Hiểu về suy luận xuyên Region
Suy luận xuyên Region là một tính năng mạnh mẽ mà các tổ chức có thể sử dụng để phân phối xử lý suy luận một cách liền mạch trên nhiều Region. Khả năng này giúp bạn đạt được thông lượng cao hơn khi xây dựng ở quy mô lớn, cho phép các ứng dụng AI tạo sinh của bạn duy trì khả năng phản hồi và độ tin cậy ngay cả dưới tải nặng.
Một hồ sơ suy luận (inference profile) trong Amazon Bedrock định nghĩa một mô hình nền tảng (FM) và một hoặc nhiều Region mà nó có thể định tuyến các yêu cầu gọi mô hình. Các hồ sơ suy luận hoạt động dựa trên hai khái niệm chính:
- Source Region – Region mà từ đó yêu cầu API được thực hiện
- Destination Region – Một Region mà Amazon Bedrock có thể định tuyến yêu cầu để suy luận
Suy luận xuyên Region hoạt động thông qua mạng AWS an toàn với mã hóa đầu cuối cho cả dữ liệu đang truyền và dữ liệu tĩnh. Khi khách hàng gửi yêu cầu suy luận từ một Source Region, suy luận xuyên Region sẽ định tuyến yêu cầu một cách thông minh đến một trong các Destination Region được cấu hình cho hồ sơ suy luận thông qua mạng được quản lý bởi Amazon Bedrock.
Điểm khác biệt chính là trong khi quá trình xử lý suy luận (tính toán tạm thời) có thể xảy ra ở một Region khác, dữ liệu tĩnh—bao gồm nhật ký, cơ sở tri thức và cấu hình đã lưu trữ—được thiết kế để vẫn nằm trong Source Region của bạn. Các yêu cầu di chuyển qua Mạng lưới toàn cầu của AWS (AWS Global Network) được quản lý bởi Bedrock. Dữ liệu được truyền trong quá trình suy luận xuyên Region được mã hóa và vẫn nằm trong mạng AWS an toàn. Thông tin nhạy cảm được thiết kế để được bảo vệ trong suốt quá trình suy luận, bất kể Region nào xử lý yêu cầu, và các phản hồi được mã hóa sẽ được trả về ứng dụng của bạn trong Source Region của bạn.
Amazon Bedrock cung cấp hai loại hồ sơ suy luận xuyên Region:
- Suy luận xuyên Region theo địa lý (Geographic cross-Region inference): Amazon Bedrock tự động chọn Region thương mại tối ưu trong một khu vực địa lý xác định (Mỹ, EU, Úc và Nhật Bản) để xử lý yêu cầu suy luận của bạn. (Được khuyến nghị cho các trường hợp sử dụng có yêu cầu về nơi lưu trú dữ liệu.)
- Suy luận xuyên Region toàn cầu (Global cross-Region inference): Suy luận xuyên Region toàn cầu nâng cao hơn nữa khả năng suy luận xuyên Region bằng cách cho phép định tuyến các yêu cầu suy luận đến các Region thương mại được hỗ trợ trên toàn thế giới, tối ưu hóa tài nguyên khả dụng và cho phép thông lượng mô hình cao hơn. (Được khuyến nghị cho các trường hợp sử dụng không có yêu cầu về nơi lưu trú dữ liệu.)
Giám sát và ghi nhật ký
Với suy luận xuyên Region toàn cầu từ af-south-1, các yêu cầu của bạn có thể được xử lý ở bất cứ đâu trên cơ sở hạ tầng toàn cầu của AWS. Tuy nhiên, nhật ký Amazon CloudWatch và AWS CloudTrail được ghi lại tại af-south-1, đơn giản hóa việc giám sát bằng cách giữ các bản ghi của bạn ở một nơi.
Bảo mật dữ liệu và tuân thủ
Bảo mật và tuân thủ là trách nhiệm chung giữa AWS và mỗi khách hàng. Suy luận xuyên Region toàn cầu được thiết kế để duy trì bảo mật dữ liệu. Dữ liệu được truyền trong quá trình suy luận xuyên Region được Amazon Bedrock mã hóa và được thiết kế để vẫn nằm trong mạng AWS an toàn. Thông tin nhạy cảm vẫn được bảo vệ trong suốt quá trình suy luận, bất kể Region nào xử lý yêu cầu. Khách hàng có trách nhiệm cấu hình ứng dụng và chính sách IAM của họ một cách thích hợp và đánh giá xem suy luận xuyên Region toàn cầu có đáp ứng các yêu cầu bảo mật và tuân thủ cụ thể của họ hay không. Bởi vì suy luận xuyên Region toàn cầu định tuyến các yêu cầu đến các Region thương mại được hỗ trợ trên toàn thế giới, bạn nên đánh giá xem cách tiếp cận này có phù hợp với các nghĩa vụ pháp lý của bạn hay không, bao gồm Đạo luật Bảo vệ Thông tin Cá nhân (POPIA) và các yêu cầu cụ thể theo ngành khác. Chúng tôi khuyến nghị tham khảo ý kiến của các nhóm pháp lý và tuân thủ của bạn để xác định cách tiếp cận phù hợp cho các trường hợp sử dụng cụ thể của bạn.
Triển khai suy luận xuyên Region toàn cầu
Để sử dụng suy luận xuyên Region toàn cầu với các mô hình Claude 4.5, các nhà phát triển phải hoàn thành các bước chính sau:
- Sử dụng ID hồ sơ suy luận toàn cầu – Khi thực hiện các lệnh gọi API tới Amazon Bedrock, hãy chỉ định ID hồ sơ suy luận của mô hình Claude 4.5 toàn cầu (ví dụ:
global.anthropic.claude-opus-4-5-20251101-v1:0). Điều này hoạt động với cả APIInvokeModelvàConverse. - Cấu hình quyền IAM – Cấp quyền IAM để truy cập hồ sơ suy luận và các FM trong các Destination Region tiềm năng. Trong phần tiếp theo, chúng tôi sẽ cung cấp thêm chi tiết. Bạn cũng có thể đọc thêm về các điều kiện tiên quyết cho hồ sơ suy luận.
Việc triển khai suy luận xuyên Region toàn cầu với các mô hình Claude 4.5 rất đơn giản, chỉ yêu cầu một vài thay đổi đối với mã ứng dụng hiện có của bạn. Sau đây là ví dụ về cách cập nhật mã của bạn bằng Python:
import boto3import json# Connect to Bedrock from your deployed regionbedrock = boto3.client('bedrock-runtime', region_name='af-south-1')# Use global cross-Region inference inference profile for Opus 4.5model_id = "global.anthropic.claude-opus-4-5-20251101-v1:0" # Make request - Global CRIS automatically routes to optimal AWS Region globallyresponse = bedrock.converse( messages=[ { "role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}] } ], modelId=model_id,)print("Response:", response['output']['message']['content'][0]['text'])print("Token usage:", response['usage'])print("Total tokens:", response['usage']['totalTokens'])
Nếu bạn đang sử dụng API InvokeModel của Amazon Bedrock, bạn có thể nhanh chóng chuyển sang một mô hình khác bằng cách thay đổi ID mô hình, như được hiển thị trong các ví dụ mã Invoke model.
Yêu cầu chính sách IAM cho suy luận xuyên Region toàn cầu
Suy luận xuyên Region toàn cầu yêu cầu ba quyền cụ thể vì cơ chế định tuyến bao gồm nhiều phạm vi: hồ sơ suy luận theo Region của bạn, định nghĩa FM trong Source Region của bạn và định nghĩa FM ở cấp độ toàn cầu. Nếu không có ba quyền này, dịch vụ không thể phân giải mô hình, xác thực quyền truy cập của bạn và định tuyến các yêu cầu trên các Region. Truy cập vào các mô hình Anthropic yêu cầu gửi trường hợp sử dụng trước khi gọi mô hình. Việc gửi này có thể được hoàn thành ở cấp độ tài khoản cá nhân hoặc tập trung thông qua tài khoản quản lý của tổ chức. Để gửi trường hợp sử dụng của bạn, hãy sử dụng API PutUseCaseForModelAccess hoặc chọn một mô hình Anthropic từ danh mục mô hình trong AWS Management Console cho Amazon Bedrock. Cần có quyền AWS Marketplace để bật các mô hình và có thể được giới hạn theo các ID sản phẩm cụ thể nếu được hỗ trợ.
Chính sách IAM ví dụ sau đây cung cấp quyền kiểm soát chi tiết:
{ "Version": "2012-10-17", "Statement": [{ "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "af-south-1" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:af-south-1::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "af-south-1", "bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME> " ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ]}
Chính sách này bao gồm ba phần. Câu lệnh đầu tiên cấp quyền truy cập vào hồ sơ suy luận theo Region tại af-south-1, để người dùng có thể gọi hồ sơ suy luận xuyên Region toàn cầu được chỉ định từ Nam Phi. Câu lệnh thứ hai cung cấp quyền truy cập vào tài nguyên FM theo Region, mà dịch vụ cần để hiểu mô hình nào đang được yêu cầu trong ngữ cảnh Region. Câu lệnh thứ ba cấp quyền truy cập vào tài nguyên FM toàn cầu, cho phép chức năng định tuyến xuyên Region.
Khi triển khai các chính sách này, hãy xác minh rằng ba ARN sau được bao gồm:
- ARN hồ sơ suy luận theo Region tuân theo mẫu
arn:aws:bedrock:af-south-1:<ACCOUNT>:inference-profile/global.<MODEL NAME>. Điều này cấp quyền truy cập vào hồ sơ suy luận toàn cầu trong Source Region của bạn. - FM theo Region sử dụng
arn:aws:bedrock:af-south-1::foundation-model/<MODEL NAME>. Điều này cấp quyền truy cập vào định nghĩa mô hình tạiaf-south-1. - FM toàn cầu yêu cầu
arn:aws:bedrock:::foundation-model/<MODEL NAME>. Điều này cấp quyền truy cập vào mô hình trên các Region—lưu ý rằng ARN này cố ý bỏ qua các phân đoạn Region và tài khoản để cho phép định tuyến xuyên Region.
ARN FM toàn cầu không có Region hoặc tài khoản được chỉ định, điều này là có chủ ý và cần thiết cho chức năng xuyên Region.
Lưu ý quan trọng về Chính sách kiểm soát dịch vụ (SCPs): Nếu tổ chức của bạn sử dụng SCPs cụ thể theo Region, hãy xác minh rằng "aws:RequestedRegion": "unspecified" không được bao gồm trong danh sách các Region bị từ chối, vì các yêu cầu suy luận xuyên Region toàn cầu sử dụng giá trị Region này. Các tổ chức sử dụng SCPs hạn chế từ chối nhiều Region ngoại trừ những Region được phê duyệt cụ thể sẽ cần phải cho phép rõ ràng giá trị này để bật chức năng suy luận xuyên Region toàn cầu.
Nếu tổ chức của bạn xác định rằng suy luận xuyên Region toàn cầu không phù hợp cho một số khối lượng công việc nhất định do yêu cầu về nơi lưu trú dữ liệu hoặc tuân thủ, bạn có thể tắt nó bằng một trong hai cách tiếp cận sau:
- Xóa quyền IAM – Xóa một hoặc nhiều trong ba câu lệnh chính sách IAM bắt buộc. Bởi vì suy luận xuyên Region toàn cầu yêu cầu ba câu lệnh này để hoạt động, việc xóa một trong các câu lệnh này sẽ khiến các yêu cầu tới hồ sơ suy luận toàn cầu trả về lỗi từ chối truy cập.
- Triển khai chính sách từ chối rõ ràng – Tạo một chính sách từ chối nhắm mục tiêu cụ thể đến các hồ sơ suy luận xuyên Region toàn cầu bằng cách sử dụng điều kiện
"aws:RequestedRegion": "unspecified". Cách tiếp cận này ghi lại rõ ràng ý định bảo mật của bạn, và việc từ chối rõ ràng sẽ được ưu tiên ngay cả khi các chính sách cho phép được thêm vào sau này một cách vô tình.
Yêu cầu tăng hạn mức cho suy luận xuyên Region toàn cầu
Khi sử dụng các hồ sơ suy luận xuyên Region toàn cầu từ af-south-1, bạn có thể yêu cầu tăng hạn mức thông qua bảng điều khiển AWS Service Quotas. Vì đây là một hạn mức toàn cầu, các yêu cầu phải được thực hiện trong Source Region của bạn (af-south-1).
Trước khi yêu cầu tăng hạn mức, hãy tính toán hạn mức cần thiết của bạn bằng cách sử dụng tỷ lệ tiêu hao (burndown rate) cho mô hình của bạn. Đối với Sonnet 4.5 và Haiku 4.5, các token đầu ra có tỷ lệ tiêu hao gấp năm lần—mỗi token đầu ra tiêu thụ 5 token từ hạn mức của bạn—trong khi các token đầu vào duy trì tỷ lệ 1:1. Tổng mức tiêu thụ token của bạn cho mỗi yêu cầu là:
Input token count + Cache write input tokens + (Output token count x Burndown rate)
Để yêu cầu tăng hạn mức:
- Đăng nhập vào bảng điều khiển AWS Service Quotas tại
af-south-1. - Trong ngăn điều hướng, chọn AWS services.
- Tìm và chọn Amazon Bedrock.
- Tìm kiếm các hạn mức suy luận xuyên Region toàn cầu cụ thể (ví dụ: Global cross-Region model inference tokens per minute for Claude Sonnet 4.5 V1).
- Chọn hạn mức và chọn Request increase at account level.
- Nhập giá trị hạn mức mong muốn của bạn và gửi yêu cầu.
Kết luận
Suy luận xuyên Region toàn cầu cũng mang dòng mô hình Claude 4.5 đến Region Cape Town, cung cấp cho bạn quyền truy cập vào các khả năng tương tự có sẵn ở các Region khác. Bạn có thể xây dựng với Sonnet 4.5, Haiku 4.5 và Opus 4.5 từ Region cục bộ của mình trong khi cơ sở hạ tầng định tuyến xử lý việc phân phối một cách minh bạch. Để bắt đầu, hãy cập nhật ứng dụng của bạn để sử dụng ID hồ sơ suy luận toàn cầu, cấu hình các quyền IAM thích hợp và giám sát hiệu suất khi ứng dụng của bạn sử dụng cơ sở hạ tầng AWS trên toàn thế giới. Truy cập bảng điều khiển Amazon Bedrock và khám phá cách suy luận xuyên Region toàn cầu có thể nâng cao các ứng dụng AI của bạn. Để biết thêm thông tin, hãy xem các tài nguyên sau:
- Tăng thông lượng với suy luận xuyên Region
- Các Region và mô hình được hỗ trợ cho hồ sơ suy luận
- Sử dụng hồ sơ suy luận trong việc gọi mô hình
Về tác giả

Christian Kamwangala là Kiến trúc sư Giải pháp Chuyên gia AI/ML và AI tạo sinh tại AWS, nơi anh hợp tác với các khách hàng doanh nghiệp để thiết kế, tối ưu hóa và triển khai các giải pháp AI cấp độ sản xuất. Chuyên môn của anh nằm ở việc tối ưu hóa suy luận—cân bằng hiệu suất, chi phí và độ trễ cho các triển khai quy mô lớn. Ngoài công việc, anh thích khám phá thiên nhiên và dành thời gian cho gia đình và bạn bè.

Jarryd Konar là Kỹ sư Hỗ trợ Đám mây Cấp cao tại AWS, có trụ sở tại Cape Town, Nam Phi. Anh chuyên giúp khách hàng thiết kế, tối ưu hóa và vận hành các khối lượng công việc AI/ML và AI tạo sinh trên đám mây. Jarryd làm việc chặt chẽ với khách hàng để triển khai các phương pháp hay nhất trên danh mục dịch vụ AI/ML của AWS, biến các yêu cầu kỹ thuật phức tạp thành các giải pháp thực tế, có khả năng mở rộng. Anh đam mê xây dựng các hệ thống AI bền vững và an toàn, trao quyền cho cả khách hàng và đội ngũ.

Tiến sĩ Melanie Li là Kiến trúc sư Giải pháp Chuyên gia AI tạo sinh Cấp cao tại AWS có trụ sở tại Sydney, Úc, nơi cô tập trung vào việc làm việc với khách hàng để xây dựng các giải pháp sử dụng các công cụ AI/ML tiên tiến. Cô đã tích cực tham gia vào nhiều sáng kiến AI tạo sinh trên khắp APJ, khai thác sức mạnh của các LLM. Trước khi gia nhập AWS, Tiến sĩ Li đã giữ các vai trò khoa học dữ liệu trong ngành tài chính và bán lẻ.

Saurabh Trikande là Giám đốc Sản phẩm Cấp cao cho Amazon Bedrock và Amazon SageMaker Inference. Anh đam mê làm việc với khách hàng và đối tác, được thúc đẩy bởi mục tiêu dân chủ hóa AI. Anh tập trung vào các thách thức cốt lõi liên quan đến việc triển khai các ứng dụng AI phức tạp, suy luận với các mô hình đa người thuê, tối ưu hóa chi phí và làm cho việc triển khai các mô hình AI tạo sinh dễ tiếp cận hơn. Trong thời gian rảnh rỗi, Saurabh thích đi bộ đường dài, tìm hiểu về các công nghệ đổi mới, theo dõi TechCrunch và dành thời gian cho gia đình.

Jared Dean là Kiến trúc sư Giải pháp AI/ML Chính tại AWS. Jared làm việc với khách hàng trên nhiều ngành để phát triển các ứng dụng máy học giúp cải thiện hiệu quả. Anh quan tâm đến tất cả mọi thứ về AI, công nghệ và BBQ.