Amazon SageMaker AI năm 2025 – Nhìn lại một năm (Phần 1): Flexible Training Plans và cải thiện hiệu năng/chi phí cho workload suy luận

Tác giả: Dan Ferguson, Deepti Ragha, Dmitry Soldatkin, Lokeshwaran Ravi, Ram Vegiraju, Sadaf Fardeen, và Suma Kasa
Ngày phát hành: 20 FEB 2026
Chuyên mục: Amazon SageMaker AI, Amazon SageMaker Data & AI Governance, Foundational (100)

Vào năm 2025, Amazon SageMaker AI đã chứng kiến những cải tiến đáng kể đối với các dịch vụ cơ sở hạ tầng cốt lõi theo bốn khía cạnh: dung lượng, hiệu suất giá, khả năng quan sát và khả năng sử dụng. Trong loạt bài viết này, chúng tôi sẽ thảo luận về những cải tiến khác nhau này và lợi ích của chúng. Trong Phần 1, chúng tôi thảo luận về các cải tiến về dung lượng với việc ra mắt Kế hoạch đào tạo linh hoạt (Flexible Training Plans). Chúng tôi cũng mô tả các cải tiến về hiệu suất giá cho khối lượng công việc suy luận. Trong Phần 2, chúng tôi thảo luận về những cải tiến được thực hiện đối với khả năng quan sát, tùy chỉnh mô hình và lưu trữ mô hình.

Kế hoạch đào tạo linh hoạt cho SageMaker

Kế hoạch đào tạo SageMaker AI hiện hỗ trợ các endpoint suy luận, mở rộng khả năng đặt trước dung lượng mạnh mẽ ban đầu được thiết kế cho khối lượng công việc đào tạo để giải quyết thách thức quan trọng về tính khả dụng của GPU cho các triển khai suy luận. Triển khai các mô hình ngôn ngữ lớn (LLM) cho suy luận yêu cầu dung lượng GPU đáng tin cậy, đặc biệt trong các giai đoạn đánh giá quan trọng, thử nghiệm sản xuất có thời hạn hoặc khối lượng công việc tăng đột biến có thể dự đoán được. Các hạn chế về dung lượng có thể làm chậm quá trình triển khai và ảnh hưởng đến hiệu suất ứng dụng, đặc biệt trong giờ cao điểm khi dung lượng theo yêu cầu trở nên khó đoán. Kế hoạch đào tạo có thể giúp giải quyết vấn đề này bằng cách cho phép đặt trước dung lượng tính toán trong các khoảng thời gian cụ thể, tạo điều kiện cho tính khả dụng của GPU có thể dự đoán được chính xác khi các nhóm cần.

Quy trình đặt trước được thiết kế để đơn giản và linh hoạt. Bạn bắt đầu bằng cách tìm kiếm các gói dung lượng khả dụng phù hợp với yêu cầu cụ thể của mình—chọn loại instance, số lượng, thời lượng và khung thời gian mong muốn. Khi bạn xác định được một gói phù hợp, bạn có thể tạo một đặt trước sẽ tạo ra một Amazon Resource Name (ARN), đóng vai trò là khóa cho dung lượng được đảm bảo của bạn. Mô hình định giá minh bạch, trả trước giúp hỗ trợ lập kế hoạch ngân sách chính xác đồng thời giảm thiểu lo ngại về tính khả dụng của cơ sở hạ tầng, để các nhóm có thể tập trung vào các chỉ số đánh giá và hiệu suất mô hình của họ thay vì lo lắng về việc liệu dung lượng có sẵn khi họ cần hay không.

Trong suốt vòng đời đặt trước, các nhóm duy trì sự linh hoạt trong vận hành để quản lý các endpoint của họ khi các yêu cầu phát triển. Bạn có thể cập nhật các endpoint lên các phiên bản mô hình mới trong khi vẫn duy trì cùng một dung lượng đã đặt trước, sử dụng thử nghiệm và tinh chỉnh lặp đi lặp lại trong các giai đoạn đánh giá. Khả năng mở rộng giúp các nhóm điều chỉnh số lượng instance trong giới hạn đặt trước của họ, hỗ trợ các kịch bản mà việc triển khai ban đầu là thận trọng, nhưng thử nghiệm thông lượng cao hơn trở nên cần thiết. Sự linh hoạt này giúp đảm bảo các nhóm không bị ràng buộc vào các quyết định cơ sở hạ tầng cứng nhắc trong khi vẫn có thể hưởng lợi từ dung lượng đã đặt trước trong các khung thời gian quan trọng.

Với sự hỗ trợ cho các bản cập nhật endpoint, khả năng mở rộng và quản lý dung lượng liền mạch, Kế hoạch đào tạo giúp bạn kiểm soát cả tính khả dụng của GPU và chi phí cho khối lượng công việc suy luận có thời hạn. Cho dù bạn đang chạy các điểm chuẩn mô hình cạnh tranh để chọn biến thể hoạt động tốt nhất, thực hiện các thử nghiệm A/B có thời hạn để xác thực các cải tiến mô hình hay xử lý các đợt tăng lưu lượng truy cập có thể dự đoán được trong quá trình ra mắt sản phẩm, Kế hoạch đào tạo cho các endpoint suy luận giúp cung cấp các đảm bảo về dung lượng mà các nhóm cần với mức giá minh bạch, trả trước. Cách tiếp cận này đặc biệt có giá trị đối với các nhóm khoa học dữ liệu thực hiện các dự án đánh giá kéo dài hàng tuần hoặc hàng tháng, trong đó khả năng đặt trước các instance GPU cụ thể trước giúp giảm thiểu sự không chắc chắn về tính khả dụng theo yêu cầu và cho phép các mốc thời gian và ngân sách dự án có thể dự đoán được hơn.

Để biết thêm thông tin, hãy xem Amazon SageMaker AI hiện hỗ trợ dung lượng Kế hoạch đào tạo linh hoạt cho suy luận.

Hiệu suất giá

Những cải tiến được thực hiện cho SageMaker AI vào năm 2025 giúp tối ưu hóa kinh tế suy luận thông qua bốn khả năng chính. Kế hoạch đào tạo linh hoạt mở rộng sang các endpoint suy luận với mức giá trả trước minh bạch. Các thành phần suy luận bổ sung tính khả dụng Multi-AZ và vị trí sao chép mô hình song song trong quá trình mở rộng giúp tăng tốc triển khai. Giải mã suy đoán EAGLE-3 mang lại những cải tiến về thông lượng cho các yêu cầu suy luận. Suy luận đa bộ điều hợp động cho phép tải các bộ điều hợp LoRA theo yêu cầu.

Cải tiến các thành phần suy luận

Các mô hình tạo sinh chỉ bắt đầu mang lại giá trị khi chúng phục vụ các dự đoán trong sản xuất. Khi các ứng dụng mở rộng quy mô, cơ sở hạ tầng suy luận phải năng động và đáng tin cậy như chính các mô hình. Đó là lúc các thành phần suy luận SageMaker AI phát huy tác dụng. Các thành phần suy luận cung cấp một cách mô-đun để quản lý suy luận mô hình trong một endpoint. Mỗi thành phần suy luận đại diện cho một đơn vị tính toán, bộ nhớ và cấu hình mô hình tự chứa có thể được tạo, cập nhật và mở rộng độc lập. Thiết kế này giúp bạn vận hành các endpoint sản xuất với sự linh hoạt cao hơn. Bạn có thể triển khai nhiều mô hình, điều chỉnh dung lượng nhanh chóng và triển khai các bản cập nhật một cách an toàn mà không cần triển khai lại toàn bộ endpoint. Đối với các nhóm chạy các ứng dụng thời gian thực hoặc thông lượng cao, các thành phần suy luận giúp kiểm soát chi tiết các quy trình làm việc suy luận. Trong các phần sau, chúng tôi xem xét ba cải tiến lớn đối với các thành phần suy luận SageMaker AI giúp chúng mạnh mẽ hơn nữa trong môi trường sản xuất. Các bản cập nhật này bổ sung tính sẵn sàng cao Multi-AZ, khả năng đồng thời được kiểm soát cho khối lượng công việc đa người thuê và mở rộng song song để phản ứng nhanh hơn với các đợt tăng lưu lượng truy cập. Cùng với nhau, chúng giúp việc chạy AI ở quy mô lớn trở nên linh hoạt, có thể dự đoán và hiệu quả hơn.

Xây dựng khả năng phục hồi với tính sẵn sàng cao Multi-AZ

Các hệ thống sản xuất đối mặt với cùng một sự thật: lỗi xảy ra. Một lỗi phần cứng đơn lẻ, sự cố mạng hoặc sự cố ngừng hoạt động của Availability Zone có thể làm gián đoạn lưu lượng suy luận và ảnh hưởng đến trải nghiệm người dùng. Giờ đây, các thành phần suy luận SageMaker AI tự động phân phối khối lượng công việc trên nhiều Availability Zone. Bạn có thể chạy nhiều bản sao thành phần suy luận trên mỗi Availability Zone và SageMaker AI giúp định tuyến lưu lượng truy cập một cách thông minh đến các instance khỏe mạnh và có dung lượng khả dụng. Sự phân phối này bổ sung khả năng chịu lỗi ở mọi lớp triển khai của bạn.

Tính sẵn sàng cao Multi-AZ mang lại những lợi ích sau:

Giảm thiểu các điểm lỗi đơn lẻ bằng cách phân tán khối lượng công việc suy luận trên các Availability Zone
Tự động chuyển đổi dự phòng sang các instance khỏe mạnh khi xảy ra sự cố
Duy trì thời gian hoạt động cao để đáp ứng các yêu cầu SLA nghiêm ngặt
Cho phép cân bằng chi phí và khả năng phục hồi thông qua các mô hình triển khai linh hoạt

Ví dụ, một công ty dịch vụ tài chính chạy tính năng phát hiện gian lận thời gian thực có thể hưởng lợi từ tính năng này. Bằng cách triển khai các thành phần suy luận trên ba Availability Zone, lưu lượng truy cập có thể chuyển hướng liền mạch đến các Availability Zone còn lại nếu một Availability Zone ngừng hoạt động, giúp tạo điều kiện phát hiện gian lận không bị gián đoạn khi độ tin cậy là quan trọng nhất.

Mở rộng song song và bộ nhớ đệm NVMe

Các mẫu lưu lượng truy cập trong sản xuất hiếm khi ổn định. Một khoảnh khắc hệ thống của bạn yên tĩnh; khoảnh khắc tiếp theo, nó bị ngập trong các yêu cầu. Trước đây, việc mở rộng các thành phần suy luận diễn ra tuần tự—mỗi bản sao mô hình mới chờ bản sao trước đó khởi tạo trước khi bắt đầu. Trong các đợt tăng đột biến, quá trình tuần tự này có thể làm tăng thêm vài phút độ trễ. Với khả năng mở rộng song song, SageMaker AI giờ đây có thể triển khai nhiều bản sao thành phần suy luận đồng thời khi một instance và các tài nguyên cần thiết có sẵn. Điều này giúp rút ngắn thời gian cần thiết để phản ứng với các đợt tăng lưu lượng truy cập và cải thiện khả năng phản hồi cho các khối lượng công việc biến đổi. Ví dụ, nếu một instance cần ba bản sao mô hình, chúng giờ đây sẽ triển khai song song thay vì chờ đợi lẫn nhau. Mở rộng song song giúp tăng tốc việc triển khai các bản sao mô hình lên các thành phần suy luận nhưng không tăng tốc việc mở rộng mô hình khi lưu lượng truy cập tăng vượt quá dung lượng được cấp phép. Bộ nhớ đệm NVMe giúp tăng tốc mở rộng mô hình cho các thành phần suy luận đã được cấp phép bằng cách lưu trữ các tạo phẩm và hình ảnh mô hình. Khả năng giảm thời gian mở rộng của bộ nhớ đệm NVMe giúp giảm độ trễ suy luận trong các đợt tăng lưu lượng truy cập, giảm chi phí nhàn rỗi thông qua việc giảm quy mô nhanh hơn và cung cấp tính đàn hồi cao hơn để phục vụ các khối lượng công việc không thể đoán trước hoặc biến động.

EAGLE-3

SageMaker AI đã giới thiệu giải mã suy đoán thích ứng dựa trên EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) để giúp tăng tốc suy luận AI tạo sinh. Cải tiến này hỗ trợ sáu kiến trúc mô hình và giúp bạn tối ưu hóa hiệu suất bằng cách sử dụng các tập dữ liệu do SageMaker cung cấp hoặc dữ liệu dành riêng cho ứng dụng của riêng bạn để có kết quả thích ứng cao, dành riêng cho khối lượng công việc. Giải pháp này hợp lý hóa quy trình làm việc từ việc tạo tác vụ tối ưu hóa đến triển khai, giúp việc cung cấp các ứng dụng AI tạo sinh có độ trễ thấp ở quy mô lớn trở nên liền mạch mà không ảnh hưởng đến chất lượng tạo sinh. EAGLE hoạt động bằng cách dự đoán các token trong tương lai trực tiếp từ các lớp ẩn của mô hình thay vì dựa vào một mô hình nháp bên ngoài, dẫn đến các dự đoán chính xác hơn và ít bị từ chối hơn. SageMaker AI tự động chọn giữa EAGLE-2 và EAGLE-3 dựa trên kiến trúc mô hình, với hỗ trợ ra mắt cho LlamaForCausalLM, Qwen3ForCausalLM, Qwen3MoeForCausalLM, Qwen2ForCausalLM, GptOssForCausalLM (EAGLE-3) và Qwen3NextForCausalLM (EAGLE-2). Bạn có thể đào tạo các mô hình EAGLE từ đầu, đào tạo lại các mô hình hiện có hoặc sử dụng các mô hình được đào tạo trước từ SageMaker JumpStart, với sự linh hoạt để tinh chỉnh hiệu suất lặp đi lặp lại bằng cách sử dụng các tập dữ liệu được tuyển chọn của riêng bạn được thu thập thông qua các tính năng như Data Capture. Quy trình làm việc tối ưu hóa tích hợp liền mạch với cơ sở hạ tầng SageMaker AI hiện có thông qua các API quen thuộc (create_model, create_endpoint_config, create_endpoint) và hỗ trợ các định dạng dữ liệu đào tạo được sử dụng rộng rãi, bao gồm ShareGPT và OpenAI chat và completions. Kết quả điểm chuẩn được tự động tạo trong quá trình tối ưu hóa, cung cấp khả năng hiển thị rõ ràng về các cải tiến hiệu suất trên các chỉ số như Time to First Token (TTFT) và thông lượng, với các mô hình EAGLE được đào tạo cho thấy những cải tiến đáng kể so với cả các mô hình cơ sở và các mô hình EAGLE chỉ được đào tạo trên các tập dữ liệu tích hợp sẵn.

Để chạy một tác vụ tối ưu hóa EAGLE-3, hãy chạy lệnh sau trong AWS Command Line Interface (AWS CLI):

			
aws sagemaker --region us-west-2 create-optimization-job \
    --optimization-job-name <job-name> \
    --account-id <account-id> \
    --deployment-instance-type ml.p5.48xlarge \
    --max-instance-count 10 \
    --model-source '{
        "SageMakerModel": { "ModelName": "Created Model name" }
    }' \
    --optimization-configs'{
            "ModelSpeculativeDecodingConfig": {
                "Technique": "EAGLE",
                "TrainingDataSource": {
                    "S3DataType": "S3Prefix",
                    "S3Uri": "Enter custom train data location"
                }
            }
        }' \
    --output-config '{
        "S3OutputLocation": "Enter optimization output location"
    }' \
    --stopping-condition '{"MaxRuntimeInSeconds": 432000}' \
    --role-arn "Enter Execution Role ARN"

		

Để biết thêm chi tiết, hãy xem Amazon SageMaker AI giới thiệu giải mã suy đoán thích ứng dựa trên EAGLE để tăng tốc suy luận AI tạo sinh.

Suy luận đa bộ điều hợp động trên SageMaker AI Inference

SageMaker AI đã giúp tăng cường khả năng suy luận đa bộ điều hợp hiệu quả được giới thiệu tại re:Invent 2024, hiện hỗ trợ tải và dỡ tải động các bộ điều hợp LoRA trong quá trình gọi suy luận thay vì ghim chúng khi tạo endpoint. Cải tiến này giúp tối ưu hóa việc sử dụng tài nguyên cho các kịch bản lưu trữ mô hình theo yêu cầu.

Trước đây, các bộ điều hợp được tải xuống đĩa và tải vào bộ nhớ trong cuộc gọi API CreateInferenceComponent. Với tải động, các bộ điều hợp được đăng ký bằng API CreateInferenceComponent nhẹ, đồng bộ, sau đó được tải xuống và tải vào bộ nhớ chỉ khi được gọi lần đầu tiên. Cách tiếp cận này hỗ trợ các trường hợp sử dụng mà bạn có thể đăng ký hàng nghìn bộ điều hợp đã được tinh chỉnh trên mỗi endpoint trong khi vẫn duy trì suy luận có độ trễ thấp.

Hệ thống triển khai quản lý bộ nhớ thông minh, loại bỏ các mô hình ít phổ biến nhất trong các ràng buộc tài nguyên. Khi bộ nhớ đạt đến dung lượng—được kiểm soát bởi biến môi trường SAGEMAKER_MAX_NUMBER_OF_ADAPTERS_IN_MEMORY—hệ thống tự động dỡ tải các bộ điều hợp không hoạt động để tạo không gian cho các bộ điều hợp mới được yêu cầu. Tương tự, khi không gian đĩa bị hạn chế, các bộ điều hợp được sử dụng gần đây nhất sẽ bị loại bỏ khỏi bộ nhớ. Chiến lược bộ nhớ đệm đa tầng này tạo điều kiện tối ưu hóa việc sử dụng tài nguyên trên CPU, bộ nhớ GPU và đĩa.

Để đảm bảo an ninh và tuân thủ, bạn có thể xóa rõ ràng các bộ điều hợp bằng API DeleteInferenceComponent. Khi xóa, SageMaker sẽ dỡ tải bộ điều hợp khỏi các container thành phần suy luận cơ sở và xóa nó khỏi đĩa trên các instance, tạo điều kiện dọn dẹp hoàn toàn dữ liệu khách hàng. Quá trình xóa hoàn tất không đồng bộ với các lần thử lại tự động, cung cấp cho bạn quyền kiểm soát vòng đời bộ điều hợp của mình trong khi giúp đáp ứng các yêu cầu lưu giữ dữ liệu nghiêm ngặt.

Khả năng tải bộ điều hợp động này cung cấp năng lượng cho tính năng tùy chỉnh mô hình không máy chủ của SageMaker AI, giúp bạn tinh chỉnh các mô hình AI phổ biến như Amazon Nova, DeepSeek, Llama và Qwen bằng các kỹ thuật như tinh chỉnh có giám sát, học tăng cường và tối ưu hóa ưu tiên trực tiếp. Khi bạn hoàn tất tinh chỉnh thông qua giao diện tùy chỉnh không máy chủ, trọng số bộ điều hợp LoRA đầu ra sẽ chuyển liền mạch sang triển khai—bạn có thể triển khai đến các endpoint SageMaker AI bằng cách sử dụng các thành phần suy luận đa bộ điều hợp. Các cấu hình lưu trữ từ các công thức đào tạo tự động bao gồm các cài đặt tải động thích hợp, giúp đảm bảo các mô hình tùy chỉnh có thể được triển khai hiệu quả mà không yêu cầu bạn quản lý cơ sở hạ tầng hoặc tải các bộ điều hợp tại thời điểm tạo endpoint.

Các bước sau đây minh họa cách bạn có thể sử dụng tính năng này trong thực tế:

Tạo một thành phần suy luận cơ sở với mô hình nền tảng của bạn:

			
import boto3
sagemaker = boto3.client('sagemaker')
# Create base inference component with foundation model
response = sagemaker.create_inference_component(
    InferenceComponentName='llama-base-ic',
    EndpointName='my-endpoint',
    Specification={
        'Container': {
            'Image': 'your-container-image',
            'Environment': {
                'SAGEMAKER_MAX_NUMBER_OF_ADAPTERS_IN_MEMORY': '10'
            }
        },
        'ComputeResourceRequirements': {
            'NumberOfAcceleratorDevicesRequired': 2,
            'MinMemoryRequiredInMb': 16384
        }
    }
)

		

Đăng ký bộ điều hợp LoRA của bạn:

			
# Register adapter - completes in < 1 second
response = sagemaker.create_inference_component(
    InferenceComponentName='my-custom-adapter',
    EndpointName='my-endpoint',
    Specification={
        'BaseInferenceComponentName': 'llama-base-ic',
        'Container': {
            'ArtifactUrl': 's3://amzn-s3-demo-bucket/adapters/customer-support/'
        }
    }
)

		

Gọi bộ điều hợp của bạn (nó tự động tải khi sử dụng lần đầu):

			
runtime = boto3.client('sagemaker-runtime')
# Invoke with adapter - loads into memory on first call
response = runtime.invoke_endpoint(
    EndpointName='my-endpoint',
    InferenceComponentName='llama-base-ic',
    TargetModel='s3://amzn-s3-demo-bucket/adapters/customer-support/',
    ContentType='application/json',
    Body=json.dumps({'inputs': 'Your prompt here'})
)

		

Xóa các bộ điều hợp khi không còn cần thiết:

			
sagemaker.delete_inference_component(
    InferenceComponentName='my-custom-adapter'
)

Khả năng tải động này tích hợp liền mạch với cơ sở hạ tầng suy luận hiện có của SageMaker, hỗ trợ các mô hình cơ sở tương tự và duy trì khả năng tương thích với API InvokeEndpoint tiêu chuẩn. Bằng cách tách biệt việc đăng ký bộ điều hợp khỏi việc phân bổ tài nguyên, giờ đây bạn có thể triển khai và quản lý nhiều bộ điều hợp LoRA một cách hiệu quả về chi phí, chỉ trả tiền cho các tài nguyên tính toán đang tích cực phục vụ các yêu cầu suy luận.

Kết luận

Các cải tiến của SageMaker AI năm 2025 đại diện cho một bước nhảy vọt đáng kể trong việc làm cho suy luận AI tạo sinh dễ tiếp cận hơn, đáng tin cậy hơn và hiệu quả hơn về chi phí cho khối lượng công việc sản xuất. Với Kế hoạch đào tạo linh hoạt hiện hỗ trợ các endpoint suy luận, bạn có thể có được dung lượng GPU có thể dự đoán được chính xác khi bạn cần—cho dù để đánh giá mô hình quan trọng, thử nghiệm có thời hạn hay xử lý các đợt tăng lưu lượng truy cập. Việc giới thiệu tính sẵn sàng cao Multi-AZ, khả năng đồng thời được kiểm soát và mở rộng song song với bộ nhớ đệm NVMe cho các thành phần suy luận giúp đảm bảo các triển khai sản xuất có thể mở rộng nhanh chóng trong khi vẫn duy trì khả năng phục hồi trên các Availability Zone. Giải mã suy đoán thích ứng của EAGLE-3 mang lại thông lượng tăng lên mà không làm giảm chất lượng đầu ra, và suy luận đa bộ điều hợp động giúp các nhóm quản lý nhiều bộ điều hợp LoRA đã được tinh chỉnh hiệu quả hơn trên một endpoint duy nhất. Cùng với nhau, những khả năng này giúp giảm độ phức tạp trong vận hành và chi phí cơ sở hạ tầng khi chạy AI ở quy mô lớn, để các nhóm có thể tập trung vào việc mang lại giá trị thông qua các mô hình của họ thay vì quản lý cơ sở hạ tầng bên dưới.

Những cải tiến này trực tiếp giải quyết một số thách thức cấp bách nhất mà các chuyên gia AI phải đối mặt hiện nay: đảm bảo dung lượng tính toán đáng tin cậy, đạt được suy luận có độ trễ thấp ở quy mô lớn và quản lý sự phức tạp ngày càng tăng của các triển khai đa mô hình. Bằng cách kết hợp các đặt trước dung lượng minh bạch, quản lý tài nguyên thông minh và tối ưu hóa hiệu suất giúp mang lại lợi ích thông lượng có thể đo lường được, SageMaker AI giúp các tổ chức triển khai các ứng dụng AI tạo sinh một cách tự tin. Sự tích hợp liền mạch giữa tùy chỉnh và triển khai mô hình—nơi các bộ điều hợp đã được tinh chỉnh chuyển trực tiếp từ đào tạo sang lưu trữ sản xuất—càng giúp tăng tốc hành trình từ thử nghiệm đến sản xuất.

Bạn đã sẵn sàng tăng tốc khối lượng công việc suy luận AI tạo sinh của mình chưa? Khám phá Kế hoạch đào tạo linh hoạt cho các endpoint suy luận để đảm bảo dung lượng GPU cho chu kỳ đánh giá tiếp theo của bạn, triển khai giải mã suy đoán EAGLE-3 để giúp tăng thông lượng trên các triển khai hiện có của bạn hoặc sử dụng suy luận đa bộ điều hợp động để phục vụ các mô hình tùy chỉnh hiệu quả hơn. Tham khảo Tài liệu Amazon SageMaker AI để bắt đầu và hãy theo dõi Phần 2 của loạt bài này, nơi chúng tôi sẽ đi sâu vào các cải tiến về khả năng quan sát và tùy chỉnh mô hình. Chia sẻ kinh nghiệm và câu hỏi của bạn trong phần bình luận—chúng tôi rất muốn biết những khả năng này đang thay đổi khối lượng công việc AI của bạn như thế nào.

Về tác giả

Dan Ferguson là Kiến trúc sư Giải pháp cấp cao tại AWS, có trụ sở tại New York, Hoa Kỳ. Với tư cách là chuyên gia dịch vụ máy học, Dan hỗ trợ khách hàng trong hành trình tích hợp quy trình làm việc ML một cách hiệu quả, bền vững.

Dmitry Soldatkin là Kiến trúc sư Giải pháp Học máy cấp cao tại AWS, giúp khách hàng thiết kế và xây dựng các giải pháp AI/ML. Công việc của Dmitry bao gồm nhiều trường hợp sử dụng ML, với sự quan tâm chính đến AI tạo sinh, học sâu và mở rộng quy mô ML trên toàn doanh nghiệp. Ông đã giúp các công ty trong nhiều ngành, bao gồm bảo hiểm, dịch vụ tài chính, tiện ích và viễn thông. Ông có niềm đam mê đổi mới liên tục và sử dụng dữ liệu để thúc đẩy kết quả kinh doanh. Trước khi gia nhập AWS, Dmitry là kiến trúc sư, nhà phát triển và lãnh đạo công nghệ trong lĩnh vực phân tích dữ liệu và học máy trong ngành dịch vụ tài chính.

Lokeshwaran Ravi là Kỹ sư Trình biên dịch Học sâu cấp cao tại AWS, chuyên về tối ưu hóa ML, tăng tốc mô hình và bảo mật AI. Ông tập trung vào việc nâng cao hiệu quả, giảm chi phí và xây dựng các hệ sinh thái an toàn để dân chủ hóa các công nghệ AI, giúp ML tiên tiến trở nên dễ tiếp cận và có tác động trên các ngành công nghiệp.

Sadaf Fardeen dẫn dắt chương trình Tối ưu hóa suy luận cho SageMaker. Cô chịu trách nhiệm tối ưu hóa và phát triển các container suy luận LLM trên SageMaker.

Suma Kasa là Kiến trúc sư ML thuộc nhóm Dịch vụ SageMaker, tập trung vào việc tối ưu hóa và phát triển các container suy luận LLM trên SageMaker.

Ram Vegiraju là Kiến trúc sư ML thuộc nhóm Dịch vụ SageMaker. Ông tập trung vào việc giúp khách hàng xây dựng và tối ưu hóa các giải pháp AI/ML của họ trên Amazon SageMaker. Trong thời gian rảnh rỗi, ông thích đi du lịch và viết lách.

Deepti Ragha là Kỹ sư Phát triển Phần mềm cấp cao trong nhóm Amazon SageMaker AI, chuyên về cơ sở hạ tầng suy luận ML và tối ưu hóa lưu trữ mô hình. Cô xây dựng các tính năng giúp cải thiện hiệu suất triển khai, giảm chi phí suy luận và làm cho ML dễ tiếp cận với các tổ chức thuộc mọi quy mô. Ngoài công việc, cô thích đi du lịch, đi bộ đường dài và làm vườn.