bởi Dylan Souvage, Vishwa Gopinath Kurakundi, và Anish Kumar vào 07 THÁNG 4 2025 trong Amazon EC2, Artificial Intelligence, Compute, Generative AI, Generative AI, Partner solutions, Responsible AI Permalink


Bởi Anish Kumar, Quản lý kỹ thuật phần mềm AI – Intel
Dylan Souvage, Kiến trúc sư giải pháp – AWS
Vishwa Gopinath Kurakundi, Kiến trúc sư giải pháp – AWS
Doanh nghiệp đang tìm kiếm các cách triển khai Mô hình ngôn ngữ lớn (LLM) hiệu quả. Họ muốn tận dụng sức mạnh của LLM nhưng đồng thời cần những giải pháp cân bằng giữa hiệu năng và chi phí.
Tại hội nghị AWS re:Invent gần đây ở Las Vegas, Andy Jassy, Giám đốc điều hành của Amazon, đã chia sẻ ba bài học quý giá rút ra từ kinh nghiệm nội bộ của Amazon khi xây dựng hơn 1.000 ứng dụng GenAI:
- Hiệu quả chi phí ở quy mô lớn là yếu tố then chốt đối với các ứng dụng GenAI.
- Xây dựng ứng dụng GenAI hiệu quả đòi hỏi sự cân nhắc kỹ lưỡng.
- Đa dạng mô hình là điều thiết yếu – không có giải pháp “một mô hình cho tất cả”.
Những bài học này định hướng cho cách AWS hợp tác cùng khách hàng để triển khai GenAI. Tại AWS, chúng tôi nhận thấy tính linh hoạt và quyền lựa chọn là điều quan trọng đối với khách hàng. Andy Jassy cũng nhấn mạnh rằng danh mục LLM đa dạng của AWS giúp khách hàng dễ dàng tìm được công cụ phù hợp cho nhu cầu riêng. Nhờ sự hợp tác sâu rộng với các đối tác như Intel, AWS liên tục mở rộng danh mục LLM được tuyển chọn, tăng cường khả năng tiếp cận cho khách hàng.
Intel và AWS
Sự hợp tác giữa AWS và Intel bắt đầu từ năm 2006, khi chúng tôi ra mắt Amazon Elastic Compute Cloud (EC2) sử dụng chip của Intel. Trải qua 19 năm, quan hệ hợp tác này đã phát triển mạnh mẽ nhằm cung cấp các dịch vụ đám mây giúp tối ưu chi phí, đơn giản hóa vận hành và đáp ứng nhu cầu doanh nghiệp đang thay đổi. Các bộ xử lý Intel® Xeon® Scalable là nền tảng cho nhiều dịch vụ điện toán đám mây trên AWS. Các phiên bản EC2 sử dụng bộ xử lý Intel Xeon có độ phủ lớn nhất, phạm vi toàn cầu và khả năng sẵn sàng cao nhất trong các khu vực AWS. Vào tháng 9 năm 2024, AWS và Intel công bố một thỏa thuận đầu tư chung kéo dài nhiều năm, trị giá hàng tỷ đô, nhằm thiết kế chip tùy chỉnh bao gồm cả sản phẩm và wafer từ Intel. Đây là bước mở rộng hợp tác lâu dài giữa hai công ty, giúp khách hàng vận hành hầu như mọi loại khối lượng công việc và tăng tốc hiệu năng của ứng dụng trí tuệ nhân tạo (AI).
DeepSeek
AWS và Intel đang hợp tác để giúp các doanh nghiệp tiếp cận và triển khai LLM hiệu quả hơn về chi phí. Một xu hướng mới là mô hình ngôn ngữ chưng cất, chúng vẫn giữ được hiệu năng cao nhưng yêu cầu ít tài nguyên hơn. Những mô hình này có thể chạy trực tiếp trên CPU, còn được gọi là Mô hình ngôn ngữ nhỏ (SLM – Small Language Models). Việc huấn luyện và suy luận SLM trên CPU giúp triển khai AI hiệu năng cao trong giới hạn thời gian và chi phí hợp lý. Các mô hình DeepSeek (đơn vị phát triển DeepSeek-R1) đang nhanh chóng trở nên phổ biến nhờ hiệu quả, chi phí thấp và mã nguồn mở, cho phép triển khai tự do trong ứng dụng. Ngoài ra, DeepSeek còn cung cấp phiên bản chưng cất, các mô hình “học sinh” nhỏ hơn, được huấn luyện để tái tạo chất lượng phản hồi của mô hình “giáo viên” lớn hơn nhưng tiêu tốn ít tài nguyên hơn.
Amazon EC2 là một nền tảng tiết kiệm chi phí để triển khai các Mô hình Ngôn ngữ Lớn (LLM), đồng thời cung cấp các loại máy chủ chuyên dụng chạy trên bộ xử lý Intel® Xeon® Scalable, phù hợp để triển khai các mô hình đã được tối ưu hóa như DeepSeek-R1 phiên bản chưng cất. Các CPU Intel® Xeon® Thế hệ thứ 4 trở lên được trang bị bộ tăng tốc Advanced Matrix Extensions (AMX), giúp tăng đáng kể hiệu năng xử lý khối lượng công việc của LLM bằng cách tăng tốc các phép nhân ma trận, một thành phần cốt lõi trong quá trình suy luận của LLM. Các bộ tăng tốc AMX này mang lại hiệu suất xử lý vượt trội, đồng thời tích hợp với các tiêu chuẩn mở như oneAPI, giúp doanh nghiệp triển khai các ứng dụng Trí tuệ Nhân tạo Sinh tạo (Generative AI) với chi phí hợp lý, khả năng mở rộng cao, thời gian thu nhận kết quả nhanh hơn và tổng chi phí sở hữu (TCO) thấp hơn.
Amazon EC2 cũng mang lại sự linh hoạt và khả năng mở rộng tuyệt vời khi hỗ trợ nhiều cấu hình triển khai khác nhau, bao gồm cả mô hình LLM ảo (vLLM) có thể tích hợp liền mạch với Docker dựa trên nền tảng Hugging Face. Trong bài viết hướng dẫn đi kèm này, chúng ta sẽ cùng xem chi tiết từng bước cách triển khai nhanh mô hình DeepSeek-R1-Distill-Llama-8B trên máy chủ Amazon EC2 m7i.2xlarge, sử dụng bộ xử lý Intel® Xeon® Scalable với 8 vCPU và 32 GB bộ nhớ. Bài viết cung cấp hướng dẫn chi tiết về cách cấu hình Amazon EC2 để triển khai mô hình, đồng thời xây dựng container Docker cho vLLM trên CPU – bao gồm các tối ưu hóa của Intel dành cho CPU như Intel Extension for PyTorch. Tiện ích mở rộng này đảm bảo các quá trình suy luận của LLM được tối ưu để chạy hiệu quả trên các bộ xử lý Intel® Xeon® Thế hệ thứ 4 trở lên, và bài viết kết thúc bằng phần kiểm thử quá trình suy luận sau khi mô hình được triển khai.
Kết luận
Doanh nghiệp có thể triển khai các LLM tùy chỉnh hoặc mã nguồn mở, bao gồm Distilled DeepSeek-R1, trên AWS thông qua các dịch vụ được quản lý như Amazon Bedrock và Amazon SageMaker, hoặc triển khai trực tiếp trên Amazon EC2, tùy theo nhu cầu cụ thể. Sự hợp tác giữa AWS và Intel đang thúc đẩy sự phát triển của lĩnh vực Trí tuệ Nhân tạo Sinh tạo, kết hợp công nghệ bán dẫn tiên tiến của Intel với hạ tầng đám mây mạnh mẽ của AWS để mang lại các giải pháp AI dễ tiếp cận và tiết kiệm chi phí.
Để tìm hiểu thêm về lĩnh vực Generative AI của AWS, hãy truy cập blog Machine Learning của AWS.

Intel – AWS Partner Spotlight
Intel và Amazon Web Services (AWS) đã hợp tác hơn 19 năm để phát triển các công nghệ linh hoạt và tối ưu phần mềm, phục vụ cho các khối lượng công việc quan trọng của doanh nghiệp. Sự hợp tác này cho phép các đối tác AWS hỗ trợ khách hàng di chuyển và hiện đại hóa ứng dụng cũng như hạ tầng của họ – giúp giảm chi phí và độ phức tạp, đẩy nhanh kết quả kinh doanh, đồng thời mở rộng quy mô để đáp ứng các nhu cầu tính toán hiện tại và tương lai.
Liên hệ Intel | Tổng quan đối tác | AWS Marketplace
TAGS: Amazon EC2, AWS Competency Partners, AWS Partner Solution, Generative AI, Intel