AWS công bố mô hình Pixtral Large 25.02 trong Amazon Bedrock dưới dạng serverless

Ngày đăng: 08 tháng 04 năm 2025

Danh mục: Amazon Bedrock, Announcements, Featured, Generative AI, Launch, News

Hôm nay, chúng tôi thông báo rằng mô hình Pixtral Large 25.02 hiện đã khả dụng trong Amazon Bedrock dưới dạng dịch vụ serverless được quản lý hoàn toàn. AWS là nhà cung cấp dịch vụ điện toán đám mây lớn đầu tiên đưa Pixtral Large vào cung cấp như một mô hình serverless được quản lý hoàn toàn.

Làm việc với các mô hình nền tảng lớn (FMs) thường đòi hỏi phải lập kế hoạch hạ tầng kỹ lưỡng, có chuyên môn sâu, và liên tục tối ưu hóa để đảm bảo hiệu suất tính toán hiệu quả. Nhiều khách hàng gặp khó khăn khi phải duy trì những môi trường phức tạp hoặc buộc phải đánh đổi giữa hiệu suất và chi phí khi triển khai các mô hình phức tạp này.

Mô hình Pixtral Large, được phát triển bởi Mistral AI, đánh dấu mô hình đa phương thức (multimodal) đầu tiên của họ kết hợp khả năng xử lý hình ảnh tiên tiến với khả năng hiểu ngôn ngữ mạnh mẽ. Với cửa sổ ngữ cảnh 128K giúp mô hình này rất phù hợp cho những tác vụ suy luận phức tạp có liên quan đến hình ảnh. Mô hình đạt hiệu năng vượt trội trên nhiều bộ đánh giá chuẩn quan trọng như MathVista, DocVQA và VQAv2, cho thấy tính hiệu quả trong phân tích tài liệu, đọc hiểu biểu đồ cũng như nhận diện hình ảnh tự nhiên.

Một điểm mạnh nổi bật khác của Pixtral Large là khả năng đa ngôn ngữ. Mô hình hỗ trợ hàng chục ngôn ngữ như tiếng Anh, Pháp, Đức, Tây Ban Nha, Ý, Trung Quốc, Nhật, Hàn, Bồ Đào Nha, Hà Lan và Ba Lan, nhờ đó phù hợp cho các đội ngũ và ứng dụng toàn cầu. Ngoài ra, nó cũng được huấn luyện trên hơn 80 ngôn ngữ lập trình như Python, Java, C, C++, JavaScript, Bash, Swift và Fortran, cung cấp khả năng tạo và phân tích mã nguồn mạnh mẽ.

Các nhà phát triển sẽ đánh giá cao thiết kế lấy tác nhân làm trung tâm với các tính năng như gọi hàm tích hợp và định dạng đầu ra JSON, giúp đơn giản hóa việc tích hợp với các hệ thống sẵn có. Mô hình cũng duy trì tuân thủ tốt với các lời nhắc hệ thống (system prompts) từ đó nâng cao độ tin cậy trong các ứng dụng Retrieval Augmented Generation (RAG) và những tình huống ngữ cảnh lớn.

Với Pixtral Large trong Amazon Bedrock, bạn có thể sử dụng mô hình tiên tiến này mà không phải tự xây dựng hoặc quản lý hạ tầng. Kiến trúc serverless cho phép bạn mở rộng hoặc thu hẹp việc sử dụng theo nhu cầu thực tế mà không cần cam kết trước hoặc lập kế hoạch dung lượng. Chi phí chỉ phát sinh dựa trên mức độ sử dụng thực tế, loại bỏ tình trạng tài nguyên nhàn rỗi.

Inference xuyên vùng (Cross-Region inference)

Pixtral Large hiện đã được triển khai trong Amazon Bedrock tại nhiều AWS Regions, với khả năng inference xuyên vùng.

Với Amazon Bedrock inference xuyên vùng, bạn có thể truy cập cùng một mô hình trên nhiều vị trí địa lý khác nhau trong khi vẫn duy trì tính sẵn sàng cao và độ trễ thấp cho các ứng dụng toàn cầu. Ví dụ, khi mô hình được triển khai tại cả châu Âu và Hoa Kỳ, bạn có thể truy cập nó thông qua các điểm cuối API theo Khu vực sử dụng các tiền tố riêng biệt: eu.model-id cho Khu vực châu Âu và us.model-id cho Khu vực Hoa Kỳ. Cách tiếp cận này cho phép Amazon Bedrock tự động định tuyến các yêu cầu inference đến điểm cuối gần nhất về mặt địa lý, giúp giảm độ trễ trong khi hỗ trợ tuân thủ quy định khi cần giữ dữ liệu trong phạm vi khu vực nhất định. Hệ thống cũng tự động xử lý việc định tuyến lưu lượng (traffic routing) và cân bằng tải giữa các bản triển khai theo Khu vực (Regional deployments), mang lại sự mở rộng quy mô liền mạch và tính sẵn sàng cao mà không cần phải giám sát từng triển khai cụ thể nơi mà mô hình thực sự được triển khai.

Trải nghiệm thực tế

Với vai trò là một developer advocate, tôi thường xuyên thử nghiệm cách các tính năng mới giải quyết các tình huống thực tế. Gần đây, tôi có cơ hội hoàn hảo để ứng dụng khả năng đa phương thức của Amazon Bedrock Converse API khi con gái tôi nhờ tôi giúp chuẩn bị cho kỳ thi vật lý.

Cuối tuần vừa rồi, bàn ăn nhà tôi đầy các tờ bài tập luyện thi với những sơ đồ phức tạp, các vectơ lực và phương trình. Con gái tôi gặp khó khăn trong việc hình dung cách giải. Đó là lúc tôi nhận ra đây là cơ hội hoàn hảo để thử nghiệm khả năng đa phương thức mới ra mắt. Tôi chụp ảnh một đề bài khó có nhiều hình vẽ và ký hiệu toán học, rồi dùng Converse API để xây dựng một ứng dụng nhỏ có thể phân tích hình ảnh đó. Cùng nhau, chúng tôi tải lên đề thi vật lý và yêu cầu mô hình giải thích cách giải từng câu hỏi.

Việc tiếp theo đã khiến cả hai chúng tôi bất ngờ – mô hình đã nhận diện sơ đồ, ngôn ngữ tiếng Pháp và kí hiệu toán học, và giải thích chi tiết từng bước cách giải bài tập. Khi chúng tôi hỏi thêm về những khái niệm cụ thể, mô hình vẫn giữ được ngữ cảnh xuyên suốt, tạo cảm giác như một gia sư trực tuyến thực sự.

# Effet Doppler avec une Source Sonore en Rotation

## Analyse du problème

Ce problème concerne l'effet Doppler produit par une source sonore en rotation. Une source émettant un son à 1500 Hz tourne sur une table tournante dans le sens antihoraire, et nous devons déterminer comment les fréquences sont perçues par un microphone fixe.

## Concepts clés

L'effet Doppler se produit lorsqu'il y a un mouvement relatif entre une source sonore et un observateur. La fréquence perçue dépend de si la source se rapproche ou s'éloigne de l'observateur.

La formule de l'effet Doppler est:

- Pour une source qui se rapproche: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} - v_{source}}$

- Pour une source qui s'éloigne: $f_{observée} = f_{source} \cdot \frac{v_{son}}{v_{son} + v_{source}}$

## Solution étape par étape

### Étape 1: Analyser le mouvement de la source

La source tourne sur un cercle et le microphone est fixe à 40 cm du centre de rotation. Aux différentes positions (a, b, c), la source a des vitesses radiales différentes par rapport au microphone:

- Position a: La source se déplace perpendiculairement à la ligne source-microphone (vitesse radiale nulle)

- Position b: La source s'éloigne du microphone (vitesse radiale positive)

- Position c: La source se rapproche du microphone (vitesse radiale négative)

### Étape 2: Déterminer l'effet sur les fréquences perçues

- À la position a: Pas d'effet Doppler car la vitesse radiale est nulle, donc $f_a = f_{source} = 1500$ Hz

- À la position b: La source s'éloigne, donc $f_b < f_{source}$, donc $f_b < 1500$ Hz

- À la position c: La source se rapproche, donc $f_c > f_{source}$, donc $f_c > 1500$ Hz

### Étape 3: Comparer les fréquences

D'après notre analyse:

- $f_a = 1500$ Hz

- $f_b < 1500$ Hz

- $f_c > 1500$ Hz

Donc: $f_c > f_a > f_b$

## Conclusion

La proposition correcte est: $f_c > f_a > f_b$

Cette réponse correspond à la troisième proposition dans l'énoncé. Lorsque la source tourne, la fréquence perçue est plus élevée quand la source se rapproche (position c), égale à la fréquence émise quand la source se déplace perpendiculairement (position a), et plus basse quand la source s'éloigne (position b)

Mô hình sử dụng chính ngôn ngữ của đề bài để trả lời. Sau khi phân tích cẩn thận, nó cho rằng đáp án đúng là f_c > f_a > f_b (và kết quả đó hoàn toàn chính xác!).

Điểm nổi bật là cách Converse API xử lý mượt mà đầu vào đa phương thức. Với tư cách là một builder, tôi không phải lo lắng về sự phức tạp khi xử lý hình ảnh cùng với văn bản — API đã quản lý toàn bộ phần phức tạp đó và trả về các phản hồi có cấu trúc mà ứng dụng đơn giản của tôi có thể hiển thị trực tiếp cho con gái tôi.

Đây là đoạn mã tôi đã viết bằng ngôn ngữ lập trình Swift, chỉ để cho thấy rằng Python không phải là lựa chọn duy nhất của bạn đâu 😇

private let modelId = "us.mistral.pixtral-large-2502-v1:0"

// Define the system prompt that instructs Claude how to respond

let systemPrompt = """

You are a math and physics tutor. Your task is to:

1. Read and understand the math or physics problem in the image

2. Provide a clear, step-by-step solution to the problem

3. Briefly explain any relevant concepts used in solving the problem

4. Be precise and accurate in your calculations

5. Use mathematical notation when appropriate

Format your response with clear section headings and numbered steps.

"""

let system: BedrockRuntimeClientTypes.SystemContentBlock = .text(systemPrompt)

// Create the user message with text prompt and image

let userPrompt = "Please solve this math or physics problem. Show all steps and explain the concepts involved."

let prompt: BedrockRuntimeClientTypes.ContentBlock = .text(userPrompt)

let image: BedrockRuntimeClientTypes.ContentBlock = .image(.init(format: .jpeg, source: .bytes(finalImageData)))

// Create the user message with both text and image content

let userMessage = BedrockRuntimeClientTypes.Message(

    content: [prompt, image],

    role: .user

)

// Initialize the messages array with the user message

var messages: [BedrockRuntimeClientTypes.Message] = []

messages.append(userMessage)

// Configure the inference parameters

let inferenceConfig: BedrockRuntimeClientTypes.InferenceConfiguration = .init(maxTokens: 4096, temperature: 0.0)

// Create the input for the Converse API with streaming

let input = ConverseStreamInput(inferenceConfig: inferenceConfig, messages: messages, modelId: modelId, system: [system])

// Make the streaming request

do {

    // Process the stream

    let response = try await bedrockClient.converseStream(input: input)

    // Iterate through the stream events

    for try await event in stream {

        switch event {

        case .messagestart:

            print("AI-assistant started to stream")

        case let .contentblockdelta(deltaEvent):

            // Handle text content as it arrives

            if case let .text(text) = deltaEvent.delta {

                DispatchQueue.main.async {

                    self.streamedResponse += text

                }

            }

        case .messagestop:

            print("Stream ended")

            // Create a complete assistant message from the streamed response

            let assistantMessage = BedrockRuntimeClientTypes.Message(

                content: [.text(self.streamedResponse)],

                role: .assistant

            )

            messages.append(assistantMessage)

        default:

            break

        }

    }

Kết quả hiển thị trong ứng dụng thực sự ấn tượng.

Khi đến kỳ thi, con gái tôi đã tự tin và có chuẩn bị hơn hẳn — và tôi có thêm một ví dụ thực tế rõ ràng về việc các khả năng đa phương thức trong Amazon Bedrock có thể cải thiện trải nghiệm người dùng thế nào.

Bắt đầu sử dụng ngay hôm nay

Mô hình mới hiện đã có sẵn thông qua các điểm cuối API theo Khu vực sau: US East (Ohio, N. Virginia), US West (Oregon), và châu Âu (Frankfurt, Ireland, Paris, Stockholm). Việc triển khai tại nhiều vùng giúp đáp ứng yêu cầu về lưu trữ dữ liệu và giảm độ trễ truy cập.

Bạn có thể bắt đầu sử dụng mô hình qua AWS Management Console hoặc thông qua AWS Command Line Interface (AWS CLI) và AWS SDK với ID mô hình mistral.pixtral-large-2502-v1:0.

Việc ra mắt này là một bước tiến quan trọng trong việc đưa AI đa phương thức hiện đại đến tay các nhà phát triển và tổ chức ở nhiều quy mô. Bằng cách kết hợp mô hình tiên tiến từ Mistral AI với hạ tầng serverless của AWS, bạn có thể tập trung xây dựng ứng dụng sáng tạo mà không phải lo về việc quản trị phức tạp phía sau.

Hãy truy cập bảng điều khiển Amazon Bedrock để bắt đầu thử nghiệm Pixtral Large 25.02 và khám phá cách nó có thể nâng cao ứng dụng AI của bạn.

Sébastien Stormacq

Seb đã bắt đầu viết code từ khi lần đầu chạm vào chiếc Commodore 64 vào giữa thập niên 80. Anh truyền cảm hứng cho các builder trong việc khai thác giá trị của điện toán đám mây AWS, bằng sự kết hợp đặc biệt giữa đam mê, nhiệt huyết, tinh thần vì khách hàng, sự tò mò và óc sáng tạo. Mối quan tâm của anh là kiến trúc phần mềm, công cụ dành cho lập trình viên và điện toán di động. Nếu bạn muốn bán cho anh thứ gì đó, hãy chắc chắn rằng nó có một API. Hãy theo dõi @sebsto trên Bluesky, X, Mastodon và các nền tảng khác.

AWS Study Group

AWS công bố mô hình Pixtral Large 25.02 trong Amazon Bedrock dưới dạng serverless