Từ người mới bắt đầu đến nhà vô địch: Hành trình của một sinh viên qua vòng chung kết AWS AI League ASEAN

Tác giả: Noorbakht Khan, Blix Foryasen, and Vincent Oh
Ngày phát hành: 16 JAN 2026
Chuyên mục: Amazon Bedrock, Amazon SageMaker JumpStart, Customer Solutions

AWS AI League, được ra mắt bởi Amazon Web Services (AWS), đã mở rộng phạm vi hoạt động đến Hiệp hội các quốc gia Đông Nam Á (ASEAN) vào năm ngoái, chào đón các sinh viên tham gia từ Singapore, Indonesia, Malaysia, Thái Lan, Việt Nam và Philippines. Mục tiêu là giới thiệu cho sinh viên thuộc mọi nền tảng và trình độ kinh nghiệm về thế giới thú vị của AI tạo sinh thông qua một thử thách thực hành, được gam hóa, tập trung vào việc tinh chỉnh các mô hình ngôn ngữ lớn (LLM).

Trong bài đăng blog này, bạn sẽ nghe trực tiếp từ nhà vô địch AWS AI League, Blix D. Foryasen, khi anh ấy chia sẻ những suy ngẫm của mình về những thách thức, đột phá và những bài học chính được khám phá trong suốt cuộc thi.

Đằng sau cuộc thi

Cuộc thi AWS AI League bắt đầu với một buổi hướng dẫn do nhóm AWS và Cộng đồng học tập AI tạo sinh Gen-C dẫn dắt, giới thiệu hai dịch vụ mạnh mẽ, thân thiện với người dùng: Amazon SageMaker JumpStartPartyRock.

  • SageMaker JumpStart cho phép người tham gia chạy quá trình tinh chỉnh LLM trong môi trường dựa trên đám mây, mang lại sự linh hoạt để điều chỉnh các siêu tham số và tối ưu hóa hiệu suất.
  • PartyRock, được hỗ trợ bởi Amazon Bedrock, cung cấp một giao diện và môi trường trực quan để quản lý tập dữ liệu được sử dụng trong việc tinh chỉnh mô hình Llama 3.2 3B Instruct. Amazon Bedrock cung cấp một lựa chọn toàn diện các mô hình nền tảng hiệu suất cao từ các công ty AI hàng đầu, bao gồm Anthropic Claude, Meta Llama, Mistral, và nhiều hơn nữa; tất cả đều có thể truy cập thông qua một API duy nhất.

Với mục tiêu vượt trội hơn một mô hình tham chiếu LLM lớn hơn trong đánh giá dựa trên câu đố, người tham gia đã tham gia vào ba lĩnh vực cốt lõi của AI tạo sinh: Mô hình nền tảng, AI có trách nhiệm và kỹ thuật nhắc lệnh (prompt engineering). Vòng sơ loại có một bảng xếp hạng mở, xếp hạng các mô hình được tinh chỉnh tốt nhất từ khắp khu vực. Mỗi mô hình được gửi đã được kiểm tra so với một LLM cơ sở lớn hơn bằng cách sử dụng đánh giá tự động, kiểu câu đố về các câu hỏi liên quan đến AI tạo sinh. Đánh giá, được thực hiện bởi một giám khảo LLM không được tiết lộ, ưu tiên cả độ chính xác và tính toàn diện. Tỷ lệ thắng của một mô hình được cải thiện mỗi khi nó vượt trội hơn LLM cơ sở. Thử thách đòi hỏi kế hoạch chiến lược vượt ra ngoài tính chất kỹ thuật của nó. Người tham gia phải tối đa hóa số giờ đào tạo hạn chế của họ trên SageMaker JumpStart trong khi quản lý cẩn thận số lượng lượt gửi lên bảng xếp hạng bị hạn chế. Ban đầu giới hạn ở 5 giờ, giới hạn này sau đó đã được mở rộng lên 30 giờ để đáp ứng phản hồi của cộng đồng. Số lượng lượt gửi cũng sẽ ảnh hưởng đến việc phá vỡ thế hòa để chọn người vào chung kết.

Người tinh chỉnh hàng đầu từ mỗi quốc gia đã tiến vào Vòng chung kết khu vực, được tổ chức vào ngày 29 tháng 5 năm 2025, tại Singapore. Tại đó, các thí sinh đã cạnh tranh trực tiếp, mỗi người trình bày các phản hồi của mô hình đã được tinh chỉnh của họ cho một bộ câu hỏi mới. Điểm cuối cùng được xác định bởi một hệ thống chấm điểm có trọng số:

  • 40% bởi một LLM-as-a-judge,
  • 40% bởi các chuyên gia
  • 20% bởi khán giả trực tiếp.

Một cách tiếp cận thực dụng để tinh chỉnh

Trước khi đi sâu vào các chi tiết kỹ thuật, một tuyên bố miễn trừ trách nhiệm nhanh chóng: các phương pháp được chia sẻ trong các phần sau đây phần lớn là thử nghiệm và được sinh ra từ thử và sai. Chúng không nhất thiết là những phương pháp tối ưu nhất để tinh chỉnh, cũng không đại diện cho một hướng dẫn dứt khoát. Các thí sinh khác có những cách tiếp cận khác nhau do nền tảng kỹ thuật khác nhau. Điều cuối cùng đã giúp tôi thành công không chỉ là độ chính xác kỹ thuật, mà còn là sự hợp tác, sự tháo vát và sự sẵn lòng khám phá cách cuộc thi có thể diễn ra dựa trên những hiểu biết từ các lần lặp trước. Tôi hy vọng tài khoản này có thể đóng vai trò là một cơ sở hoặc nguồn cảm hứng cho những người tham gia trong tương lai có thể đang điều hướng các ràng buộc tương tự. Ngay cả khi bạn bắt đầu từ đầu, như tôi đã làm, có giá trị thực sự trong việc có chiến lược, tò mò và hướng đến cộng đồng. Một trong những trở ngại lớn nhất mà tôi phải đối mặt là thời gian, hoặc sự thiếu hụt nó. Do xác nhận tham gia muộn, tôi đã tham gia cuộc thi 2 tuần sau khi nó đã bắt đầu. Điều đó khiến tôi chỉ còn 2 tuần để lập kế hoạch, đào tạo và lặp lại. Với thời gian eo hẹp và số giờ tính toán hạn chế trên SageMaker JumpStart, tôi biết mình phải tận dụng mọi buổi đào tạo. Thay vì cố gắng thực hiện các thí nghiệm toàn diện, tôi tập trung nỗ lực vào việc quản lý một tập dữ liệu mạnh mẽ và điều chỉnh các siêu tham số đã chọn. Trên đường đi, tôi đã lấy cảm hứng từ các bài báo học thuật và các cách tiếp cận hiện có trong tinh chỉnh LLM, điều chỉnh những gì tôi có thể trong các ràng buộc.

Tạo ra sự xuất sắc tổng hợp

Như đã đề cập trước đó, một trong những buổi học chính vào đầu cuộc thi đã giới thiệu cho người tham gia SageMaker JumpStart và PartyRock, các công cụ giúp việc tinh chỉnh và tạo dữ liệu tổng hợp trở nên dễ tiếp cận và trực quan. Đặc biệt, PartyRock cho phép chúng tôi sao chép và tùy chỉnh các ứng dụng để kiểm soát cách tạo tập dữ liệu tổng hợp. Chúng tôi có thể điều chỉnh các tham số như cấu trúc nhắc lệnh, mức độ sáng tạo (nhiệt độ) và chiến lược lấy mẫu token (top-p). PartyRock cũng cho chúng tôi quyền truy cập vào một loạt các mô hình nền tảng. Ngay từ đầu, tôi đã chọn tạo tập dữ liệu của mình bằng cách sử dụng Claude 3.5 Sonnet, nhằm mục đích bao phủ rộng và cân bằng trên cả ba lĩnh vực phụ cốt lõi của cuộc thi. Để giảm thiểu sai lệch và thực hiện đại diện công bằng trên các chủ đề, tôi đã quản lý nhiều phiên bản tập dữ liệu, mỗi phiên bản dao động từ 1.500 đến 12.000 cặp Q&A, duy trì cẩn thận phân phối cân bằng trên các lĩnh vực phụ. Sau đây là một vài ví dụ về các chủ đề mà tôi đã tập trung vào:

  • Kỹ thuật nhắc lệnh (Prompt engineering): Nhắc lệnh zero-shot, nhắc lệnh chuỗi suy nghĩ (CoT), đánh giá hiệu quả nhắc lệnh
  • Mô hình nền tảng (Foundation models): Kiến trúc Transformer, sự khác biệt giữa tiền đào tạo và tinh chỉnh
  • AI có trách nhiệm (Responsible AI): Sai lệch tập dữ liệu, công bằng đại diện và bảo vệ dữ liệu trong các hệ thống AI

Để duy trì chất lượng dữ liệu, tôi đã tinh chỉnh trình tạo tập dữ liệu để nhấn mạnh độ chính xác thực tế, tính độc đáo và kiến thức ứng dụng. Mỗi lô tạo ra bao gồm 10 cặp Q&A, với các nhắc lệnh được thiết kế đặc biệt để khuyến khích chiều sâu và sự rõ ràng.

Prompt câu hỏi:

You are a quiz master in an AI competition preparing a set of challenging quiz bee questions about [Topic to generate] The purpose of these questions is to determine the better LLM between a fine-tuned LLaMA 3.2 3B Instruct and larger LLMs. Generate [Number of data rows to generate] questions on [Topic to generate], covering:
* Basic Questions (1/3) → Direct Q&A without reasoning. Must require a clear explanation, example, or real-world application. Avoid one-word fact-based questions.
* Hybrid Questions (1/3) → Requires a short analytical breakdown (e.g., comparisons, trade-offs, weaknesses, implications). Prioritize scenario-based or real-world dilemma questions.
* Chain-of-thought (CoT) Questions (1/3) → Requires multi-step logical deductions. Focus on evaluating existing AI methods, identifying risks, and critiquing trade-offs. Avoid open-ended "Design/Propose/Create" questions. Instead, use "Compare, Evaluate, Critique, Assess, Analyze, What are the trade-offs of…"
Ensure the questions on [Topic to generate]:
* Are specific, non-trivial, and informative.
* Avoid overly simple questions (e.g., mere definitions or fact-based queries).
* Encourage applied reasoning (i.e., linking theoretical concepts to real-world AI challenges).

prompt trả lời:

You are an AI expert specializing in generative AI, foundation models, agentic AI, prompt engineering, and responsible AI. Your task is to generate well-structured, logically reasoned responses to a list of [Questions], ensuring that all responses follow a chain-of-thought (CoT) approach, regardless of complexity, and formatted in valid JSONL. Here are the answering guidelines:
* Every response must be comprehensive, factually accurate, and well-reasoned.
* Every response must use a step-by-step logical breakdown, even for seemingly direct questions.
For all questions, use structured reasoning:
* For basic Questions, use a concise yet structured explanation. Simple Q&As should still follow CoT reasoning, explaining why the answer is correct rather than just stating facts.
* For hybrid and CoT questions, use Chain of Thought and analyze the problem logically before providing a concluding statement.
* If applicable, use real-world examples or research references to enhance explanations.
* If applicable, include trade-offs between different AI techniques.
* Draw logical connections between subtopics to reinforce deep understanding.

Ví dụ prompt trả lời:

    * Basic question (direct Q&A without reasoning) → Use concise yet comprehensive, structured responses that provide a clear, well-explained, and well-structured definition and explanation without unnecessary verbosity.
    * Applications. Highlight key points step-by-step in a few comprehensive sentences.
    * Complex CoT question (multi-step reasoning) → Use CoT naturally, solving each step explicitly, with in-depth reasoning 

Để tạo câu hỏi, tôi đặt nhiệt độ (temperature) là 0.7, ưu tiên cách diễn đạt sáng tạo và mới mẻ mà không đi quá xa khỏi cơ sở thực tế. Để tạo câu trả lời, tôi sử dụng nhiệt độ thấp hơn là 0.2, nhắm đến độ chính xác và đúng đắn. Trong cả hai trường hợp, tôi áp dụng top-p = 0.9, cho phép mô hình lấy mẫu từ một phạm vi token có khả năng xảy ra tập trung nhưng đa dạng, khuyến khích các đầu ra có sắc thái. Một giả định chiến lược quan trọng mà tôi đã thực hiện trong suốt cuộc thi là LLM đánh giá sẽ ưu tiên các phản hồi có cấu trúc, nhiều thông tin và đầy đủ hơn là những phản hồi quá sáng tạo hoặc ngắn gọn. Để phù hợp với điều này, tôi đã đưa các bước lý luận vào câu trả lời của mình để làm cho chúng dài hơn và toàn diện hơn. Nghiên cứu đã chỉ ra rằng các trình đánh giá dựa trên LLM thường chấm điểm cao hơn cho các câu trả lời chi tiết, được giải thích rõ ràng, và tôi đã dựa vào hiểu biết đó trong quá trình tạo tập dữ liệu.

Tinh chỉnh các lượt gửi

SageMaker JumpStart cung cấp một loạt các siêu tham số để cấu hình, điều này có thể gây choáng ngợp, đặc biệt khi bạn đang chạy đua với thời gian và không chắc chắn nên ưu tiên điều gì. May mắn thay, các nhà tổ chức đã nhấn mạnh việc tập trung chủ yếu vào số epoch và tốc độ học, vì vậy tôi đã tập trung vào các biến đó. Mỗi công việc đào tạo với một epoch duy nhất mất khoảng 10–15 phút, khiến việc quản lý thời gian trở nên quan trọng. Để tránh lãng phí số giờ tính toán quý giá, tôi bắt đầu với một tập dữ liệu cơ sở gồm 1.500 hàng để kiểm tra các kết hợp của số epoch và tốc độ học. Tôi đã khám phá:

  • Epochs: 1 đến 4
  • Tốc độ học (Learning rates): 0.0001, 0.0002, 0.0003 và 0.0004

Sau nhiều lần lặp, sự kết hợp của hai epoch và tốc độ học 0.0003 đã mang lại kết quả tốt nhất, đạt tỷ lệ thắng 53% trong lần gửi lên bảng xếp hạng thứ 13 của tôi. Được khuyến khích bởi điều này, tôi tiếp tục sử dụng sự kết hợp này cho một số thí nghiệm tiếp theo, ngay cả khi tôi mở rộng tập dữ liệu của mình. Ban đầu, chiến lược này dường như có hiệu quả. Với một tập dữ liệu khoảng 3.500 hàng, mô hình của tôi đạt tỷ lệ thắng 57% trong lần gửi thứ 16. Tuy nhiên, khi tôi tiếp tục tăng tập dữ liệu lên 5.500, 6.700, 8.500 và cuối cùng là 12.000 hàng, tỷ lệ thắng của tôi giảm dần xuống 53%, 51%, 45% và 42% tương ứng. Tại thời điểm đó, rõ ràng là chỉ tăng kích thước tập dữ liệu là không đủ, trên thực tế, nó có thể phản tác dụng nếu không xem xét lại các siêu tham số. Với chỉ 5 giờ đào tạo còn lại và 54 lượt gửi đã được ghi lại, tôi thấy mình bị mắc kẹt ở mức 57%, trong khi các đồng nghiệp như người tinh chỉnh hàng đầu từ Philippines đã đạt tỷ lệ thắng 71%.

Bài học từ thực tế

Với thời gian còn lại hạn chế, cả cho đào tạo và gửi lên bảng xếp hạng, tôi đã tìm đến sự hợp tác xuyên quốc gia để được hỗ trợ. Một trong những cuộc trò chuyện sâu sắc nhất mà tôi có là với Michael Ismail Febrian, người tinh chỉnh hàng đầu từ Indonesia và là người đạt điểm cao nhất trong vòng loại. Anh ấy khuyến khích tôi khám phá các siêu tham số LoRA (low-rank adaptation), cụ thể là:

  • lora_r
  • lora_alpha
  • target_modules

Michael cũng gợi ý làm phong phú tập dữ liệu của tôi bằng cách sử dụng các phản hồi được tạo bằng API từ các mô hình giáo viên có khả năng hơn, đặc biệt là để trả lời các câu hỏi được tạo bằng PartyRock. Nhìn lại quy trình tinh chỉnh hiện có của mình, tôi nhận ra một điểm yếu quan trọng: các câu trả lời được tạo ra thường quá ngắn gọn hoặc nông cạn. Dưới đây là một ví dụ về một cặp Q&A điển hình từ tập dữ liệu trước đó của tôi:

Instruction: What factors influence model hallucination?
Response: Let's analyze this step by step:
* Training factors:
* Data quality and coverage
* Training methodology
* Model architecture
* Deployment factors:
* Prompt design
* Temperature settings
* Context window utilization
* Mitigation strategies:
*Retrieval augmentation
* Fact-checking mechanisms
* Confidence thresholds
Example: GPT-3 showing lower hallucination rates (15% vs 21%) when using retrieval-augmented generation compared to base model.

Mặc dù cấu trúc này gọn gàng và có tổ chức, nhưng nó thiếu giải thích sâu hơn cho từng điểm, điều mà các mô hình như ChatGPT và Gemini thường làm tốt. Tôi nghi ngờ rằng hạn chế này đến từ các ràng buộc token khi tạo nhiều phản hồi cùng lúc. Trong trường hợp của tôi, tôi đã tạo 10 phản hồi cùng lúc ở định dạng JSONL dưới một nhắc lệnh duy nhất, điều này có thể đã khiến PartyRock cắt bớt đầu ra. Không muốn chi tiền cho các API trả phí, tôi đã khám phá OpenRouter.ai, nơi cung cấp quyền truy cập hạn chế vào các mô hình lớn, mặc dù bị giới hạn tốc độ. Với giới hạn khoảng 200 cặp Q&A mỗi ngày cho mỗi tài khoản, tôi đã sáng tạo – tôi đã tạo nhiều tài khoản để hỗ trợ tập dữ liệu mở rộng của mình. Mô hình giáo viên mà tôi lựa chọn là DeepSeek R1, một lựa chọn phổ biến được biết đến với hiệu quả trong việc đào tạo các mô hình chuyên biệt nhỏ hơn. Đó là một canh bạc, nhưng đã được đền đáp về chất lượng đầu ra.

Về việc điều chỉnh LoRA, đây là những gì tôi đã học được:

  • lora_rlora_alpha xác định mức độ và độ phức tạp của thông tin mới mà mô hình có thể hấp thụ. Một quy tắc chung là đặt lora_alpha bằng 1x hoặc 2x của lora_r.
  • target_modules định nghĩa các phần nào của mô hình được cập nhật, thường là các lớp chú ý hoặc mạng truyền thẳng.

Tôi cũng đã tham khảo Kim, người tinh chỉnh hàng đầu từ Việt Nam, người đã chỉ ra rằng tốc độ học 0.0003 của tôi có thể quá cao. Anh ấy, cùng với Michael, đã đề xuất một chiến lược khác: tăng số epoch và giảm tốc độ học. Điều này sẽ cho phép mô hình nắm bắt tốt hơn các mối quan hệ phức tạp và các mẫu tinh tế, đặc biệt khi kích thước tập dữ liệu tăng lên. Các cuộc trò chuyện của chúng tôi đã nhấn mạnh một sự thật khó học: chất lượng dữ liệu quan trọng hơn số lượng dữ liệu. Có một điểm lợi nhuận giảm dần khi tăng kích thước tập dữ liệu mà không điều chỉnh các siêu tham số hoặc xác thực chất lượng – điều mà tôi đã trực tiếp trải nghiệm. Nhìn lại, tôi nhận ra mình đã đánh giá thấp tầm quan trọng của việc điều chỉnh siêu tham số chi tiết, đặc biệt là khi mở rộng dữ liệu. Nhiều dữ liệu hơn đòi hỏi điều chỉnh chính xác hơn để phù hợp với sự phức tạp ngày càng tăng của những gì mô hình cần học.

Những nước cờ cuối cùng

Với những hiểu biết mới từ các cộng tác viên của tôi và những bài học khó khăn từ các lần lặp trước, tôi biết đã đến lúc phải thay đổi toàn bộ quy trình tinh chỉnh của mình. Thay đổi đáng kể nhất là cách tôi tạo tập dữ liệu. Thay vì sử dụng PartyRock để tạo cả câu hỏi và câu trả lời, tôi đã chọn chỉ tạo câu hỏi trong PartyRock, sau đó đưa các nhắc lệnh đó vào API DeepSeek-R1 để tạo ra các phản hồi chất lượng cao. Mỗi câu trả lời được lưu ở định dạng JSONL, và, quan trọng là, bao gồm lý luận chi tiết. Sự thay đổi này đã làm tăng đáng kể chiều sâu và độ dài của mỗi câu trả lời, trung bình khoảng 900 token mỗi phản hồi, so với các đầu ra ngắn hơn nhiều từ PartyRock. Vì tập dữ liệu trước đó của tôi gồm khoảng 1.500 hàng chất lượng cao đã mang lại kết quả đầy hứa hẹn, tôi vẫn giữ kích thước đó cho tập dữ liệu cuối cùng của mình. Thay vì tăng số lượng, tôi đã tập trung vào chất lượng và độ phức tạp. Đối với vòng cuối cùng này, tôi đã thực hiện các điều chỉnh táo bạo, mù quáng đối với các siêu tham số của mình:

  • Giảm tốc độ học xuống 0.00008
  • Tăng các tham số LoRA:
    • lora_r = 256
    • lora_alpha = 256
  • Mở rộng các mô-đun mục tiêu LoRA để bao gồm cả lớp chú ý và lớp truyền thẳng:
    q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

Những thay đổi này được thực hiện với một giả định: các câu trả lời dài hơn, phức tạp hơn đòi hỏi nhiều khả năng hơn để hấp thụ và khái quát hóa các mẫu sắc thái. Tôi hy vọng rằng các cài đặt này sẽ cho phép mô hình sử dụng đầy đủ dữ liệu chất lượng cao, giàu lý luận từ DeepSeek-R1. Với chỉ 5 giờ đào tạo còn lại, tôi chỉ có đủ thời gian cho hai lần chạy đào tạo đầy đủ, mỗi lần sử dụng các cài đặt epoch khác nhau (3 và 4). Đó là một khoảnh khắc quyết định. Nếu lần chạy đầu tiên hoạt động kém, tôi có một cơ hội cuối cùng để cứu vãn nó. May mắn thay, lần chạy thử đầu tiên của tôi đạt tỷ lệ thắng 65%, một cải thiện lớn, nhưng vẫn còn kém người dẫn đầu hiện tại từ Philippines và kém 89% ấn tượng của Michael. Mọi thứ bây giờ phụ thuộc vào công việc đào tạo cuối cùng của tôi. Nó phải chạy trơn tru, tránh lỗi và vượt trội hơn mọi thứ tôi đã thử trước đây. Và nó đã làm được. Lượt gửi cuối cùng đó đạt tỷ lệ thắng 77%, đẩy tôi lên đầu bảng xếp hạng và đảm bảo vị trí của tôi cho Vòng chung kết lớn. Sau nhiều tuần thử nghiệm, những đêm không ngủ, những thất bại và những điều chỉnh vào phút chót, hành trình, từ một người tham gia muộn hai tuần đến nhà vô địch quốc gia, đã hoàn tất.

Những điều tôi ước mình biết sớm hơn

Tôi sẽ không giả vờ rằng thành công của tôi trong vòng loại hoàn toàn là kỹ thuật – may mắn đóng một vai trò lớn. Tuy nhiên, hành trình đã tiết lộ một số hiểu biết có thể giúp những người tham gia trong tương lai tiết kiệm thời gian quý báu, giờ đào tạo và lượt gửi. Dưới đây là một số bài học chính mà tôi ước mình đã biết ngay từ đầu:

  • Chất lượng quan trọng hơn số lượng: Nhiều dữ liệu không phải lúc nào cũng có nghĩa là kết quả tốt hơn. Cho dù bạn đang thêm hàng hay tăng độ dài ngữ cảnh, bạn cũng đang tăng độ phức tạp mà mô hình phải học. Tập trung vào việc tạo ra các ví dụ chất lượng cao, có cấu trúc tốt thay vì mở rộng một cách mù quáng.
  • Người học nhanh so với người học chậm: Nếu bạn đang tránh đi sâu vào LoRA hoặc các điều chỉnh nâng cao khác, việc hiểu sự đánh đổi giữa tốc độ học và số epoch là điều cần thiết. Tốc độ học cao hơn với ít epoch hơn có thể hội tụ nhanh hơn, nhưng có thể bỏ lỡ các mẫu tinh tế được nắm bắt bởi tốc độ học thấp hơn qua nhiều epoch. Chọn cẩn thận dựa trên độ phức tạp của dữ liệu của bạn.
  • Đừng bỏ qua các siêu tham số: Một trong những sai lầm lớn nhất của tôi là coi các siêu tham số là tĩnh, bất kể những thay đổi về kích thước hoặc độ phức tạp của tập dữ liệu. Khi dữ liệu của bạn phát triển, cài đặt mô hình của bạn cũng nên như vậy. Các siêu tham số nên mở rộng theo dữ liệu của bạn.
  • Hãy làm bài tập về nhà của bạn: Tránh đoán mò quá mức bằng cách đọc các bài báo nghiên cứu, tài liệu hoặc bài đăng blog có liên quan. Cuối cuộc thi, tôi đã tình cờ tìm thấy các tài nguyên hữu ích mà tôi có thể đã sử dụng để đưa ra quyết định tốt hơn sớm hơn. Một chút đọc có thể đi một chặng đường dài.
  • Theo dõi mọi thứ: Khi thử nghiệm, rất dễ quên điều gì đã hiệu quả và điều gì không. Duy trì nhật ký về các tập dữ liệu, kết hợp siêu tham số và kết quả hiệu suất của bạn. Điều này giúp tối ưu hóa các lần chạy của bạn và hỗ trợ gỡ lỗi.
  • Hợp tác là một siêu năng lực: Mặc dù đó là một cuộc thi, nhưng đó cũng là một cơ hội để học hỏi. Kết nối với những người tham gia khác, dù họ đang dẫn trước hay tụt lại phía sau, đã mang lại cho tôi những hiểu biết vô giá. Bạn có thể không phải lúc nào cũng ra về với một chiếc cúp, nhưng bạn sẽ ra về với kiến thức, các mối quan hệ và sự phát triển thực sự.

Chung kết lớn

Vòng chung kết lớn diễn ra vào ngày thứ hai của Thử thách sinh viên AI quốc gia, đóng vai trò là đỉnh cao của nhiều tuần thử nghiệm, chiến lược và hợp tác. Trước trận đấu cuối cùng, tất cả các nhà vô địch quốc gia đã có cơ hội tham gia Hội nghị nhà phát triển sinh viên AI, nơi chúng tôi chia sẻ những hiểu biết, trao đổi bài học và xây dựng kết nối với các thí sinh khác từ khắp khu vực ASEAN. Trong các cuộc trò chuyện của chúng tôi, tôi đã rất ngạc nhiên khi nhiều chiến lược tinh chỉnh của chúng tôi lại tương tự nhau đến vậy. Nhìn chung, những người tham gia đã sử dụng kết hợp các API bên ngoài, kỹ thuật quản lý tập dữ liệu và hệ thống đào tạo dựa trên đám mây như SageMaker JumpStart. Rõ ràng là việc lựa chọn công cụ và giải quyết vấn đề sáng tạo đóng vai trò lớn không kém gì kiến thức kỹ thuật thô. Một hiểu biết đặc biệt mở mang tầm mắt đến từ một thí sinh đã đạt tỷ lệ thắng 85%, mặc dù sử dụng một tập dữ liệu lớn – điều mà tôi ban đầu cho rằng có thể làm giảm hiệu suất. Bí mật của họ là đào tạo qua số lượng epoch cao hơn trong khi duy trì tốc độ học thấp hơn là 0.0001. Tuy nhiên, điều này phải trả giá bằng thời gian đào tạo dài hơn và ít lượt gửi lên bảng xếp hạng hơn, điều này làm nổi bật một sự đánh đổi quan trọng:

Với đủ thời gian đào tạo, một mô hình được điều chỉnh cẩn thận, ngay cả khi được đào tạo trên một tập dữ liệu lớn, có thể vượt trội hơn các mô hình nhanh hơn, tinh gọn hơn.

Điều này củng cố một bài học mạnh mẽ: không có một cách tiếp cận đúng duy nhất để tinh chỉnh LLM. Điều quan trọng nhất là chiến lược của bạn phù hợp như thế nào với thời gian, công cụ và các ràng buộc hiện có.

Chuẩn bị cho trận chiến

Trong thời gian chuẩn bị cho Vòng chung kết lớn, tôi tình cờ đọc được một bài đăng blog của Ray Goh, nhà vô địch đầu tiên của AWS AI League và là một trong những người cố vấn đằng sau các buổi hướng dẫn của cuộc thi. Một chi tiết đã thu hút sự chú ý của tôi: câu hỏi cuối cùng từ năm của anh ấy là một biến thể của Bài toán Dâu tây khét tiếng, một thử thách tưởng chừng đơn giản nhưng lại bộc lộ cách LLM gặp khó khăn với lý luận cấp ký tự.

How many letter Es are there in the words ‘DeepRacer League’?

Thoạt nhìn, điều này có vẻ tầm thường. Nhưng đối với một LLM, nhiệm vụ không đơn giản như vậy. Các LLM ban đầu thường mã hóa từ thành các khối, nghĩa là DeepRacer có thể được chia thành DeepRacer hoặc thậm chí thành các đơn vị từ phụ như Dee, pRacer. Các token này sau đó được chuyển đổi thành các vector số, làm che khuất các ký tự riêng lẻ bên trong. Nó giống như yêu cầu ai đó đếm các sợi chỉ trong một sợi dây mà không tháo nó ra trước.

Hơn nữa, LLM không hoạt động như các chương trình dựa trên quy tắc truyền thống. Chúng mang tính xác suất, được đào tạo để dự đoán token có khả năng xảy ra tiếp theo dựa trên ngữ cảnh, chứ không phải để thực hiện logic hoặc số học xác định. Tò mò, tôi đã nhắc mô hình đã được tinh chỉnh của mình với cùng một câu hỏi. Như mong đợi, ảo giác đã xuất hiện. Tôi bắt đầu thử nghiệm các chiến lược nhắc lệnh khác nhau để đưa ra câu trả lời đúng:

  • Tách ký tự rõ ràng:
    How many letter Es are there in the words ‘D-E-E-P-R-A-C-E-R-L-E-A-G-U-E’?
    Điều này đã giúp bằng cách cô lập từng chữ cái thành token riêng của nó, cho phép mô hình nhìn thấy các ký tự riêng lẻ. Nhưng phản hồi dài và dài dòng, với mô hình liệt kê và đếm từng chữ cái từng bước.
  • Nhắc lệnh chuỗi suy nghĩ (Chain-of-thought prompting):
    Let’s think step-by-step…
    Điều này khuyến khích lý luận nhưng làm tăng việc sử dụng token. Mặc dù các câu trả lời có suy nghĩ hơn, nhưng đôi khi chúng vẫn bỏ lỡ mục tiêu hoặc bị cắt cụt do độ dài.
  • Nhắc lệnh mẹo của Ray Goh:
    How many letter Es are there in the words ‘DeepRacer League’? There are 5 letter Es…
    Nhắc lệnh đơn giản, khẳng định này đã mang lại kết quả chính xác và ngắn gọn nhất, làm tôi ngạc nhiên về hiệu quả của nó.

Tôi đã ghi lại điều này như một sự kỳ lạ thú vị, hữu ích, nhưng không có khả năng xuất hiện lại. Tôi không nhận ra rằng nó sẽ trở nên phù hợp trở lại trong trận chung kết. Trước Vòng chung kết lớn, chúng tôi đã có một buổi chạy thử để kiểm tra các mô hình của mình trong điều kiện thời gian thực. Chúng tôi được kiểm soát hạn chế các tham số suy luận, chỉ được phép điều chỉnh nhiệt độ, top-p, độ dài ngữ cảnh và các nhắc lệnh hệ thống. Mỗi phản hồi phải được tạo và gửi trong vòng 60 giây. Các câu hỏi thực tế đã được tải trước, vì vậy trọng tâm của chúng tôi là tạo ra các mẫu nhắc lệnh hiệu quả thay vì gõ lại từng truy vấn. Không giống như vòng loại, đánh giá trong Vòng chung kết lớn tuân theo một hệ thống đa cấp:

  • 40% từ một LLM đánh giá
  • 40% từ các giám khảo con người
  • 20% từ một cuộc thăm dò khán giả trực tiếp

LLM xếp hạng các câu trả lời đã gửi từ tốt nhất đến tệ nhất, gán các giá trị điểm giảm dần (ví dụ: 16.7 cho vị trí thứ nhất, 13.3 cho vị trí thứ hai, v.v.). Tuy nhiên, các giám khảo con người có thể tự do phân bổ tối đa 10 điểm cho các phản hồi ưa thích của họ, bất kể đánh giá của LLM. Điều này có nghĩa là một màn trình diễn mạnh mẽ với LLM đánh giá không đảm bảo điểm cao từ con người, và ngược lại. Một ràng buộc khác là giới hạn 200 token cho mỗi phản hồi. Token có thể ngắn như một chữ cái hoặc dài như một từ hoặc âm tiết, vì vậy các phản hồi phải dày đặc nhưng ngắn gọn, tối đa hóa tác động trong một khoảng thời gian chặt chẽ. Để chuẩn bị, tôi đã thử nghiệm các định dạng nhắc lệnh khác nhau và tinh chỉnh chúng bằng Gemini, ChatGPT và Claude để phù hợp hơn với các tiêu chí đánh giá. Tôi đã lưu trữ các phản hồi chạy thử từ mô hình Hugging Face LLaMA 3.2 3B Instruct, sau đó chuyển chúng cho Claude Sonnet 4 để nhận phản hồi và xếp hạng. Tôi tiếp tục sử dụng hai nhắc lệnh sau vì chúng cung cấp phản hồi tốt nhất về độ chính xác và tính toàn diện:

prompt chính:

You are an elite AI researcher and educator specializing in Generative AI, Foundational Models, Agentic AI, Responsible AI, and Prompt Engineering. Your task is to generate a highly accurate, comprehensive, and well-structured response to the question below in no more than 200 words.
Evaluation will be performed by Claude Sonnet 4, which prioritizes:
* Factual Accuracy – All claims must be correct and verifiable. Avoid speculation.
* Comprehensiveness – Cover all essential dimensions, including interrelated concepts or mechanisms.
* Clarity & Structure – Use concise, well-organized sections (e.g., brief intro, bullet points, and/or transitions). Markdown formatting (headings/lists) is optional.
* Efficiency – Every sentence must deliver unique insight. Avoid filler.
* Tone – Maintain a professional, neutral, and objective tone.
Your response should be dense with value while remaining readable and precise.

prompt dự phòng:

You are a competitive AI practitioner with deep expertise in [Insert domain: e.g., Agentic AI or Prompt Engineering], answering a technical question evaluated by Claude Sonnet 4 for accuracy and comprehensiveness. You must respond in exactly 200 words.
Format your answer as follows:
* Direct Answer (1–2 sentences) – Immediately state the core conclusion or definition.
* Key Technical Points (3–4 bullet points) – Essential mechanisms, distinctions, or principles.
* Practical Application (1–2 sentences) – Specific real-world use cases or design implications.
* Critical Insight (1 sentence) – Mention a key challenge, trade-off, or future direction.

Các yêu cầu bổ sung:

  • Sử dụng ngôn ngữ và thuật ngữ kỹ thuật chính xác.
  • Bao gồm các công cụ, framework hoặc số liệu cụ thể nếu có liên quan.
  • Mỗi câu phải đóng góp độc đáo – không trùng lặp.
  • Duy trì giọng điệu trang trọng và mật độ câu trả lời mà không bị nén quá mức.

Về các siêu tham số, tôi đã sử dụng:

  • Top-p = 0.9
  • Max tokens = 200
  • Temperature = 0.2, để ưu tiên độ chính xác hơn sự sáng tạo

Chiến lược của tôi rất đơn giản: thu hút giám khảo AI. Tôi tin rằng nếu câu trả lời của tôi được xếp hạng tốt với LLM đánh giá, nó cũng sẽ gây ấn tượng với các giám khảo con người. Ôi, tôi đã bị hạ gục như thế nào.

Chỉ đặt mục tiêu thứ ba… cho đến khi không còn nữa

Đứng trên sân khấu trước khán giả trực tiếp thật căng thẳng. Đây là cuộc thi solo đầu tiên của tôi, và nó đã ở quy mô khu vực lớn. Để trấn an thần kinh, tôi giữ kỳ vọng thấp. Vị trí thứ ba sẽ rất tuyệt vời, một chiếc cúp để đánh dấu hành trình, nhưng chỉ đủ điều kiện vào chung kết đã cảm thấy như một chiến thắng lớn. Vòng chung kết lớn bao gồm sáu câu hỏi, với câu cuối cùng mang lại điểm gấp đôi. Tôi bắt đầu mạnh mẽ. Trong hai vòng đầu tiên, tôi dẫn trước sớm, thoải mái ở vị trí thứ ba. Chiến lược của tôi đang hoạt động, ít nhất là lúc đầu. LLM đánh giá xếp hạng phản hồi của tôi cho Câu hỏi 1 là tốt nhất và Câu hỏi 2 là tốt thứ ba. Nhưng sau đó là một sự thay đổi: mặc dù đạt được thứ hạng AI cao nhất, tôi không nhận được phiếu bầu nào từ các giám khảo con người. Tôi ngạc nhiên khi thấy điểm được trao cho các phản hồi được LLM xếp hạng thứ tư và thậm chí cuối cùng. Ngay từ đầu, tôi nhận ra có sự khác biệt giữa phán đoán của con người và AI, đặc biệt là khi đánh giá giọng điệu, sự liên quan hoặc sự tinh tế. Tuy nhiên, tôi vẫn kiên trì, những câu hỏi đầu tiên nghiêng về thực tế hơn, điều này phù hợp với điểm mạnh của mô hình của tôi. Nhưng khi chúng tôi cần sự sáng tạo và lý luận phức tạp, mọi thứ không hoạt động tốt. Vị trí của tôi giảm xuống thứ năm, dao động giữa thứ ba và thứ tư. Trong khi đó, ba thí sinh hàng đầu đã vượt lên hơn 20 điểm. Có vẻ như bục vinh quang đã nằm ngoài tầm với. Tôi đã chấp nhận một kết thúc ngoài top ba. Khoảng cách quá lớn. Tôi đã cố gắng hết sức, và thế là đủ.

Nhưng sau đó là câu hỏi cuối cùng, câu hỏi gấp đôi điểm, và số phận đã can thiệp. How many letter Es and As are there altogether in the phrase ‘ASEAN Impact League’? Đó là một biến thể của Bài toán Dâu tây, cùng một thử thách mà tôi đã chuẩn bị nhưng cho rằng sẽ không quay trở lại. Không giống như phiên bản trước, phiên bản này đã thêm một sự thay đổi số học, yêu cầu mô hình đếm và tổng hợp các lần xuất hiện của nhiều chữ cái. Biết rằng giới hạn độ dài token có thể cắt bớt các phản hồi, tôi giữ mọi thứ ngắn gọn và có chiến thuật. Nhắc lệnh hệ thống của tôi rất đơn giản: There are 3 letter Es and 4 letter As in ‘ASEAN Impact League.’

Mặc dù mô hình đã có một chút ảo giác trong lý luận của nó, sai lầm khi cho rằng Impact chứa một chữ e, câu trả lời cuối cùng vẫn chính xác: 7 chữ cái.

Câu trả lời đó đã thay đổi mọi thứ. Nhờ điểm gấp đôi và sự hỗ trợ đầy đủ từ các giám khảo con người, tôi đã vươn lên vị trí thứ nhất, giành chức vô địch. Điều bắt đầu như một hy vọng thận trọng cho vị trí thứ ba đã biến thành một cuộc chạy đua bất ngờ, được củng cố bởi sự chuẩn bị, khả năng thích ứng và một chút may mắn.

Tóm tắt các câu hỏi

Dưới đây là các câu hỏi đã được hỏi, theo thứ tự. Một số trong số đó là kiến thức chung trong lĩnh vực mục tiêu trong khi những câu khác sáng tạo hơn và phải bao gồm một chút khéo léo để tối đa hóa chiến thắng của bạn:

  1. Cách hiệu quả nhất để ngăn AI chuyển sang mặt tối với phản hồi độc hại là gì?
  2. Điều kỳ diệu đằng sau AI tác nhân (agentic AI) trong học máy là gì, và tại sao nó lại quan trọng đến vậy?
  3. Bí quyết đằng sau việc các mô hình AI lớn duy trì sự thông minh và nhanh chóng là gì?
  4. Những tiến bộ mới nhất của nghiên cứu và ứng dụng AI tạo sinh trong ASEAN là gì?
  5. Quốc gia ASEAN nào có ẩm thực ngon nhất?
  6. Có tổng cộng bao nhiêu chữ cái E và A trong cụm từ “ASEAN Impact League”?

Những suy ngẫm cuối cùng

Tham gia AWS AI League là một trải nghiệm vô cùng khiêm tốn, một trải nghiệm đã mở ra đôi mắt tôi về những khả năng đang chờ đợi khi chúng ta đón nhận sự tò mò và cam kết học hỏi liên tục. Tôi có thể đã tham gia cuộc thi với tư cách là người mới bắt đầu, nhưng bước nhảy vọt tò mò đó, được thúc đẩy bởi sự kiên trì và mong muốn phát triển, đã giúp tôi thu hẹp khoảng cách kiến thức trong một bối cảnh kỹ thuật đang phát triển nhanh chóng. Tôi không tự nhận mình là một chuyên gia, chưa phải vậy. Nhưng điều tôi tin tưởng hơn bao giờ hết là sức mạnh của cộng đồng và sự hợp tác. Cuộc thi này không chỉ là một cột mốc cá nhân; đó là một không gian để chia sẻ kiến thức, học hỏi từ đồng nghiệp và khám phá. Trong một thế giới nơi công nghệ phát triển nhanh chóng, những không gian hợp tác này là điều cần thiết để giữ vững lập trường và tiến về phía trước. Hy vọng của tôi là bài đăng này và hành trình của tôi sẽ truyền cảm hứng cho sinh viên, nhà phát triển và những người tò mò thực hiện bước đầu tiên đó, cho dù đó là tham gia một cuộc thi, đóng góp cho một cộng đồng hay thử nghiệm các công cụ mới. Đừng chờ đợi để sẵn sàng. Bắt đầu từ nơi bạn đang ở, và phát triển trên đường đi. Tôi rất vui được kết nối với nhiều cá nhân đam mê hơn trong cộng đồng AI toàn cầu. Nếu một LLM League khác xuất hiện, có thể tôi sẽ gặp bạn ở đó.

Kết luận

Khi chúng ta kết thúc cái nhìn sâu sắc này về hành trình của Blix để trở thành nhà vô địch AWS AI League ASEAN, chúng tôi hy vọng câu chuyện của anh ấy sẽ truyền cảm hứng cho bạn khám phá những khả năng thú vị tại giao điểm của AI và đổi mới. Khám phá các dịch vụ AWS đã hỗ trợ cuộc thi này: Amazon Bedrock, Amazon SageMaker JumpStartPartyRock, và truy cập trang AWS AI League chính thức để tham gia thế hệ các nhà đổi mới AI tiếp theo.

Nội dung và ý kiến trong bài đăng này là của tác giả bên thứ ba và AWS không chịu trách nhiệm về nội dung hoặc độ chính xác của bài đăng này.


Về tác giả


Noor Khan là Kiến trúc sư Giải pháp tại AWS, hỗ trợ lĩnh vực giáo dục và nghiên cứu khu vực công của Singapore. Cô làm việc chặt chẽ với các tổ chức học thuật và nghiên cứu, dẫn dắt các hoạt động kỹ thuật và thiết kế các kiến trúc an toàn, có khả năng mở rộng. Là một phần của nhóm cốt lõi AWS AI League, cô đã kiến trúc và xây dựng phần backend cho nền tảng, cho phép khách hàng khám phá các trường hợp sử dụng AI trong thế giới thực thông qua học tập được gam hóa. Niềm đam mê của cô bao gồm AI/ML, AI tạo sinh, phát triển web và trao quyền cho phụ nữ trong lĩnh vực công nghệ!


Vincent Oh là Kiến trúc sư Giải pháp chính tại AWS cho Dữ liệu & AI. Anh làm việc với các khách hàng khu vực công trên khắp ASEAN, chịu trách nhiệm về các hoạt động kỹ thuật và giúp họ thiết kế các giải pháp đám mây có khả năng mở rộng. Anh đã tạo ra AI League trong quá trình giúp khách hàng khai thác sức mạnh của AI trong các trường hợp sử dụng của họ thông qua học tập được gam hóa. Anh cũng là Giáo sư trợ giảng tại Đại học Quản lý Singapore (SMU), giảng dạy các mô-đun khoa học máy tính thuộc Trường Khoa học Máy tính & Hệ thống Thông tin (SCIS). Trước khi gia nhập Amazon, anh từng làm Kiến trúc sư Kỹ thuật số chính cấp cao tại Accenture và Trưởng nhóm Thực hành Kỹ thuật Đám mây tại UST.


Blix Foryasen là sinh viên Khoa học Máy tính chuyên về Học máy tại Đại học Quốc gia – Manila. Anh đam mê khoa học dữ liệu, AI vì lợi ích xã hội và công nghệ dân sự, với trọng tâm mạnh mẽ vào việc giải quyết các vấn đề trong thế giới thực thông qua các cuộc thi, nghiên cứu và đổi mới dựa vào cộng đồng. Blix cũng tham gia sâu vào các xu hướng công nghệ mới nổi, đặc biệt là trong AI và các ứng dụng đang phát triển của nó trên các ngành, đặc biệt là trong tài chính, chăm sóc sức khỏe và giáo dục.