从新手到冠军：一名学生在AWS AI联盟东盟决赛中的历程-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://aws.amazon.com/blogs/machine-learning/from-beginner-to-champion-a-students-journey-through-the-aws-ai-league-asean-finals/

原文作者：Noorbakht Khan, Blix Foryasen, and Vincent Oh

由Amazon Web Services (AWS)推出的AWS AI League去年扩展到了东南亚国家联盟（ASEAN）地区，吸引了来自新加坡、印度尼西亚、马来西亚、泰国、越南和菲律宾的学生参与。该竞赛的目标是通过一个游戏化的、基于实践的挑战，让所有背景和经验水平的学生都能接触到生成式AI的激动人心的世界，该挑战专注于大型语言模型（LLMs）的微调。

在这篇博文中，您将直接听到AWS AI League冠军Blix D. Foryasen分享他对整个竞赛过程中的挑战、突破和关键经验的思考。

竞赛背景

AWS AI League竞赛以AWS团队和Gen-C生成式AI学习社区的教程环节拉开帷幕，重点介绍了两个强大的用户友好服务：Amazon SageMaker JumpStart和PartyRock。

SageMaker JumpStart使参与者能够在基于云的环境中运行LLM微调过程，提供调整超参数和优化性能的灵活性。
PartyRock由Amazon Bedrock提供支持，提供了一个直观的实验平台和界面，用于策划用于微调Llama 3.2 3B Instruct模型的***数据集***。Amazon Bedrock通过单一API，提供了来自Anthropic Claude、Meta Llama、Mistral等领先AI公司的高性能基础模型。

参与者的目标是在基于测验的评估中超越一个较大的LLM参考模型，他们深入研究了生成式AI的三个核心领域：基础模型、负责任的AI和提示工程。初赛环节中，一个公开排行榜对来自整个地区的表现最佳的微调模型进行了排名。每个提交的模型都会与一个更大的基线LLM进行测试，使用自动化的、测验式的评估来回答有关生成式AI的问题。评估由一个未公开的LLM裁判进行，优先考虑准确性和全面性。每当模型超越基线LLM时，其获胜率就会提高。这项挑战需要超越技术层面的战略规划。参与者必须最大限度地利用SageMaker JumpStart上有限的训练时间，同时仔细管理有限的排行榜提交次数。最初限制为5小时，但后来根据社区的反馈扩大到30小时。提交次数也将影响入围决赛者的平局判定。

每个国家排名前列的调优者晋级到2025年5月29日在新加坡举行的区域总决赛。在那里，决赛选手们进行了一对一的竞争，每个人都根据一组新问题展示了他们微调模型的响应。最终得分由加权评分系统决定：

40%来自LLM作为裁判，
40%来自专家，
20%来自现场观众。

微调的务实方法

在深入研究技术细节之前，需要快速声明：以下各节中分享的方法大多是实验性的，是通过反复试验得出的。它们不一定是微调的最优方法，也不代表明确的指南。其他决赛选手由于技术背景不同，采取了不同的方法。最终帮助我取得成功的不仅仅是技术精度，还包括协作、足智多谋，以及根据先前迭代的见解探索比赛可能如何展开的意愿。我希望这个账户可以作为未来导航类似限制的参与者的基准或灵感。即使您像我一样从零开始，保持战略性、好奇心和社区驱动的思维也具有真正的价值。我面临的最大障碍之一是时间，或者说是时间不足。由于我的参赛确认时间较晚，我是在比赛开始两周后才加入的。这只留给我两周时间进行规划、训练和迭代。考虑到时间紧迫和SageMaker JumpStart上有限的计算小时数，我知道我必须让每一次训练都发挥作用。我没有尝试进行详尽的实验，而是将精力集中在策划一个强大的数据集和调整选定的超参数上。在此过程中，我从LLM微调的学术论文和现有方法中汲取灵感，在限制范围内调整我能调整的部分。

创造合成的辉煌

如前所述，竞赛开始时的关键学习环节之一是向参与者介绍了SageMaker JumpStart和PartyRock，这些工具使合成数据集的生成和微调变得既易于访问又直观。特别是，PartyRock允许我们克隆和定制应用程序，以控制合成数据集的生成方式。我们可以调整提示结构、创造力水平（温度）和令牌采样策略（top-p）等参数。PartyRock还为我们提供了广泛的基础模型。从一开始，我就选择使用Claude 3.5 Sonnet来生成我的数据集，目标是覆盖竞赛所有三个核心子领域的广泛且均衡的内容。为了最大限度地减少偏见并在主题中实现公平代表，我策划了多个数据集版本，每个版本包含1,500到12,000个问答对，仔细保持跨子领域的均衡分布。以下是我关注的一些示例主题：

提示工程：零样本提示、思维链（CoT）提示、评估提示有效性
基础模型：Transformer架构、预训练与微调的区别
负责任的AI：数据集偏见、表征公平性以及AI系统中的数据保护

为了保持数据质量，我对数据集生成器进行了微调，以强调事实准确性、独特性和应用知识。每个生成批次包含10个问答对，提示专门设计用于鼓励深度和清晰度。

问题提示：

You are a quiz master in an AI competition preparing a set of challenging quiz bee questions about [Topic to generate] The purpose of these questions is to determine the better LLM between a fine-tuned LLaMA 3.2 3B Instruct and larger LLMs. Generate [Number of data rows to generate] questions on [Topic to generate], covering: * Basic Questions (1/3) → Direct Q&A without reasoning. Must require a clear explanation, example, or real-world application. Avoid one-word fact-based questions. * Hybrid Questions (1/3) → Requires a short analytical breakdown (e.g., comparisons, trade-offs, weaknesses, implications). Prioritize scenario-based or real-world dilemma questions. * Chain-of-thought (CoT) Questions (1/3) → Requires multi-step logical deductions. Focus on evaluating existing AI methods, identifying risks, and critiquing trade-offs. Avoid open-ended "Design/Propose/Create" questions. Instead, use "Compare, Evaluate, Critique, Assess, Analyze, What are the trade-offs of…" Ensure the questions on [Topic to generate]: * Are specific, non-trivial, and informative. * Avoid overly simple questions (e.g., mere definitions or fact-based queries). * Encourage applied reasoning (i.e., linking theoretical concepts to real-world AI challenges).

答案提示：

You are an AI expert specializing in generative AI, foundation models, agentic AI, prompt engineering, and responsible AI. Your task is to generate well-structured, logically reasoned responses to a list of [Questions], ensuring that all responses follow a chain-of-thought (CoT) approach, regardless of complexity, and formatted in valid JSONL. Here are the answering guidelines: * Every response must be comprehensive, factually accurate, and well-reasoned. * Every response must use a step-by-step logical breakdown, even for seemingly direct questions. For all questions, use structured reasoning: * For basic Questions, use a concise yet structured explanation. Simple Q&As should still follow CoT reasoning, explaining why the answer is correct rather than just stating facts. * For hybrid and CoT questions, use Chain of Thought and analyze the problem logically before providing a concluding statement. * If applicable, use real-world examples or research references to enhance explanations. * If applicable, include trade-offs between different AI techniques. * Draw logical connections between subtopics to reinforce deep understanding.

回答提示示例：

 * Basic question (direct Q&A without reasoning) → Use concise yet comprehensive, structured responses that provide a clear, well-explained, and well-structured definition and explanation without unnecessary verbosity. * Applications. Highlight key points step-by-step in a few comprehensive sentences. * Complex CoT question (multi-step reasoning) → Use CoT naturally, solving each step explicitly, with in-depth reasoning

在问题生成方面，我将温度设置为0.7，倾向于有创意和新颖的措辞，但又不会偏离事实基础太远。对于答案生成，我使用了较低的温度0.2，以追求精确性和正确性。在这两种情况下，我都应用了top-p = 0.9，允许模型从一个集中但多样化的可能令牌范围内进行采样，鼓励细微差别的输出。我在整个竞赛中做出的一个重要的战略假设是，评估LLM会更喜欢结构化、信息丰富和完整的响应，而不是过于有创意或简短的响应。为了与此保持一致，我在答案中加入了推理步骤，使它们更长、更全面。研究表明，基于LLM的评估器通常会对详细、解释充分的答案给予更高的分数，我在数据集生成过程中就利用了这一见解。

完善提交内容

SageMaker JumpStart提供了广泛的超参数可供配置，这可能会让人不知所措，特别是当您争分夺秒，不确定该优先考虑什么时。幸运的是，组织者强调主要关注epochs（迭代次数）和learning rate（学习率），所以我将精力集中在这些变量上。带有单个 epoch 的每次训练作业大约需要10-15分钟，这使得时间管理至关重要。为了避免浪费宝贵的计算小时数，我从1,500行的数据集基线开始，以测试 epoch 和学习率的组合。我探索了：

Epochs：1到4
学习率：0.0001、0.0002、0.0003和0.0004

经过多次迭代，两个 epoch 和 0.0003 的学习率组合产生了最好的结果，在我的第13次排行榜提交时达到了53%的获胜率。受到鼓舞，我继续对该组合进行了几次后续实验，即使我扩大了数据集。最初，这种策略似乎奏效了。使用大约3,500行的数据集，我的模型在第16次提交时达到了57%的获胜率。然而，当我进一步将数据集增加到5,500、6,700、8,500，最终达到12,000行时，我的获胜率分别稳步下降到53%、51%、45%和42%。那时，很明显，仅仅增加数据集大小是不够的，事实上，如果没有重新审视超参数，它可能适得其反。在仅剩5小时训练时间和记录了54次提交的情况下，我停留在57%，而像菲律宾顶尖调优者这样的同行已经达到了71%的获胜率。

实战经验教训

在训练和排行榜提交时间都有限的情况下，我转向了跨国协作寻求支持。我进行的最有启发性的谈话之一是与印度尼西亚的顶尖调优者Michael Ismail Febrian进行的，他是淘汰赛中得分最高的人。他鼓励我探索LoRA（低秩适配）的超参数，特别是：

lora_r
lora_alpha
target_modules

Michael还建议使用更强大的教师模型（teacher models）生成的API响应来丰富我的数据集，特别是用于回答PartyRock生成的问题。回顾我现有的微调流程，我意识到一个关键弱点：生成的答案通常过于简洁或肤浅。这是一个早期数据集中典型问答对的示例：

Instruction: What factors influence model hallucination? Response: Let's analyze this step by step: * Training factors: * Data quality and coverage * Training methodology * Model architecture * Deployment factors: * Prompt design * Temperature settings * Context window utilization * Mitigation strategies: *Retrieval augmentation * Fact-checking mechanisms * Confidence thresholds Example: GPT-3 showing lower hallucination rates (15% vs 21%) when using retrieval-augmented generation compared to base model.

尽管这种结构清晰、组织有序，但它缺乏对每个点的更深入解释，而这正是ChatGPT和Gemini等模型通常擅长的。我怀疑这种限制是由于批量生成多个响应时的令牌限制造成的。在我的案例中，我在单个提示下以JSONL格式一次生成了10个响应，这可能导致PartyRock截断了输出。为了避免在付费API上花费，我发现了OpenRouter.ai，它提供对大型模型的有限访问，尽管有速率限制。每个账户每天大约有200个问答对的限制，我变得有创意——我创建了多个账户来支持我的扩展数据集。我选择的教师模型是DeepSeek R1，这是一个流行的选项，以其在训练更小、更专业的模型方面的有效性而闻名。这是一场赌博，但从输出质量来看，这场赌博是值得的。

关于LoRA调优，我的收获如下：

lora_r和lora_alpha决定了模型可以吸收多少以及多复杂的新信息。一个通用的经验法则是将lora_alpha设置为lora_r的1倍或2倍。
target_modules定义了模型中更新的部分，通常是注意力层或前馈网络。

我还咨询了越南的顶尖调优者Kim，他指出我0.0003的学习率可能太高了。他和Michael都建议采取不同的策略：增加 epoch 数量并降低学习率。这将使模型更好地捕捉复杂的关系和细微的模式，特别是随着数据集的增长。我们的谈话强调了一个痛苦的真理：数据质量比数据数量更重要。在不调整超参数或验证质量的情况下增加数据集大小时，会存在一个收益递减点——这是我直接经历过的。回想起来，我意识到我低估了细粒度超参数调优的重要性，特别是扩展数据时。更多的数据需要更精确的调优，以匹配模型需要学习的日益增加的复杂性。

最后一搏

有了来自合作者的真知灼见以及从先前迭代中吸取的宝贵经验教训，我知道是时候改变我整个微调流程了。最显著的变化是我生成数据集的方式。我没有使用PartyRock生成问题和答案，而是选择仅在PartyRock中生成问题，然后将这些提示输入到DeepSeek-R1 API中以生成高质量的答案。每个答案都以JSONL格式保存，并且至关重要的是，包含了详细的推理过程。这一转变显著增加了每个答案的深度和长度，平均每个响应约900个令牌，与PartyRock生成的更短的输出相比。考虑到我早期大约1,500行高质量数据产生了可喜的结果，我最终的数据集保留了该大小。我没有在数量上扩展，而是加倍投入于质量和复杂性。对于这一轮，我对超参数进行了大胆的、盲目的调整：

将学习率降至0.00008
增加LoRA参数：
- lora_r = 256
- lora_alpha = 256
将LoRA目标模块扩展到覆盖注意力和前馈层：
q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

做出这些更改的假设是：更长、更复杂的答案需要更大的容量来吸收和泛化细微的模式。我希望这些设置能使模型充分利用来自DeepSeek-R1的高质量、富含推理的数据。在仅剩5小时的训练时间的情况下，我只够进行两次完整的训练运行，每次使用不同的 epoch 设置（3和4）。这是一个决定成败的时刻。如果第一次运行表现不佳，我还有最后一次机会来弥补。幸运的是，我的第一次测试运行达到了65%的获胜率，这是一个巨大的进步，但仍然落后于菲律宾的当前领导者和Michael令人印象深刻的89%。现在一切都取决于我的最后一次训练作业。它必须顺利运行，避免错误，并超越我以前尝试过的所有内容。事实也确实如此。那最后一次提交达到了77%的获胜率，将我推向排行榜榜首，并为我赢得了总决赛的席位。经过数周的实验、不眠之夜、挫折和最后时刻的调整后，从一个迟到两周的参赛者到国家冠军的旅程就此完成。

我希望早点知道的事情

我不会假装我在淘汰赛中的成功纯粹是技术性的——运气也起到了很大的作用。尽管如此，这次旅程揭示了一些见解，可以为未来的参与者节省宝贵的精力和训练时间及提交次数。以下是我希望从一开始就知道的一些关键要点：

质量比数量更重要：更多的数据并不总是意味着更好的结果。无论您是增加行数还是增加上下文长度，您也在增加模型必须学习的复杂性。专注于策划高质量、结构良好的示例，而不是盲目地扩大规模。
快学型与慢学型：如果您避免深入研究LoRA或其他高级调整，那么理解学习率与 epoch 之间的权衡至关重要。较高的学习率和较少的 epoch 可能会更快收敛，但可能会错过较低学习率在更多 epoch 下捕获的细微模式。根据您数据的复杂性谨慎选择。
不要忽视超参数：我最大的失误之一是将超参数视为静态的，而不管数据集大小或复杂性的变化如何。随着数据的演变，模型的设置也应该随之演变。超参数应该与您的数据一起扩展。
做好功课：避免过多的猜测，请阅读相关的研究论文、文档或博客文章。在比赛后期，我偶然发现了一些有用的资源，我本可以更早地利用这些资源来做出更好的决定。一点阅读可以大有帮助。
记录一切：在实验时，很容易忘记什么有效，什么无效。维护一个关于您的数据集、超参数组合和性能结果的日志。这有助于优化您的运行并协助调试。
协作是超能力：虽然这是一场比赛，但这也是一个学习的机会。与其他参与者联系，无论他们是领先还是落后，都为我提供了宝贵的见解。您可能不总是带着奖杯离开，但您会带着知识、人脉和真正的成长离开。

总决赛

总决赛于全国人工智能学生挑战赛的第二天举行，标志着数周实验、战略和协作的高潮。在最后的对决之前，所有国家冠军都有机会参加AI学生开发者会议，我们在会上分享见解、交流经验，并与来自东盟地区的其他决赛选手建立了联系。在我们的交谈中，我惊讶地发现我们的微调策略惊人地相似。总的来说，参与者使用了外部API、数据集策划技术和像SageMaker JumpStart这样的云端训练系统的混合体。很明显，工具选择和创造性的问题解决与纯粹的技术知识同等重要。一个特别令人大开眼界的见解来自一位实现了85%获胜率的决赛选手，尽管他使用了一个大型数据集——这是我最初认为可能会损害性能的因素。他的秘诀是使用较低的学习率0.0001在更多数量的 epoch 上进行训练。然而，这是以更长的训练时间和更少的排行榜提交为代价的，这凸显了一个重要的权衡：

如果训练时间足够长，一个经过精心调优的模型，即使是在大型数据集上训练的，也能超越更快、更精简的模型。

这强化了一个有力的教训：没有单一的“正确”的LLM微调方法。最重要的是您的策略如何与手头的***时间、工具和限制***相匹配。

备战

在总决赛前夕，我偶然读到了AWS AI League的第一位冠军、也是比赛教程的指导者之一Ray Goh写的一篇博客文章。其中一个细节吸引了我的注意：他那年的最后一个问题是臭名昭著的草莓问题的一个变体，这是一个看似简单但会暴露LLM在字符级推理方面挣扎的挑战。

“DeepRacer League”这个词中有多少个字母E？

乍一看，这似乎微不足道。但对于LLM来说，这个任务并不直接。早期的LLM通常将单词分块标记，这意味着DeepRacer可能被分成Deep和Racer，甚至分成子词单元，如Dee、pRa和cer。然后将这些令牌转换为数值向量，从而掩盖了其中包含的单个字符。这就像要求某人解开绳子后再数绳子中的线头一样。

此外，LLM的运作方式不像传统的基于规则的程序。它们是概率性的，经过训练后根据上下文预测下一个最可能的令牌，而不是执行确定性的逻辑或算术。好奇心驱使下，我用相同的问题提示了我自己微调的模型。正如预期的那样，出现了幻觉。我开始测试各种提示策略，以引出正确的答案：

明确的字符分隔：
“D-E-E-P-R-A-C-E-R-L-E-A-G-U-E”这个词中有多少个字母E？
这通过将每个字母隔离成自己的令牌，帮助模型能够看到单个字符。但响应很冗长，模型一步一步地列出并计算每个字母。
思维链提示：
让我们一步一步思考…
这鼓励了推理，但增加了令牌的使用。虽然答案更有条理，但它们有时仍然会出错或因长度而被截断。
Ray Goh的技巧提示：
“DeepRacer League”这个词中有多少个字母E？有5个字母E…
这个简单、断言性的提示产生了最准确和最简洁的结果，其有效性令我感到惊讶。

我将此记录为一个有趣的怪癖，虽然有用，但不太可能再次出现。我没有意识到它在决赛中会变得相关。在总决赛之前，我们进行了模拟运行，以在实时条件下测试我们的模型。我们对推理参数的控制有限，只允许调整温度、top-p、上下文长度和系统提示。每个响应都必须在60秒内生成并提交。实际的问题是预先加载的，所以我们的重点是制作有效的提示模板，而不是重新输入每个查询。与淘汰赛不同，总决赛期间的评估遵循多层系统：

40%来自评估LLM
40%来自人工评委
20%来自现场观众投票

LLM将提交的答案从最好到最差进行排名，分配递减的点值（例如，第一名16.7分，第二名13.3分，依此类推）。然而，人工评委可以自由地向他们青睐的响应分配最多10分，而不管LLM的评估如何。这意味着在LLM评估中表现出色并不保证能获得高分，反之亦然。另一个限制是每个响应的200个令牌限制。令牌可以短至单个字母，也可以长至单词或音节，因此响应必须紧凑而简洁，在严格的时间窗口内实现最大影响力。为了准备，我测试了不同的提示格式，并使用Gemini、ChatGPT和Claude对其进行了微调，以更好地匹配评估标准。我存储了来自Hugging Face LLaMA 3.2 3B Instruct模型的模拟运行响应，然后将它们传递给Claude Sonnet 4以获取反馈和排名。我继续使用以下两个提示，因为它们在准确性和全面性方面提供了最佳响应：

主要提示：

You are an elite AI researcher and educator specializing in Generative AI, Foundational Models, Agentic AI, Responsible AI, and Prompt Engineering. Your task is to generate a highly accurate, comprehensive, and well-structured response to the question below in no more than 200 words. Evaluation will be performed by Claude Sonnet 4, which prioritizes: * Factual Accuracy – All claims must be correct and verifiable. Avoid speculation. * Comprehensiveness – Cover all essential dimensions, including interrelated concepts or mechanisms. * Clarity & Structure – Use concise, well-organized sections (e.g., brief intro, bullet points, and/or transitions). Markdown formatting (headings/lists) is optional. * Efficiency – Every sentence must deliver unique insight. Avoid filler. * Tone – Maintain a professional, neutral, and objective tone. Your response should be dense with value while remaining readable and precise.

备份提示：

You are a competitive AI practitioner with deep expertise in [Insert domain: e.g., Agentic AI or Prompt Engineering], answering a technical question evaluated by Claude Sonnet 4 for accuracy and comprehensiveness.... [内容被截断]

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

从新手到冠军：一名学生在AWS AI联盟东盟决赛中的历程