目 录CONTENT

文章目录

从新手到冠军:一名学生在AWS AI联盟东盟决赛中的历程

Administrator
2026-01-17 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/from-beginner-to-champion-a-students-journey-through-the-aws-ai-league-asean-finals/

原文作者:Noorbakht Khan, Blix Foryasen, and Vincent Oh


Amazon Web Services (AWS)推出的AWS AI League去年扩展到了东南亚国家联盟(ASEAN)地区,吸引了来自新加坡、印度尼西亚、马来西亚、泰国、越南和菲律宾的学生参与。该竞赛的目标是通过一个游戏化的、基于实践的挑战,让所有背景和经验水平的学生都能接触到生成式AI的激动人心的世界,该挑战专注于大型语言模型(LLMs)的微调。

在这篇博文中,您将直接听到AWS AI League冠军Blix D. Foryasen分享他对整个竞赛过程中的挑战、突破和关键经验的思考。

竞赛背景

AWS AI League竞赛以AWS团队和Gen-C生成式AI学习社区的教程环节拉开帷幕,重点介绍了两个强大的用户友好服务:Amazon SageMaker JumpStartPartyRock

  • SageMaker JumpStart使参与者能够在基于云的环境中运行LLM微调过程,提供调整超参数和优化性能的灵活性。
  • PartyRock由Amazon Bedrock提供支持,提供了一个直观的实验平台和界面,用于策划用于微调Llama 3.2 3B Instruct模型的***数据集***。Amazon Bedrock通过单一API,提供了来自Anthropic Claude、Meta Llama、Mistral等领先AI公司的高性能基础模型。

参与者的目标是在基于测验的评估中超越一个较大的LLM参考模型,他们深入研究了生成式AI的三个核心领域:基础模型、负责任的AI和提示工程。初赛环节中,一个公开排行榜对来自整个地区的表现最佳的微调模型进行了排名。每个提交的模型都会与一个更大的基线LLM进行测试,使用自动化的、测验式的评估来回答有关生成式AI的问题。评估由一个未公开的LLM裁判进行,优先考虑准确性和全面性。每当模型超越基线LLM时,其获胜率就会提高。这项挑战需要超越技术层面的战略规划。参与者必须最大限度地利用SageMaker JumpStart上有限的训练时间,同时仔细管理有限的排行榜提交次数。最初限制为5小时,但后来根据社区的反馈扩大到30小时。提交次数也将影响入围决赛者的平局判定。

每个国家排名前列的调优者晋级到2025年5月29日在新加坡举行的区域总决赛。在那里,决赛选手们进行了一对一的竞争,每个人都根据一组新问题展示了他们微调模型的响应。最终得分由加权评分系统决定:

  • 40%来自LLM作为裁判,
  • 40%来自专家,
  • 20%来自现场观众。

微调的务实方法

在深入研究技术细节之前,需要快速声明:以下各节中分享的方法大多是实验性的,是通过反复试验得出的。它们不一定是微调的最优方法,也不代表明确的指南。其他决赛选手由于技术背景不同,采取了不同的方法。最终帮助我取得成功的不仅仅是技术精度,还包括协作、足智多谋,以及根据先前迭代的见解探索比赛可能如何展开的意愿。我希望这个账户可以作为未来导航类似限制的参与者的基准或灵感。即使您像我一样从零开始,保持战略性、好奇心和社区驱动的思维也具有真正的价值。我面临的最大障碍之一是时间,或者说是时间不足。由于我的参赛确认时间较晚,我是在比赛开始两周后才加入的。这只留给我两周时间进行规划、训练和迭代。考虑到时间紧迫和SageMaker JumpStart上有限的计算小时数,我知道我必须让每一次训练都发挥作用。我没有尝试进行详尽的实验,而是将精力集中在策划一个强大的数据集和调整选定的超参数上。在此过程中,我从LLM微调的学术论文和现有方法中汲取灵感,在限制范围内调整我能调整的部分。

创造合成的辉煌

如前所述,竞赛开始时的关键学习环节之一是向参与者介绍了SageMaker JumpStart和PartyRock,这些工具使合成数据集的生成和微调变得既易于访问又直观。特别是,PartyRock允许我们克隆和定制应用程序,以控制合成数据集的生成方式。我们可以调整提示结构、创造力水平(温度)和令牌采样策略(top-p)等参数。PartyRock还为我们提供了广泛的基础模型。从一开始,我就选择使用Claude 3.5 Sonnet来生成我的数据集,目标是覆盖竞赛所有三个核心子领域的广泛且均衡的内容。为了最大限度地减少偏见并在主题中实现公平代表,我策划了多个数据集版本,每个版本包含1,500到12,000个问答对,仔细保持跨子领域的均衡分布。以下是我关注的一些示例主题:

  • 提示工程:零样本提示、思维链(CoT)提示、评估提示有效性
  • 基础模型:Transformer架构、预训练与微调的区别
  • 负责任的AI:数据集偏见、表征公平性以及AI系统中的数据保护

为了保持数据质量,我对数据集生成器进行了微调,以强调事实准确性、独特性和应用知识。每个生成批次包含10个问答对,提示专门设计用于鼓励深度和清晰度。

问题提示:

You are a quiz master in an AI competition preparing a set of challenging quiz bee questions about [Topic to generate] The purpose of these questions is to determine the better LLM between a fine-tuned LLaMA 3.2 3B Instruct and larger LLMs. Generate [Number of data rows to generate] questions on [Topic to generate], covering: * Basic Questions (1/3) → Direct Q&A without reasoning. Must require a clear explanation, example, or real-world application. Avoid one-word fact-based questions. * Hybrid Questions (1/3) → Requires a short analytical breakdown (e.g., comparisons, trade-offs, weaknesses, implications). Prioritize scenario-based or real-world dilemma questions. * Chain-of-thought (CoT) Questions (1/3) → Requires multi-step logical deductions. Focus on evaluating existing AI methods, identifying risks, and critiquing trade-offs. Avoid open-ended "Design/Propose/Create" questions. Instead, use "Compare, Evaluate, Critique, Assess, Analyze, What are the trade-offs of…" Ensure the questions on [Topic to generate]: * Are specific, non-trivial, and informative. * Avoid overly simple questions (e.g., mere definitions or fact-based queries). * Encourage applied reasoning (i.e., linking theoretical concepts to real-world AI challenges).

答案提示:

You are an AI expert specializing in generative AI, foundation models, agentic AI, prompt engineering, and responsible AI. Your task is to generate well-structured, logically reasoned responses to a list of [Questions], ensuring that all responses follow a chain-of-thought (CoT) approach, regardless of complexity, and formatted in valid JSONL. Here are the answering guidelines: * Every response must be comprehensive, factually accurate, and well-reasoned. * Every response must use a step-by-step logical breakdown, even for seemingly direct questions. For all questions, use structured reasoning: * For basic Questions, use a concise yet structured explanation. Simple Q&As should still follow CoT reasoning, explaining why the answer is correct rather than just stating facts. * For hybrid and CoT questions, use Chain of Thought and analyze the problem logically before providing a concluding statement. * If applicable, use real-world examples or research references to enhance explanations. * If applicable, include trade-offs between different AI techniques. * Draw logical connections between subtopics to reinforce deep understanding.

回答提示示例:

 * Basic question (direct Q&A without reasoning) → Use concise yet comprehensive, structured responses that provide a clear, well-explained, and well-structured definition and explanation without unnecessary verbosity. * Applications. Highlight key points step-by-step in a few comprehensive sentences. * Complex CoT question (multi-step reasoning) → Use CoT naturally, solving each step explicitly, with in-depth reasoning 

在问题生成方面,我将温度设置为0.7,倾向于有创意和新颖的措辞,但又不会偏离事实基础太远。对于答案生成,我使用了较低的温度0.2,以追求精确性和正确性。在这两种情况下,我都应用了top-p = 0.9,允许模型从一个集中但多样化的可能令牌范围内进行采样,鼓励细微差别的输出。我在整个竞赛中做出的一个重要的战略假设是,评估LLM会更喜欢结构化、信息丰富和完整的响应,而不是过于有创意或简短的响应。为了与此保持一致,我在答案中加入了推理步骤,使它们更长、更全面。研究表明,基于LLM的评估器通常会对详细、解释充分的答案给予更高的分数,我在数据集生成过程中就利用了这一见解。

完善提交内容

SageMaker JumpStart提供了广泛的超参数可供配置,这可能会让人不知所措,特别是当您争分夺秒,不确定该优先考虑什么时。幸运的是,组织者强调主要关注epochs(迭代次数)和learning rate(学习率),所以我将精力集中在这些变量上。带有单个 epoch 的每次训练作业大约需要10-15分钟,这使得时间管理至关重要。为了避免浪费宝贵的计算小时数,我从1,500行的数据集基线开始,以测试 epoch 和学习率的组合。我探索了:

  • Epochs:1到4
  • 学习率:0.0001、0.0002、0.0003和0.0004

经过多次迭代,两个 epoch 和 0.0003 的学习率组合产生了最好的结果,在我的第13次排行榜提交时达到了53%的获胜率。受到鼓舞,我继续对该组合进行了几次后续实验,即使我扩大了数据集。最初,这种策略似乎奏效了。使用大约3,500行的数据集,我的模型在第16次提交时达到了57%的获胜率。然而,当我进一步将数据集增加到5,500、6,700、8,500,最终达到12,000行时,我的获胜率分别稳步下降到53%、51%、45%和42%。那时,很明显,仅仅增加数据集大小是不够的,事实上,如果没有重新审视超参数,它可能适得其反。在仅剩5小时训练时间和记录了54次提交的情况下,我停留在57%,而像菲律宾顶尖调优者这样的同行已经达到了71%的获胜率。

实战经验教训

在训练和排行榜提交时间都有限的情况下,我转向了跨国协作寻求支持。我进行的最有启发性的谈话之一是与印度尼西亚的顶尖调优者Michael Ismail Febrian进行的,他是淘汰赛中得分最高的人。他鼓励我探索LoRA(低秩适配)的超参数,特别是:

  • lora_r
  • lora_alpha
  • target_modules

Michael还建议使用更强大的教师模型(teacher models)生成的API响应来丰富我的数据集,特别是用于回答PartyRock生成的问题。回顾我现有的微调流程,我意识到一个关键弱点:生成的答案通常过于简洁或肤浅。这是一个早期数据集中典型问答对的示例:

Instruction: What factors influence model hallucination? Response: Let's analyze this step by step: * Training factors: * Data quality and coverage * Training methodology * Model architecture * Deployment factors: * Prompt design * Temperature settings * Context window utilization * Mitigation strategies: *Retrieval augmentation * Fact-checking mechanisms * Confidence thresholds Example: GPT-3 showing lower hallucination rates (15% vs 21%) when using retrieval-augmented generation compared to base model.

尽管这种结构清晰、组织有序,但它缺乏对每个点的更深入解释,而这正是ChatGPT和Gemini等模型通常擅长的。我怀疑这种限制是由于批量生成多个响应时的令牌限制造成的。在我的案例中,我在单个提示下以JSONL格式一次生成了10个响应,这可能导致PartyRock截断了输出。为了避免在付费API上花费,我发现了OpenRouter.ai,它提供对大型模型的有限访问,尽管有速率限制。每个账户每天大约有200个问答对的限制,我变得有创意——我创建了多个账户来支持我的扩展数据集。我选择的教师模型是DeepSeek R1,这是一个流行的选项,以其在训练更小、更专业的模型方面的有效性而闻名。这是一场赌博,但从输出质量来看,这场赌博是值得的。

关于LoRA调优,我的收获如下:

  • lora_rlora_alpha决定了模型可以吸收多少以及多复杂的新信息。一个通用的经验法则是将lora_alpha设置为lora_r的1倍或2倍。
  • target_modules定义了模型中更新的部分,通常是注意力层或前馈网络。

我还咨询了越南的顶尖调优者Kim,他指出我0.0003的学习率可能太高了。他和Michael都建议采取不同的策略:增加 epoch 数量并降低学习率。这将使模型更好地捕捉复杂的关系和细微的模式,特别是随着数据集的增长。我们的谈话强调了一个痛苦的真理:数据质量比数据数量更重要。在不调整超参数或验证质量的情况下增加数据集大小时,会存在一个收益递减点——这是我直接经历过的。回想起来,我意识到我低估了细粒度超参数调优的重要性,特别是扩展数据时。更多的数据需要更精确的调优,以匹配模型需要学习的日益增加的复杂性。

最后一搏

有了来自合作者的真知灼见以及从先前迭代中吸取的宝贵经验教训,我知道是时候改变我整个微调流程了。最显著的变化是我生成数据集的方式。我没有使用PartyRock生成问题和答案,而是选择仅在PartyRock中生成问题,然后将这些提示输入到DeepSeek-R1 API中以生成高质量的答案。每个答案都以JSONL格式保存,并且至关重要的是,包含了详细的推理过程。这一转变显著增加了每个答案的深度和长度,平均每个响应约900个令牌,与PartyRock生成的更短的输出相比。考虑到我早期大约1,500行高质量数据产生了可喜的结果,我最终的数据集保留了该大小。我没有在数量上扩展,而是加倍投入于质量和复杂性。对于这一轮,我对超参数进行了大胆的、盲目的调整:

  • 将学习率降至0.00008
  • 增加LoRA参数:
    • lora_r = 256
    • lora_alpha = 256
  • 将LoRA目标模块扩展到覆盖注意力和前馈层:
    q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

做出这些更改的假设是:更长、更复杂的答案需要更大的容量来吸收和泛化细微的模式。我希望这些设置能使模型充分利用来自DeepSeek-R1的高质量、富含推理的数据。在仅剩5小时的训练时间的情况下,我只够进行两次完整的训练运行,每次使用不同的 epoch 设置(3和4)。这是一个决定成败的时刻。如果第一次运行表现不佳,我还有最后一次机会来弥补。幸运的是,我的第一次测试运行达到了65%的获胜率,这是一个巨大的进步,但仍然落后于菲律宾的当前领导者和Michael令人印象深刻的89%。现在一切都取决于我的最后一次训练作业。它必须顺利运行,避免错误,并超越我以前尝试过的所有内容。事实也确实如此。那最后一次提交达到了77%的获胜率,将我推向排行榜榜首,并为我赢得了总决赛的席位。经过数周的实验、不眠之夜、挫折和最后时刻的调整后,从一个迟到两周的参赛者到国家冠军的旅程就此完成。

我希望早点知道的事情

我不会假装我在淘汰赛中的成功纯粹是技术性的——运气也起到了很大的作用。尽管如此,这次旅程揭示了一些见解,可以为未来的参与者节省宝贵的精力和训练时间及提交次数。以下是我希望从一开始就知道的一些关键要点:

  • 质量比数量更重要:更多的数据并不总是意味着更好的结果。无论您是增加行数还是增加上下文长度,您也在增加模型必须学习的复杂性。专注于策划高质量、结构良好的示例,而不是盲目地扩大规模。
  • 快学型与慢学型:如果您避免深入研究LoRA或其他高级调整,那么理解学习率与 epoch 之间的权衡至关重要。较高的学习率和较少的 epoch 可能会更快收敛,但可能会错过较低学习率在更多 epoch 下捕获的细微模式。根据您数据的复杂性谨慎选择。
  • 不要忽视超参数:我最大的失误之一是将超参数视为静态的,而不管数据集大小或复杂性的变化如何。随着数据的演变,模型的设置也应该随之演变。超参数应该与您的数据一起扩展。
  • 做好功课:避免过多的猜测,请阅读相关的研究论文、文档或博客文章。在比赛后期,我偶然发现了一些有用的资源,我本可以更早地利用这些资源来做出更好的决定。一点阅读可以大有帮助。
  • 记录一切:在实验时,很容易忘记什么有效,什么无效。维护一个关于您的数据集、超参数组合和性能结果的日志。这有助于优化您的运行并协助调试。
  • 协作是超能力:虽然这是一场比赛,但这也是一个学习的机会。与其他参与者联系,无论他们是领先还是落后,都为我提供了宝贵的见解。您可能不总是带着奖杯离开,但您会带着知识、人脉和真正的成长离开。

总决赛

总决赛于全国人工智能学生挑战赛的第二天举行,标志着数周实验、战略和协作的高潮。在最后的对决之前,所有国家冠军都有机会参加AI学生开发者会议,我们在会上分享见解、交流经验,并与来自东盟地区的其他决赛选手建立了联系。在我们的交谈中,我惊讶地发现我们的微调策略惊人地相似。总的来说,参与者使用了外部API、数据集策划技术和像SageMaker JumpStart这样的云端训练系统的混合体。很明显,工具选择和创造性的问题解决与纯粹的技术知识同等重要。一个特别令人大开眼界的见解来自一位实现了85%获胜率的决赛选手,尽管他使用了一个大型数据集——这是我最初认为可能会损害性能的因素。他的秘诀是使用较低的学习率0.0001在更多数量的 epoch 上进行训练。然而,这是以更长的训练时间和更少的排行榜提交为代价的,这凸显了一个重要的权衡:

如果训练时间足够长,一个经过精心调优的模型,即使是在大型数据集上训练的,也能超越更快、更精简的模型。

这强化了一个有力的教训:没有单一的“正确”的LLM微调方法。最重要的是您的策略如何与手头的***时间、工具和限制***相匹配。

备战

在总决赛前夕,我偶然读到了AWS AI League的第一位冠军、也是比赛教程的指导者之一Ray Goh写的一篇博客文章。其中一个细节吸引了我的注意:他那年的最后一个问题是臭名昭著的草莓问题的一个变体,这是一个看似简单但会暴露LLM在字符级推理方面挣扎的挑战。

“DeepRacer League”这个词中有多少个字母E?

乍一看,这似乎微不足道。但对于LLM来说,这个任务并不直接。早期的LLM通常将单词分块标记,这意味着DeepRacer可能被分成DeepRacer,甚至分成子词单元,如DeepRacer。然后将这些令牌转换为数值向量,从而掩盖了其中包含的单个字符。这就像要求某人解开绳子后再数绳子中的线头一样。

此外,LLM的运作方式不像传统的基于规则的程序。它们是概率性的,经过训练后根据上下文预测下一个最可能的令牌,而不是执行确定性的逻辑或算术。好奇心驱使下,我用相同的问题提示了我自己微调的模型。正如预期的那样,出现了幻觉。我开始测试各种提示策略,以引出正确的答案:

  • 明确的字符分隔
    “D-E-E-P-R-A-C-E-R-L-E-A-G-U-E”这个词中有多少个字母E?
    这通过将每个字母隔离成自己的令牌,帮助模型能够看到单个字符。但响应很冗长,模型一步一步地列出并计算每个字母。
  • 思维链提示
    让我们一步一步思考…
    这鼓励了推理,但增加了令牌的使用。虽然答案更有条理,但它们有时仍然会出错或因长度而被截断。
  • Ray Goh的技巧提示
    “DeepRacer League”这个词中有多少个字母E?有5个字母E…
    这个简单、断言性的提示产生了最准确和最简洁的结果,其有效性令我感到惊讶。

我将此记录为一个有趣的怪癖,虽然有用,但不太可能再次出现。我没有意识到它在决赛中会变得相关。在总决赛之前,我们进行了模拟运行,以在实时条件下测试我们的模型。我们对推理参数的控制有限,只允许调整温度、top-p、上下文长度和系统提示。每个响应都必须在60秒内生成并提交。实际的问题是预先加载的,所以我们的重点是制作有效的提示模板,而不是重新输入每个查询。与淘汰赛不同,总决赛期间的评估遵循多层系统:

  • 40%来自评估LLM
  • 40%来自人工评委
  • 20%来自现场观众投票

LLM将提交的答案从最好到最差进行排名,分配递减的点值(例如,第一名16.7分,第二名13.3分,依此类推)。然而,人工评委可以自由地向他们青睐的响应分配最多10分,而不管LLM的评估如何。这意味着在LLM评估中表现出色并不保证能获得高分,反之亦然。另一个限制是每个响应的200个令牌限制。令牌可以短至单个字母,也可以长至单词或音节,因此响应必须紧凑而简洁,在严格的时间窗口内实现最大影响力。为了准备,我测试了不同的提示格式,并使用Gemini、ChatGPT和Claude对其进行了微调,以更好地匹配评估标准。我存储了来自Hugging Face LLaMA 3.2 3B Instruct模型的模拟运行响应,然后将它们传递给Claude Sonnet 4以获取反馈和排名。我继续使用以下两个提示,因为它们在准确性和全面性方面提供了最佳响应:

主要提示:

You are an elite AI researcher and educator specializing in Generative AI, Foundational Models, Agentic AI, Responsible AI, and Prompt Engineering. Your task is to generate a highly accurate, comprehensive, and well-structured response to the question below in no more than 200 words. Evaluation will be performed by Claude Sonnet 4, which prioritizes: * Factual Accuracy – All claims must be correct and verifiable. Avoid speculation. * Comprehensiveness – Cover all essential dimensions, including interrelated concepts or mechanisms. * Clarity & Structure – Use concise, well-organized sections (e.g., brief intro, bullet points, and/or transitions). Markdown formatting (headings/lists) is optional. * Efficiency – Every sentence must deliver unique insight. Avoid filler. * Tone – Maintain a professional, neutral, and objective tone. Your response should be dense with value while remaining readable and precise.

备份提示:

You are a competitive AI practitioner with deep expertise in [Insert domain: e.g., Agentic AI or Prompt Engineering], answering a technical question evaluated by Claude Sonnet 4 for accuracy and comprehensiveness.... [内容被截断]



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区