推出 IndQA：评估人工智能系统在印度文化和语言方面的基准测试-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/introducing-indqa

原文作者：OpenAI

2025年11月3日

推出IndQA

一项旨在评估人工智能系统在印度文化和语言方面表现的新基准测试。

A 3x4 grid of rounded square buttons, each containing a character from a different Indian script or the Latin alphabet. The characters include Bengali (অ), English (En), Hindi (ह), Kannada (Hi), and others representing various Indian languages, set against a light grey background. The image suggests multilingual support or language selection.

我们的使命是让AGI造福全人类。如果人工智能要对每个人都有用，那么它必须在各种语言和文化中都能良好运行。全球约有80%的人口不以英语为母语，然而，大多数衡量非英语语言能力的现有基准测试都存在不足。

现有的多语言基准测试，如MMMLU，现已饱和——顶级模型的得分都集中在高分段，这使得它们对于衡量实际进步的作用越来越小。此外，目前的基准测试大多侧重于翻译或多项选择任务。它们未能充分捕捉评估人工智能系统语言能力真正重要的方面——理解上下文、文化、历史以及人们所处环境中对他们重要的事情。

这就是我们构建IndQA的原因，这是一个新的基准测试，旨在评估人工智能模型在印度语言中对具有印度各地文化相关性的问题进行理解和推理的能力。虽然我们的目标是为其他语言和地区创建类似的基准测试，但印度是一个明显的起点。印度有大约十亿人不是以英语为主要语言，拥有22种官方语言（其中至少有七种拥有超过5000万使用者），并且是ChatGPT的第二大市场。

这项工作是我们致力于为印度用户改进产品和工具，并使我们的技术在该国普及的持续承诺的一部分。

工作原理

IndQA评估的是对印度文化和日常生活的知识与推理能力，涉及12种语言和10个文化领域，共计2,278个问题，这些问题是与印度各地261位领域专家合作创建的。与MMMLU和MGSM等现有基准测试不同，IndQA旨在探查现有评估难以捕捉的、具有文化细微差别和高度依赖推理的任务。

IndQA涵盖了一系列具有文化相关性的主题，例如建筑与设计、艺术与文化、日常生活、食品与美食、历史、法律与伦理、文学与语言学、媒体与娱乐、宗教与精神，以及体育与娱乐——内容以孟加拉语、英语、印地语、Hinglish（印地语-英语混合语）、卡纳达语、马拉地语、奥里亚语、泰卢固语、古吉拉特语、马拉雅拉姆语、旁遮普语和泰米尔语等语言原生撰写。注意：考虑到代码转换在对话中的普遍性，我们特意加入了Hinglish。

每个数据点都包含一个印度语言的文化基础提示、一个用于审计的英文翻译、用于评分的评分标准，以及一个反映专家期望的理想答案。

Diagram illustrating the evaluation process: an example user-assistant conversation, a candidate response, and a rubric table used to score the response by criteria.

IndQA采用基于评分标准的方法。每个回答都会根据领域专家为该特定问题制定的标准进行评分。标准阐明了理想答案应该包含或避免的内容，并且每个标准根据其重要性分配了加权分数。一个基于模型的评分器会检查是否满足了每个标准。最终得分是满足标准所获得的分数之和占总可能分数的比例。

我们如何构建IndQA

专家撰写的题目。我们与合作伙伴合作，在10个不同领域物色印度各地的专家。他们起草了与他们的地区和专业相关的、侧重于推理的难题。这些专家是相关语言（和英语）的母语使用者，并拥有深厚的专业知识。
对抗性过滤：在创建过程中，我们使用OpenAI当时最强的模型（GPT‑4o、OpenAI o3、GPT‑4.5，以及（公开发布后）GPT‑5）对每个问题进行了测试。我们只保留了大多数模型未能给出可接受答案的问题，为未来的进步保留了空间。
详细标准。与每个问题一起，领域专家提供了用于评估模型响应的标准，类似于对议论文的考试评分标准。这些标准用于评估候选模型的响应。
理想答案+审查。专家添加了理想答案和英文翻译，随后进行同行评审和迭代修复，直到最终批准。

示例问题

Language: Bengali

Domain: Literature and linguistics

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domain: Food and cuisine

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

随时间推移的改进

我们使用IndQA来评估最新前沿模型在印度语言上的表现，并描绘过去几年的进展。通过IndQA，我们可以看到OpenAI的模型在印度语言上的性能随时间显著提高（附带注意事项），但仍有很大的改进空间。我们期待在未来模型上提高性能并分享结果。

我们在下面按语言和领域划分了IndQA的性能，将GPT‑5 Thinking High与其他前沿模型进行了比较。

注意事项

由于不同语言的问题并非完全相同，IndQA不是一个语言排行榜；不应将跨语言得分解释为语言能力的直接比较。相反，我们计划使用IndQA来衡量一个模型系列或配置随时间的改进。

此外，由于问题是针对GPT‑4o、OpenAI o3、GPT‑4.5和（公开发布后）GPT‑5无法充分回答的问题进行过滤的，所以问题选择是针对这些模型的对抗性选择。这可能会混淆GPT‑5的相对性能，并可能使所有OpenAI模型相对于非OpenAI模型处于不利地位。

IndQA背后的专家

我们非常感谢为IndQA撰写和评审问题的261位印度专家——记者、语言学家、学者、艺术家和行业从业者。我们合作的专家中包括：

一位获得Nandi奖的泰卢固语演员和编剧，参演了超过750部电影
一位马拉地语记者和《Tarun Bharat》的编辑
一位卡纳达语语言学学者和词典编辑
一位国际象棋特级大师，曾指导世界排名前100的棋手
一位泰米尔语作家、诗人、文化活动家，倡导社会公正、种姓平等和文学自由
一位旁遮普语获奖音乐作曲家
一位古吉拉特语遗产策展人和保护专家
一位获奖的马拉雅拉姆语诗人兼表演艺术家
一位历史学教授，专攻孟加拉丰富的文化遗产
一位建筑学教授，专注于奥里萨邦的寺庙

后续步骤

我们希望IndQA的发布能够为研究界的信息收集和新基准的创建提供启发和激励。IndQA风格的问题在现有AI基准测试覆盖不足的语言或文化领域中尤其有价值。创建类似于IndQA的基准测试可以帮助AI研究实验室更多地了解模型当前仍在努力的语言和领域，并为未来的改进提供一个明确的目标。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

推出 IndQA：评估人工智能系统在印度文化和语言方面的基准测试