目 录CONTENT

文章目录

研究发现AI模型训练数据可能存在偏见,影响其可靠性和公平性

Administrator
2025-11-04 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.bbc.com/news/articles/c5y930x81wpo?at_medium=RSS&at_campaign=rss

原文作者:BBC News


一项关于人工智能(AI)的最新研究发现,训练大型语言模型(LLM)所使用的数据集存在严重问题,这可能导致模型输出的可靠性降低。


研究人员通过分析许多流行的AI模型所依赖的数据集,包括用于训练GPT-3和LaMDA的模型,发现数据质量令人担忧。


他们发现,在数万亿词汇的训练数据中,充斥着大量的重复内容、错误信息,并且这些数据带有显著的偏见。


数据质量问题普遍存在

研究共同作者、英国伦敦大学学院(UCL)计算神经科学系的阿诺德·冯·艾米奇(Arnold Feng Amich)博士告诉BBC:“互联网上的数据是AI模型学习的全部基础。如果这些数据本身存在大量重复和低质量的内容,模型的表现自然会受到影响。”


他进一步指出,研究人员发现训练数据中存在大量低质量的网页内容,许多是自动生成的垃圾信息或未经核实的片段。


“我们发现很多内容是重复的,而且质量很差,”冯·艾米奇博士说,“当我们看到这些模型在复杂任务上表现出色时,我们必须记住,这部分是得益于高质量的数据,而另一部分则受到了海量低质量数据的影响。”


研究发现,大约12%的训练数据实际上是重复的,而近2%的内容被认为是“低质量”的。


偏见问题

除了质量问题外,研究还强调了训练数据中固有的偏见。


研究人员表示,数据中的偏见会影响模型对特定群体或主题的理解和反应,尤其是在处理敏感或有争议的话题时。


“如果训练数据倾向于某种观点或视角,模型很可能会放大这种倾向,”冯·艾米奇博士说,“这在现实世界的应用中是危险的,因为AI模型越来越多地被用于决策制定。”


这项研究强调了对AI训练数据进行更严格的策展和清洗的必要性,以提高AI系统的透明度和公平性。


冯·艾米奇博士呼吁:“我们需要更好的数据治理和审计流程,才能真正信任AI系统的输出。否则,我们正在构建一个基于有缺陷基础的未来。”


一个AI模型正在处理数据流的示意图

研究人员希望他们的发现能够促使AI开发者和研究人员更加关注数据质量,并开发更先进的数据处理技术。


他们认为,如果不解决这些基础问题,AI技术的进步将受到限制,并且可能在关键应用中带来不公平的结果。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区