📢 转载信息
原文链接:https://openai.com/index/scaling-social-science-research
原文作者:OpenAI
在OpenAI,我们工作的核心部分是赋能科学家们加快速度并解决更具挑战性的问题。今天,我们的经济研究团队发布了GABRIEL:一个开源工具包,它使用GPT将非结构化的文本和图像转化为定量测量指标。它专为经济学家、社会科学家和数据科学家设计,用于大规模研究定性数据。
定性数据讲述着关于世界最丰富的故事——人们所说、所写、所教、所争论和所经历的一切。它涵盖了从教学大纲和访谈到社交媒体和照片等各种内容。这类数据量非常庞大。但将这种类型的数据转化为严谨的证据是非常耗时的。很多时候,这根本不可行。在太多情况下,社会科学家不得不放弃重要的研究途径,不是因为数据不存在,而是因为分析这些数据是不可能的。
GABRIEL的构建旨在使定性数据更易于获取。它允许研究人员用日常语言描述他们想要测量的内容——例如“这个职位列表对家庭有多友好?”——然后将该问题一致地应用于数千(甚至数百万)份文档,为每份文档返回一个分数。这使得研究人员可以将更少的时间花在重复性的数据标注上,而将更多的时间花在真正需要专业知识的工作上:选择要测量的内容、验证结果以及得出审慎的结论。
例如,GABRIEL可以分析一大批科学论文,以了解具体使用了哪些方法以及它们如何随时间演变。它可以研究课程大纲,以衡量对不同学科或技能的关注程度。它可以为欧洲的每一个小城镇提取结构化的历史细节,或者检查大量的客户评论并发现人们最看重事物的模式。在我们的论文中,我们对GPT在多个用例中对定性数据的标记能力进行了基准测试,发现其准确性非常高。
除了这类测量之外,GABRIEL还提供了研究人员通常需要的实用工具。这些工具包括在列不匹配的情况下合并数据集、智能去重、段落编码、构思新的科学理论以及对文本中的个人信息进行去身份化以保护隐私。
GABRIEL现已作为开源Python库提供,并附带了一个教程Notebook,方便上手。它的设计旨在要求最少的技术背景。我们将根据学术界的反[馈]持续改进GABRIEL。我们希望这个工具能帮助更多的研究人员将定性数据和人类故事的丰富性带入他们的工作中。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区