目 录CONTENT

文章目录

全球最大数字动物园:基于NVIDIA GPU训练的生物学基础模型可识别超百万物种

Administrator
2025-11-21 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blogs.nvidia.com/blog/bioclip2-foundation-ai-model/

原文作者:Zoe Kessler


Tanya Berger-Wolf教授的第一个计算生物学项目始于与同事的一个赌注:她能否建立一个比动物学家识别斑马的速度更快的AI模型


她赢了。


现在,作为俄亥俄州立大学转化数据分析研究所的主任和教授,Berger-Wolf正带着BioCLIP 2着手应对整个动物王国的挑战。BioCLIP 2是一个基于生物学的基础模型,它在迄今为止最大、最多样化的生物数据集上进行了训练。该模型将在今年的NeurIPS人工智能研究会议上展示。


BioCLIP 2超越了仅从图像中提取信息的能力。它可以区分物种的特征,并确定物种间和物种内的关系。例如,如图所示,该模型在没有被教授“尺寸”概念的情况下,就按喙的大小排列了达尔文雀。

散点图显示了BioCLIP 2如何从左到右按喙的大小排列达尔文雀。

这些能力将使研究人员能够将该模型用作生物百科全书、强大的科学平台和具有推理能力的交互式研究工具,以帮助解决保护生物学中一个持续存在的问题:某些物种的数据缺乏。


“对于像虎鲸这样的标志性物种,我们缺乏足够的数据来确定其种群规模,而北极熊的种群数量是未知的,”Berger-Wolf说。“如果我们没有这些物种的数据,那么甲虫和真菌又有什么希望呢?”


AI模型可以通过填补这一数据缺乏的缺口,来加强对受威胁物种及其栖息地的现有保护工作。


BioCLIP 2在Hugging Face上以开源许可证提供,上个月被下载了超过45,000次。这项工作建立在一年多前发布的第一个BioCLIP模型的基础上,第一个模型也是在NVIDIA GPU上训练的,并获得了计算机视觉与模式识别(CVPR)会议的最佳学生论文奖。


BioCLIP 2论文将在11月30日至12月5日在墨西哥城,以及12月2日至7日在圣地亚哥举行的NeurIPS会议上发表。


构建世界上最大的生物学抽认卡牌组

该项目始于一个庞大数据集的编译,即TREEOFLIFE-200M,它包含了2.14亿张生物图像,涵盖了超过925,000个分类单元——从猴子到面包虫再到木兰花。


为了整理如此海量的数据,Berger-Wolf在Imageomics研究所的团队与史密森尼学会、来自各个大学的专家以及其他相关领域的组织进行了合作。


这些研究人员着手探索,如果他们用比以往更多的数据来训练一个生物学模型,会发生什么。


该团队希望能够超越“单个生物科学,走向生态系统科学”,Berger-Wolf说。


在32个NVIDIA H100 GPU上训练10天后,BioCLIP 2展示了新颖的能力,例如能够在不被明确教授这些概念的情况下,区分同一物种内的成年和幼年动物,以及雄性和雌性动物。


它还可以建立相关物种之间的关联——例如理解斑马与其他马科动物的关系。


“这个模型在每个分类级别上都学会了,所有这些斑马的图像都有一个特定的属标签,而这些马科动物(包括斑马、马和驴)的图像,它们有一个特定的科特征,以此类推,”她说。“它在从未被告知的情况下,仅通过这些关联就学会了这种层级结构。”


该模型甚至可以根据训练数据判断生物体的健康状况。例如,在生成下图的散点图时,它能够区分健康的苹果叶或蓝莓叶与患病叶片,并且可以识别不同类型的疾病。

散点图显示了随着模型的训练,植物物种得到了更好的分离。物种内的变化也形成了簇,使其更容易分离。

Berger-Wolf的团队使用了一组64个NVIDIA Tensor Core GPU来加速模型训练,并使用单个Tensor Core GPU进行推理
“没有NVIDIA加速计算,像BioCLIP这样的基础模型是不可能实现的,”Berger-Wolf说。


野生动物数字孪生:研究生态系统关系的未来

研究人员的下一个努力方向是开发一个基于野生动物的交互式数字孪生,可用于可视化和模拟物种间的生态相互作用以及它们与环境互动的方式。


目标是以一种安全、简单的方式研究自然界中发生的生物关系,同时最大限度地减少对生态系统的影响和干扰。


“数字孪生使我们能够可视化物种间的相互作用并将其置于背景中,也可以进行‘假设’情景的推演和测试我们的模型,而无需破坏真实环境——尽可能减少足迹,”Berger-Wolf说。


数字孪生将为科学家提供机会,在模拟环境中探索所研究物种的视角,为更复杂和准确的生态研究开辟了无限可能性。


最终,该技术版本甚至可以部署供公众使用——例如通过动物园的交互式平台。人们可以从全新的视角探索、可视化和了解自然环境及其众多物种。


“光是想象那个场景,一个孩子走进动物园,心想——如果你是那个羊群中的另一只斑马,或者如果你是那根栖木上的小蜘蛛,你会看到什么——我就起鸡皮疙瘩了,”Berger-Wolf说。


了解更多关于BioCLIP 2的信息




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区