告别像素损失：Berkeley BAIR 推出 xT 框架，实现在现代 GPU 上端到端处理超大图像-青云TOP

📢 转载信息

原文链接：http://bair.berkeley.edu/blog/2024/03/21/xt/

原文作者：Ritwik Gupta, Shufan Li, Tyler Zhu, Jitendra Malik, Trevor Darrell, Karttikeya Mangalam

作为计算机视觉领域的研究人员，我们深信每一颗像素背后都蕴含着一个故事。然而，在处理超大图像时，这个领域似乎正面临着“作者的瓶颈”。如今，我们口袋里的相机和环绕地球的卫星所拍摄的照片，其尺寸和细节已经大到足以让当前最先进的模型和硬件不堪重负。通常情况下，内存使用量会随着图像尺寸的增大呈二次方增长。

在处理大图像时，我们通常被迫做出两个次优选择：降采样（Down-sampling）或裁剪（Cropping）。这两种方法都会导致图像中信息和上下文的严重丢失。今天，我们重新审视这些方法，并隆重推出 $x$T（eXtremely Large Image Modeling）框架，一个能够在当代 GPU 上端到端建模超大图像的新方法，同时有效地整合全局上下文与局部细节。

$x$T 框架的架构示意图。

为什么要费力处理大图像？

为什么要费力处理大图像呢？想象一下，您正坐在电视机前观看最喜欢的足球比赛。球场上布满了球员，但动作却只发生在一小块屏幕区域。然而，如果只能看到球当前位置周围的一小块区域，您会满意吗？或者，如果以低分辨率观看比赛，您会满意吗？每一个像素都在讲述一个故事，无论它们相隔多远。这在所有领域都是如此，从您的电视屏幕到病理学家查看千兆像素切片以诊断微小的癌变斑块。这些图像是信息的宝库。如果我们因为工具无法处理地图而无法充分探索其财富，那又有什么意义呢？

如果不知道发生了什么，看体育比赛就没有那么有趣了。

这正是当今的痛点所在。图像越大，我们就越需要同时“拉远”以看到全貌，又需要“拉近”以观察细枝末节，这使得同时掌握全局和局部细节成为一项挑战。目前大多数方法都迫使我们在“失去森林”或“错过树木”之间做出选择，而这两种选择都不是理想的。

$x$T 如何尝试解决这个问题

想象一下您正在尝试拼一个巨大的拼图。与其一下子就被压倒，不如从小块开始，仔细观察每一块，然后弄清楚它们是如何拼入更大图景的。这基本上就是 $x$T 处理大图像的方式。

$x$T 将这些巨大的图像分层地切成更小、更易于处理的块。但这不仅仅是让事物变小。它是关于理解每个块本身，然后利用一些巧妙的技术，弄清楚这些块如何在更大的尺度上连接起来。这就像与图像的每个部分进行“对话”，了解它的故事，然后与其它部分分享这些故事，以获得完整的叙事。

嵌套分词（Nested Tokenization）

$x$T 的核心在于嵌套分词（nested tokenization）的概念。简单来说，在计算机视觉领域，分词（Tokenization）类似于将图像切成模型可以消化和分析的小块（Token）。然而，$x$T 更进一步，在该过程中引入了层次结构——因此称为“嵌套”。

想象一下，您被要求分析一张详细的城市地图。与其试图一次性看完整个地图，不如将其分解为“区”，然后在这些“区”内分解为“街区”，最后分解为“街道”。这种分层分解使得管理和理解地图的细节变得更容易，同时还能追踪它们在更大图景中的位置。这就是嵌套分词的精髓——我们将图像分割成若干个区域，每个区域可以根据视觉骨干网络（我们称之为“区域编码器”）预期的输入大小，进一步分割成子区域，然后再进行切块（patchify）以便被该区域编码器处理。这种嵌套方法使我们能够在局部级别上提取不同尺度的特征。

协调区域编码器与上下文编码器

一旦图像被整齐地划分成 Token， $x$T 就会采用两种类型的编码器来理解这些部分：区域编码器（Region Encoder）和上下文编码器（Context Encoder）。每个都在拼凑图像的完整故事中扮演着不同的角色。

区域编码器是一个独立的“局部专家”，它将独立的区域转换为详细的表示。然而，由于每个区域都是孤立处理的，图像中的信息在大的范围内不会共享。区域编码器可以是任何最先进的视觉骨干网络。在我们的实验中，我们使用了像 Swin 和 Hiera 这样的分层视觉 Transformer，以及 ConvNeXt 这样的 CNN！

上下文编码器是“全局视角大师”。它的工作是将来自区域编码器的详细表示缝合在一起，确保一个 Token 的洞察力能在其他 Token 的背景下被考虑。上下文编码器通常是一个长序列模型。我们试验了 Transformer-XL（以及我们称之为 Hyper 的变体）和 Mamba，但您也可以使用 Longformer 以及该领域的其他最新进展。尽管这些长序列模型通常是为语言设计的，但我们证明了可以将它们有效地用于视觉任务。

$x$T 的魔力在于这些组件——嵌套分词、区域编码器和上下文编码器——是如何协同工作的。通过首先将图像分解成易于管理的块，然后在孤立地和联合地系统分析这些块，$x$T 成功地保持了原始图像细节的保真度，同时整合了远距离上下文，最重要的是，它可以在当代 GPU 上端到端地处理巨大的图像。

实验结果

我们在具有挑战性的基准任务上评估了 $x$T，这些任务涵盖了公认的计算机视觉基线到严格的大图像任务。特别是，我们对 iNaturalist 2018（用于细粒度物种分类）、xView3-SAR（用于上下文依赖的分割）和 MS-COCO（用于检测）进行了实验。

使用 $x$T 的强大视觉模型在细粒度物种分类等下游任务上开创了新前沿。

我们的实验表明，$x$T 可以在所有下游任务上实现更高的准确性，同时参数更少，并且每个区域使用的内存比最先进的基线少得多^*。我们能够在 40GB A100 GPU 上处理大至 29,000 x 25,000 像素的图像，而可比较的基线在仅 2,800 x 2,800 像素时就会耗尽内存。

使用 $x$T 的强大视觉模型在细粒度物种分类等下游任务上开创了新前沿。

^*这取决于您选择的上下文模型，例如 Transformer-XL。

为什么这比你想象的更重要

这种方法不仅很酷，而且是必需的。对于追踪气候变化或诊断疾病的科学家来说，它是一个游戏规则的改变者。这意味着可以创建理解完整故事的模型，而不仅仅是零碎片段。例如，在环境监测中，能够同时看到广阔景观的总体变化和特定区域的细节，有助于理解气候影响的大局。在医疗保健方面，这可能意味着能否及早发现疾病的区别。

我们并非声称一举解决了世界上所有的问题。我们希望通过 $x$T 为可能开启了一扇大门。我们正在步入一个新时代，在这个时代，我们不必在视觉的清晰度和广度上做出妥协。 $x$T 是我们实现模型能够轻松应对大规模图像复杂性的重大飞跃。

还有很多工作要做。研究将会发展，我们处理更大、更复杂图像的能力也希望能随之发展。事实上，我们正在研究 $x$T 的后续版本，以进一步扩展这一前沿领域。

总结

有关这项工作的完整介绍，请查阅 arXiv 上的论文。项目页面 project page 包含我们已发布的代码和权重链接。如果您觉得这项工作有帮助，请按以下方式引用：

@article{xTLargeImageModeling, title={xT: Nested Tokenization for Larger Context in Large Images}, author={Gupta, Ritwik and Li, Shufan and Zhu, Tyler and Malik, Jitendra and Darrell, Trevor and Mangalam, Karttikeya}, journal={arXiv preprint arXiv:2403.01915}, year={2024} }

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

告别像素损失：Berkeley BAIR 推出 xT 框架，实现在现代 GPU 上端到端处理超大图像