目 录CONTENT

文章目录

Google Colab文件管理全面指南

Administrator
2026-02-21 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.kdnuggets.com/all-about-google-colab-file-management

原文作者:Kanwal Mehreen


All About Google Colab File Management
Image by Author

 

# Colab如何工作

 
Google Colab是数据科学、机器学习和Python开发中一个极其强大的工具。这是因为它免去了本地环境配置的麻烦。然而,一个经常让初学者甚至中级用户感到困惑的领域是文件管理。

文件存储在哪里?为什么它们会消失?如何上传、下载或永久存储数据?本文将一步步回答所有这些问题。

让我们立即澄清最大的误解。Google Colab的工作方式与您的笔记本电脑不同。每次打开一个笔记本时,Colab都会为您提供一个临时的虚拟机器(VM)。一旦您离开,其中的所有内容都会被清除。这意味着:

  • 本地保存的文件是临时的
  • 当运行时重置时,文件就会丢失

您的默认工作目录是:

/content

 

任何保存在/content中的内容,一旦运行时重置,就会消失。

 

# 在Colab中查看文件

 
您有两种简单的方法可以查看您的文件。

 

// 方法一:使用可视化方式

这是初学者推荐的方法:

  • 查看左侧边栏
  • 点击文件夹图标
  • 浏览/content目录

当您只想了解情况时,这非常有用。

 

// 方法二:使用Python方式

当您正在编写脚本或调试路径时,这非常方便。

import os
os.listdir('/content')

 

# 文件上传与下载

 
假设您的笔记本电脑上有一个数据集或一个逗号分隔值(CSV)文件。第一种方法是使用代码上传。

from google.colab import files
files.upload()

 

将弹出一个文件选择器,选择文件后,它会出现在/content中。除非移动到其他地方,否则此文件是临时的。

第二种方法是拖放。这种方式很简单,但存储仍然是临时的。

  • 打开文件资源管理器(左侧面板)
  • 将文件直接拖到/content

要从Colab将文件下载到本地机器:

from google.colab import files
files.download('model.pkl')

 

您的浏览器会立即下载该文件。这对CSV、模型、日志和图像都有效。

如果您希望文件能够在运行时重置后仍然存在,您必须使用Google Drive。要挂载Google Drive:

from google.colab import drive
drive.mount('/content/drive')

 

授权访问后,您的Drive将显示在:

/content/drive/MyDrive/

 

保存在此位置的任何内容都是永久性的。

 

# 推荐的项目文件夹结构

 
一个混乱的Drive很快就会变得令人头疼。一个干净且可重用的结构是:

MyDrive/ ├── ColabProjects/
    ├─ My_Project/
        ├─ data/
        ├─ notebooks/
        ├─ models/
        ├─ outputs/
        └ README.md

 

为了节省时间,您可以使用如下路径:

BASE_PATH = '/content/drive/MyDrive/ColabProjects/My_Project'
DATA_PATH = f'{BASE_PATH}/data/train.csv'

 

要使用Pandas永久保存文件:

import pandas as pd
df.to_csv('/content/drive/MyDrive/data.csv', index=False)

 

要稍后加载文件:

df = pd.read_csv('/content/drive/MyDrive/data.csv')

 

# Colab中的文件管理

 

// 处理ZIP文件

要解压ZIP文件:

import zipfile
with zipfile.ZipFile('dataset.zip', 'r') as zip_ref:
    zip_ref.extractall('/content/data')

 

// 使用Shell命令进行文件管理

Colab支持使用!开头的Linux shell命令。

!pwd
!ls
!mkdir data
!rm file.txt
!cp source.txt destination.txt

 

这对自动化非常有用。一旦您习惯了这一点,就会频繁使用它。

 

// 直接从互联网下载文件

无需手动上传,您可以使用wget

!wget https://example.com/data.csv

 

或者在Python中使用Requests库:

import requests
r = requests.get(url)
open('data.csv', 'wb').write(r.content)

 

这对于数据集和预训练模型非常有效。

 

# 附加注意事项

 

// 存储限制

您应该了解以下限制:

  • Colab VM的磁盘空间大约为100 GB(临时)
  • Google Drive的存储受您的个人配额限制
  • 基于浏览器的上传上限约为5 GB

对于大型数据集,请务必提前规划。

 

// 最佳实践

  • 在笔记本的开头挂载Drive
  • 使用变量来定义路径
  • 将原始数据保持为只读
  • 将数据、模型和输出分离到不同的文件夹中
  • 为未来的自己添加一个README文件

 

// 不使用Google Drive的情况

当出现以下情况时,应避免使用Google Drive:

  • 训练使用超大型数据集
  • 高速度I/O对性能至关重要
  • 需要分布式存储

在这些情况下,您可以使用的替代方案包括:

 

# 最后的想法

 
一旦您了解了Colab文件管理的工作原理,您的工作流程就会变得更加高效。无需担心文件丢失或重写代码。有了这些工具,您可以确保实验的清晰和数据平稳的过渡。
 
 

Kanwal Mehreen 是一位机器学习工程师和技术作家,对数据科学以及人工智能与医学的交叉领域抱有深厚的兴趣。她是电子书《使用ChatGPT实现最大化生产力》的合著者。作为2022年亚太区谷歌一代学者,她倡导多样性和学术卓越。她还被认证为Teradata技术多样性学者、Mitacs Globalink研究学者和哈佛WeCode学者。Kanwal是变革的坚定倡导者,她创立了FEMCodes以赋能STEM领域的女性。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区