📢 转载信息
原文链接:https://www.kdnuggets.com/all-about-google-colab-file-management
原文作者:Kanwal Mehreen
Image by Author
# Colab如何工作
Google Colab是数据科学、机器学习和Python开发中一个极其强大的工具。这是因为它免去了本地环境配置的麻烦。然而,一个经常让初学者甚至中级用户感到困惑的领域是文件管理。
文件存储在哪里?为什么它们会消失?如何上传、下载或永久存储数据?本文将一步步回答所有这些问题。
让我们立即澄清最大的误解。Google Colab的工作方式与您的笔记本电脑不同。每次打开一个笔记本时,Colab都会为您提供一个临时的虚拟机器(VM)。一旦您离开,其中的所有内容都会被清除。这意味着:
- 本地保存的文件是临时的
- 当运行时重置时,文件就会丢失
您的默认工作目录是:
/content
任何保存在/content中的内容,一旦运行时重置,就会消失。
# 在Colab中查看文件
您有两种简单的方法可以查看您的文件。
// 方法一:使用可视化方式
这是初学者推荐的方法:
- 查看左侧边栏
- 点击文件夹图标
- 浏览
/content目录
当您只想了解情况时,这非常有用。
// 方法二:使用Python方式
当您正在编写脚本或调试路径时,这非常方便。
import os
os.listdir('/content')
# 文件上传与下载
假设您的笔记本电脑上有一个数据集或一个逗号分隔值(CSV)文件。第一种方法是使用代码上传。
from google.colab import files
files.upload()
将弹出一个文件选择器,选择文件后,它会出现在/content中。除非移动到其他地方,否则此文件是临时的。
第二种方法是拖放。这种方式很简单,但存储仍然是临时的。
- 打开文件资源管理器(左侧面板)
- 将文件直接拖到
/content中
要从Colab将文件下载到本地机器:
from google.colab import files
files.download('model.pkl')
您的浏览器会立即下载该文件。这对CSV、模型、日志和图像都有效。
如果您希望文件能够在运行时重置后仍然存在,您必须使用Google Drive。要挂载Google Drive:
from google.colab import drive
drive.mount('/content/drive')
授权访问后,您的Drive将显示在:
/content/drive/MyDrive/
保存在此位置的任何内容都是永久性的。
# 推荐的项目文件夹结构
一个混乱的Drive很快就会变得令人头疼。一个干净且可重用的结构是:
MyDrive/ ├── ColabProjects/
├─ My_Project/
├─ data/
├─ notebooks/
├─ models/
├─ outputs/
└ README.md
为了节省时间,您可以使用如下路径:
BASE_PATH = '/content/drive/MyDrive/ColabProjects/My_Project'
DATA_PATH = f'{BASE_PATH}/data/train.csv'
要使用Pandas永久保存文件:
import pandas as pd
df.to_csv('/content/drive/MyDrive/data.csv', index=False)
要稍后加载文件:
df = pd.read_csv('/content/drive/MyDrive/data.csv')
# Colab中的文件管理
// 处理ZIP文件
要解压ZIP文件:
import zipfile
with zipfile.ZipFile('dataset.zip', 'r') as zip_ref:
zip_ref.extractall('/content/data')
// 使用Shell命令进行文件管理
Colab支持使用!开头的Linux shell命令。
!pwd
!ls
!mkdir data
!rm file.txt
!cp source.txt destination.txt
这对自动化非常有用。一旦您习惯了这一点,就会频繁使用它。
// 直接从互联网下载文件
无需手动上传,您可以使用wget:
!wget https://example.com/data.csv
或者在Python中使用Requests库:
import requests
r = requests.get(url)
open('data.csv', 'wb').write(r.content)
这对于数据集和预训练模型非常有效。
# 附加注意事项
// 存储限制
您应该了解以下限制:
- Colab VM的磁盘空间大约为100 GB(临时)
- Google Drive的存储受您的个人配额限制
- 基于浏览器的上传上限约为5 GB
对于大型数据集,请务必提前规划。
// 最佳实践
- 在笔记本的开头挂载Drive
- 使用变量来定义路径
- 将原始数据保持为只读
- 将数据、模型和输出分离到不同的文件夹中
- 为未来的自己添加一个README文件
// 不使用Google Drive的情况
当出现以下情况时,应避免使用Google Drive:
- 训练使用超大型数据集
- 高速度I/O对性能至关重要
- 需要分布式存储
在这些情况下,您可以使用的替代方案包括:
# 最后的想法
一旦您了解了Colab文件管理的工作原理,您的工作流程就会变得更加高效。无需担心文件丢失或重写代码。有了这些工具,您可以确保实验的清晰和数据平稳的过渡。
Kanwal Mehreen 是一位机器学习工程师和技术作家,对数据科学以及人工智能与医学的交叉领域抱有深厚的兴趣。她是电子书《使用ChatGPT实现最大化生产力》的合著者。作为2022年亚太区谷歌一代学者,她倡导多样性和学术卓越。她还被认证为Teradata技术多样性学者、Mitacs Globalink研究学者和哈佛WeCode学者。Kanwal是变革的坚定倡导者,她创立了FEMCodes以赋能STEM领域的女性。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区