目 录CONTENT

文章目录

我的收藏夹里有什么:数据科学版

Administrator
2025-11-04 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.kdnuggets.com/whats-on-my-bookmarks-bar-data-science-edition

原文作者:Kanwal Mehreen


What’s on My Bookmarks Bar: Data Science Edition

Image by Author
 

# 引言

紧跟数据科学的步伐并不总是那么容易。每天都有新的库、论文、数据集和工具出现,我不可能全部记住。我发现仅仅关注新闻通讯或帖子真的不起作用。更有帮助的是手边随时有几个首选资源。对我来说,这就像一个小型枢纽,我将研究、编码资料、数据集、可视化和快速参考资料都放在一个地方。在尝试了很多方法之后,我现在有10个一直都在使用的书签。它们帮助我保持专注、节省时间并了解行业动态。每天早上我都会打开它们,它们为我的一天定下了基调。以下是我的首选书签以及我保留它们的原因:

# 1. arXiv: 机器学习 (cs.LG) 新论文

arXiv 是我查看最新机器学习研究的地方。cs.LG 部分涵盖了从理论到NLP、视觉和强化学习中的应用机器学习的一切内容。我将它加入书签并经常查看,这样就不会错过那些可能激发新想法或项目的论文。这是保持领先并了解新方法的绝佳方式,甚至在它们出现在文章或GitHub上之前。

# 2. GitHub 热门 Python 仓库

这个页面 展示了每周最受欢迎的 Python 项目,从新库到实验性工具。我将其加入书签是因为数据科学不仅仅是算法,也关乎工具。浏览热门内容有助于我尽早发现有用的库或模式,以免它们变得过于拥挤。每周在这里花上10分钟通常就能给我一两个值得尝试的东西。

# 3. Data Is Plural

Data Is Plural 是一个包含不寻常且有趣的数据集的电子报和存档。我将其加入书签是因为它非常适合寻找项目创意、教程或黑客马拉松挑战。每个数据集都有简短的描述和链接。这是一个探索新数据并获得超越Kaggle或常规来源的创意的便捷方式。

# 4. The Rundown AI

The Rundown AI 聚合了顶级的AI和机器学习新闻和论文,为我节省了数小时的搜索时间。无论是新论文、工具发布还是新兴方法,它都能提供快速概览,让我了解哪些内容是相关的。基本上,这是一种保持信息灵通和跟上趋势的简单方法。

# 5. RAWGraphs

RAWGraphs 是一个免费的、基于浏览器的工具,可以快速创建干净、可定制的图表。我可以直接从CSV或JSON创建可视化,而无需编写复杂的 matplotlibseaborn 代码。它非常适合在报告中发现趋势、异常值或制作图表。图表很容易以矢量格式导出,因此在幻灯片或文章中看起来很专业。

# 6. Quartz 糟糕数据指南

每当我清理混乱数据时,Quartz Bad Data Guide 都是我的首选工具之一。它涵盖了常见问题,如缺失值、乱码文本、格式不一致和数字输入错误,并提供了修复它们的技巧。混乱的数据只是工作的一部分,这份指南为我节省了大量的故障排除时间。我也喜欢它的结构是按谁应该修复什么来组织的,这使得跟踪和解决问题变得容易得多。

# 7. Five Minute Stats

Five Minute Stats 是关于基本统计概念和公式的快速参考。我可以在几分钟内轻松复习假设检验、概率分布、相关性和描述性统计等主题。当我在检查计算、准备课程或撰写教程而不想翻阅教科书时,它非常完美。

# 8. Awesome Data Analysis

Awesome Data Analysis 是一个GitHub集合,包含了数据工作流所有部分的工具和资源。我将其加入书签是因为它非常适合清洗、操作、可视化数据以及构建机器学习管道。如果我正在尝试新的库、刷新我的工具包,或者与同事或学生分享,它能帮助我快速找到可靠、维护良好的工具。

# 9. Mockaroo

Mockaroo 是一个用于生成随机数据和模拟API的工具。我可以快速创建CSV、JSON、SQL或Excel格式的逼真数据集,而无需手动输入所有内容。它非常适合测试代码、仪表板或机器学习工作流,包括棘手的边缘情况。模拟API也允许我同时处理前端和后端。

# 10. Foorilla

Foorilla 是一个技术和数据职位列表平台。我用它来浏览新的职位空缺、关注公司,并按主题、地点或远程选项筛选职位。你还可以将列表导出为CSV或JSON,这使得跟踪机会更容易。这是一种无需在多个网站之间跳转就能了解就业市场动态的简单方式。
 
 

Kanwal Mehreen 是一位机器学习工程师和技术作家,对数据科学以及人工智能与医学的交叉领域怀有深厚的热情。她合著了电子书《Maximizing Productivity with ChatGPT》。作为2022年亚太地区谷歌一代学者(Google Generation Scholar),她倡导多元化和学术卓越。她还被认定为Teradata技术多元化学者、Mitacs全球研究学者和哈佛WeCode学者。Kanwal是一位坚定的变革倡导者,创立了FEMCodes以赋能STEM领域的女性。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区