目 录CONTENT

文章目录

我的收藏夹里有什么:数据科学版

Administrator
2025-11-04 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.kdnuggets.com/whats-on-my-bookmarks-bar-data-science-edition

原文作者:Kanwal Mehreen


What’s on My Bookmarks Bar: Data Science Edition
Image by Author

 

引言

跟上数据科学领域的最新进展并非易事。每天都有新的库、论文、数据集和工具出现,我不可能全部记住。我发现仅仅关注新闻通讯或帖子效果不佳。拥有一些触手可及的资源更有帮助。对我来说,这就像一个小型枢纽,我把研究、编码资料、数据集、可视化和快速参考都集中在一个地方。在尝试了许多方法后,我目前有10个一直使用的书签。它们帮助我保持专注、节省时间并了解行业动态。我每天早上都会打开它们,它们为我的一天定下了基调。以下是我的十大首选书签以及我保留它们的原因:

1. arXiv: 机器学习 (cs.LG) 新论文

arXiv 是我查看最新机器学习研究的地方。cs.LG 部分涵盖了从理论到NLP、视觉和强化学习中的应用机器学习的所有内容。我收藏了这个链接并经常查看,以免错过可能激发新想法或项目的论文。这是保持领先并了解新方法的好方法,甚至在它们出现在文章或GitHub之前。

2. GitHub 趋势 Python 仓库

这个页面 展示了每周最热门的Python项目,从新库到实验性工具。我将它收藏起来,因为数据科学不仅仅是算法,也关乎工具。浏览热门内容可以帮助我及早发现有用的库或模式,避免它们变得过于拥挤。每周在这里花上10分钟通常就能发现一两件值得尝试的事情。

3. Data Is Plural

Data Is Plural 是一个包含不寻常且有趣数据集的新闻通讯和存档。我收藏它是因为它非常适合寻找项目创意、教程或黑客马拉松挑战。每个数据集都有简短的描述和链接。这是一种探索新数据并获得超越Kaggle或常规来源想法的简便方法。

4. The Rundown AI

The Rundown AI 汇总了顶级的AI和机器学习新闻和论文,为我节省了数小时的搜索时间。无论是新论文、工具发布还是新兴方法,它都能提供快速概览,让我了解哪些是相关的。从本质上讲,这是保持信息灵通和跟上趋势的简单方法。

5. RAWGraphs

RAWGraphs 是一款免费的、基于浏览器的工具,可以快速制作干净、可定制的图表。我可以直接从CSV或JSON创建可视化,而无需编写复杂的matplotlibseaborn代码。它非常适合在报告中发现趋势、异常值或制作图表。图表可以轻松导出为矢量格式,因此在幻灯片或文章中看起来非常专业。

6. Quartz 错误数据指南

每当我清理混乱数据时,Quartz Bad Data Guide 都是我的首选资源之一。它涵盖了常见问题,如缺失值、乱码文本、格式不一致和数字输入错误,并提供了修复技巧。混乱的数据只是工作的一部分,这份指南为我节省了大量的故障排除时间。我也喜欢它的结构是按应由谁修复的分类,这使得跟踪和解决问题更加容易。

7. Five Minute Stats

Five Minute Stats 是一个关于基本统计概念和公式的快速参考。我可以在几分钟内轻松复习假设检验、概率分布、相关性和描述性统计等主题。当需要检查计算、准备课程或撰写教程而无需翻阅教科书时,它非常实用。

8. Awesome Data Analysis

Awesome Data Analysis 是一个GitHub集合,汇集了数据工作流程各个部分所需的工具和资源。我将它收藏起来,因为它非常适合清理、操作、可视化数据以及构建机器学习管道。如果我尝试新的库、更新我的工具包或与同事或学生分享,它能帮助我快速找到可靠且维护良好的工具。

9. Mockaroo

Mockaroo 是一个用于生成随机数据和模拟API的工具。我可以快速以CSV、JSON、SQL或Excel格式创建逼真的数据集,而无需手动输入所有内容。它非常适合测试代码、仪表板或机器学习工作流程,包括棘手的边缘案例。模拟API还可以让我同时进行前端和后端开发。

10. Foorilla

Foorilla 是一个技术和数据职位列表平台。我用它来浏览新的空缺职位、关注公司,并按主题、地点或远程选项筛选工作。你还可以将列表导出为CSV或JSON,以便更容易地跟踪机会。这是一种在不频繁切换多个网站的情况下了解就业市场动态的简便方法。

Kanwal Mehreen 是一位机器学习工程师和技术作家,对数据科学以及人工智能与医学的交叉领域怀有深厚的激情。她是电子书《Maximizing Productivity with ChatGPT》的合著者。作为2022年亚太地区谷歌一代学者(Google Generation Scholar),她倡导多样性和学术卓越。她还获得了Teradata技术多元化学者、Mitacs全球研究学者和哈佛WeCode学者的认可。Kanwal是一位坚定的变革倡导者,她创立了FEMCodes来赋权STEM领域的女性。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区