数据科学家的工具列表:提高生产效率的工具包
本文转载自公众号“读芯术”(ID:AI_Discovery)。
新的东西令人激动,新的框架、新的仪器、新的工具,都会让生活变得更轻松。保持更新很难,我们需要花更多的时间在其上。
当然,我们并不是要一直更新到最新的发现,它可能是某个特定库的新的小版本,也可能是处于兴趣或是工作需要而寻找。现在开始吧!
- Texthero:文本从零到多个的预处理、向量化、可视化。应用tf-idf和tokenize查找功能来实现面向线性通信模型的主成分分析。
- Google Data Studio:未来的前端。以googledocs(谷歌文件)的方式创建仪表板、报表和分析,只需插入数据库,上传csv文件,就可以开始了。
- Deepnote:出色的jupyter笔记本。可以在你的浏览器中进行协作、代码评审、可以更好的绘图、支持aws3、MongoDB等等。
- Streamlit:是构建数据应用程序的最快方式,谷歌数据工作室的替代品,创建基于python的web应用程序、可视化和报表。
从R转为python可以试试plotnine,这是一个基于ggplot2的Python图形语法呈现方式。
- pivottablejs:在Jupyter笔记本中拖放数据透视表。
- RISE:把你的笔记本变成显示基于.js-的幻灯片。
- gmaps:基于谷歌地图的可视化库——创建漂亮的交互式地图和热图。
- flair:由来自柏林的扎兰多支持研发的最先进的自然语言处理中的一个简单框架。
- light fm:由python实现的流行推荐算法。
- ds-cheatsheets:大量备忘单集合,从python到R,包括SQL。
- Scraper.AI:真实有效的网络爬虫工具。
- AlwaysAI:在数分钟内将计算机视觉模型部署到边缘设备,如Nvidia Jetson、Raspberry PI,其目录涵盖了不同的预训练模型,从对象分割到估计。
- Notion:具有配置项的记笔记软件,使用Markdown来创建表格,列表,画板还有看板。
概念:你将实际使用的笔记应用程序
- Weights & Biases:在训练深度学习模型时,经常会发生实验结果丢失、被覆盖或难以跟踪的情况。Weights &Biases只需通过添加几行代码就可以帮助你跟踪模型训练以及实验。
- 无代码机器学习?Obviously AI也许是AutoML的下一步。上传(或连接)数据、选择目标就足够了,剩下的工作将由ObviouslyAI进行访问ML过程,使其让任何人都可以访问。它们还为你生成一个决策图谱,提供一个可解释的模型。
- ML Playground:运行不同的算法,添加神经网络,删除图层,绘制数据,或上传自己的数据。
- Papers with code:正如其名,找到Github的脚本文件,准备被分叉开。
- Clever Grid:一个1核的图形处理器和250GB的培训数据,每天约10欧元。
- AWS DeepRacer:训练你的自动驾驶(模型)车,在著名的F1赛道上与其他人竞争,比如巴塞罗那——加泰罗尼亚赛道。你也可以在亚马逊上购买DeepRacer汽车的硬件版本。
- MusicTime for Spotify:一个VSCode编辑器插件,它可以在编写代码时发现最受欢迎的音乐。
- gspread_dataframe:是否必要把padas库中的数据发送到Google Sheets。
- Kite:AI遇到代码自动完成提供建议,它们为主要的pythonide提供插件,比如VSCode、Pycharm和Spyder。
- PuLP:对整数规划和线性规划有兴趣吗?对生产优化或多武装犯罪分子之类的问题感兴趣吗?看看他们的案例研究吧。
- 使用Scikit Learn、Keras和TensorFlow进行实际操作机器学习:构建智能系统的概念、工具和技术:这本书数据科学家得人手一本,它涵盖了从基本到高级的数据科学主题,十分实用且包含如何手动操作。
- datatau:数据科学领域的黑客新闻。
- Deta:一个慷慨大方的免费云端储存提供商。
- 寻找副业项目?找到你感兴趣的副业并参与其中,去看看 Solodoers吧。
- cookiecutter-data-science:数据科学的项目引导者。数据科学的代码质量无非是正确性和再现性问题。
- tqdm:我们一直希望在for循环中有一个进度条。
- ELI5:可视化和调试各种机器学习模型,从黑匣子到可解释的人工智能。
- gpxpy:你知道你可以把最喜欢的跑步应用程序数据导出到一个.gpx文件中吗?这些文件可以被解析成pandas,我曾经做过类似的事情,从一次帆船旅行中导出数据:
- 《找到你的第一份数据科学工作》:一本免费的关于数据科学职业生涯和专家建议的书,一共70页。
- GluonTS:基于mxnet的亚马逊方式概率时间序列建模。
- Lifelines:实现通用生存分析模型的Python库。生存分析广泛用于预测事件在特定时间发生的可能性,例如,客户将取消订阅我们的服务。
- tensor-house:一个企业操作的参考机器学习和优化模型集合,对于想学习如何使用不同的机器学习模型来解决不同问题的人来说非常有趣。
- Gradio:让模型创建易于使用的界面设计,对于展示模型预测非常有帮助,包括自然语言分析、图像和回归。