如何做出属于你自己的优秀数据科学作品集?
全文共2458字,预计学习时长5分钟
图源:Unsplash 摄影:Skye Studios
本文将对如何构建数据科学作品集进行深入介绍。
激情必不可少
如果你真的想做一个数据科学的作品集的话,就不太可能有很多业余时间,致力于建立数据科学作品集肯定需要精力上的投入和时间上的牺牲。根据经验,只有在做一个让你充满激情的项目时,你才能成功做到这些。激情也不一定是一下就能找到的。
写作是一个很好的媒介,因为通过写作能够实现分享想法的激情。也许你很想用深度学习做一个项目,却动力不足,但也许你对音乐充满热情,那你就可以使用深度学习创作音乐的方式来创建作品集。把精力投入到感兴趣的事情上可以在你想要放弃的时候助你突破各种艰难险阻。
提出你自己的问题
在kaggle等数据科学平台上围绕预定义问题做一些辅助性项目非常有吸引力。虽然这样做肯定会使整个过程更容易,但却忽略了数据科学研究过程中最重要的部分之一:提出问题。在应用中,最难的往往是将业务问题转化为数据科学问题。编写代码前请仔细考虑以下问题:
• 我想解决什么问题?
• 怎样才能用数据科学来解决这个问题?
• 如果我能解决这个问题,那会创造什么价值?
你的回答可能很简单。比如说,我想做一些带有我喜欢的乐队风格的音乐,而我经过调查发现深度学习在解决这个问题上已经取得了一些成功,如果我能解决这个问题,就会有听不完的音乐,而这些音乐都好像是我喜欢的明星做的一样!
考虑这些问题是必不可少的,因为它为你项目的故事提供了背景。这一步能帮助你更好地向别人解释你选择这个项目的原因,同时也能说明你在解决一个问题时有战略性思维。
收集自己的数据
如果你提出了自己的问题,收集数据这个步骤是必须的。你的问题可能是独一无二的,因此需要花费一些时间来收集数据。这样做很好!你可以在项目中展示收集数据的技能。比如说我们刚刚举的做音乐的例子,这个项目可能就需要找免费的音乐包(https://freemusicarchive.org/about),这些音乐包里需要有高品质,合法的本地音频。搜索和收集自己的数据的过程中,你一定会学会收集数据这个数据科学研究中关键的一步,而这一步学校并不会教给你。
图源:Unsplash 摄影:Craig Whitehead
展示数据探索的过程
正如特斯拉公司人工智能研究负责人安德烈·卡锡(Andrej Karpathy)所说:成为一个与数据共生的人。
所有机器学习项目的首要任务之一就是花时间检查和分析数据。不要跳过这一步。这非常重要,因为它可以让你做出一些真正优秀的数据可视化。仔细检查数据,并关注以下内容:
• 是否有异常值?
• 特征分布是什么样的?
• 绘制要素与目标之间的关系
• 查看数据的真实案例
在此步骤中,你还可以做更多事情,但以上这些问题已经是一个很好的开始了。使用seaborn统计图制作库(https://seaborn.pydata.org/)可美化图表,或者你想要做得更多更好的话,可以尝试让可视化与诸如Plotly等开源数据可视化平台(https://plot.ly/python/)进行交互。这一步的目标是向其他人展示你是如何通过分析数据来揭示其他人并未发现的知识,而这一步也将让你的模型变得更好。
构建多个模型
通常情况下,项目只展示最好的模型。一个真正优秀的作品集可以让人们理解你的思维过程,所以请将思维过程展示给我们!为能满足这个要求,建议你采取以下步骤:
• 第一步,创建一个非机器学习基线。这个基线应该像历史平均值一样合理。对于评估第一个基于机器学习的模型,这是关键的一步。
• 第二步,创建第一个机器学习模型。说明你选择将此作为第一个模型的原因,并将其与非机器学习基线进行比较。
• 第三步,建立第二个机器学习模型。这一步的要点是要解释清楚为什么在建立第一个机器学习模型之后建立这个模型是最好的一步。是否因为你的模型过度拟合才需要使用一个相对简单的模型或添加正则化呢?也许你使用了相同的模型,但是因为分析错误而开发了不在预定计划内的功能。
• 第四步,重复步骤三直至你对结果满意。
最后,你不仅需要在项目中构建多个模型,还需要按照逻辑叙述并解释你开发一个完整机器学习模型的思维模式。
描述过程
到这个时候,你已经做完了很多关键步骤,可能会觉得任务已经差不多完成了。没这么快!你现在需要倒回去,把所有工作联系在一起并进行一次完整的描述。
优秀的数据科学家也是优秀的故事讲述者。
这是构建你的优秀项目过程中最重要的一步。如果你跳过这一步,你可能只是在GitHub开源代码库上有一堆代码,而那称不上是个作品集。建议用一些诸如Medium的博客平台,或者甚至可以开发自己的博客来讲开发历程。写下项目的目标,强调重点的探索性分析,其中包括你的模型结果和思考过程,然后告诉大家如何在项目中创造价值。
可以把描述过程这一步看作是给董事会展示项目。你并不需要在描述过程时提到任何代码(但一定要提供“GitHub”上的代码链接)。
图源:Unsplash 摄影:JOSHUA COLEMAN
重复
现在作品集里有一个很好的项目了。之后要做的就是重复这个过程。这一步确实需要巨大的工作量,消耗很多时间,但只要坚持并保持专注,你就会发现自己有一些很好的故事,可以讲述你是如何使用机器学习在你充满激情的领域创造价值的(要确保你在“领英”(LinkedIn)职场社交平台和简历上突出了你的作品集)。这个数据科学作品集非常优秀,一定会让你脱颖而出。
想要寻找一些灵感吗?可以看看蒂姆·德特莫(https://timdettmers.com/data-science-portfolio/)的数据科学作品集。
留言 点赞 关注
我们一起分享AI学习与发展的干货
如需转载,请后台留言,遵守转载规范