从优秀到顶尖,你的数据科学家之路还差这13个技能
领英上有这样一个提问:优秀数据科学家和顶尖数据科学家之间的区别是什么?
在领英上的提问
这一提问收到了许多来自各行各业顶尖数据科学家们的回答,所有的回答也几乎囊括了成为顶尖数据科学家所要具备的技能。
事实上,优秀数据科学家和顶尖数据科学家之间是存在差别的。一个数据科学家不可能具备本文提到的所有技能。但正是这些技能,让顶尖数据科学家从众多优秀的数据科学家中脱颖而出。
希望看完这篇文章之后,会对你的数据科学家职业生涯有帮助。
1. 教育
图片来源:pexels.com/@pixabay
数据科学家们的受教育水平偏高,88%的数据科学家都拥有硕士学位,46%拥有博士学位。当然,肯定有些例外。要成为一名数据科学家,需要很高的受教育水平以拓展必要的知识深度。要成为一名数据科学家,可以考取计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。这些学位能让你掌握处理和分析大数据所需的技能。
就算完成了学位课程,学习的道路也还没有结束。实际上,大多数数据科学家都拥有硕士或博士学位,他们还参加诸如如何使用Hodoop或大数据查询等在线培训以学习特殊技能。因此,你可以参加数据科学、数学、天体物理学或其它相关领域的硕士学位课程。攻读学位期间所学的技能将帮你轻松过渡到数据科学领域。
除了课堂学习,还可以通过创建一个应用程序、写博客或探索数据分析来实践课堂所学,从而掌握更多知识。
只要有能力完成工作,硕士或博士学位只是可选选项。在大多数行业工作范围内,只要能够解决业务问题,就不需要研究并采用新奇前沿的机器学习模型。
2. R语言编程
对至少一种分析工具有深入的了解,就数据科学而言,R语言编程通常是首选。R语言专为数据科学的需要而设计,可用来解决数据科学领域中遇到的任何问题。事实上,43%的数据科学家都用R来解决统计问题。然而R编程的学习曲线较为陡峭。
如果你已经掌握了一门编程语言,那么R语言就会变得很难学。尽管如此,网上仍有很多资源可以让你入门R语言,如Simplilearn的R编程语言数据科学培训,对有抱负的数据科学家来说,这是一个很好的资源。
3. Python编程
Python是数据科学界最常见编程语言,当然还有Java、Perl、或C/C++。对于数据科学家来说,Python是最棒的数据编程语言。这就是为什么40%的O’Reilly受访者都将Python作为主要编程语言。
由于其通用性,Python可用于数据科学进程的所有步骤中;也可以采用各种格式的数据,轻轻松松就能将SQL表导入代码中;还可以创建数据集,在谷歌上搜索到所需的任何类型数据。
阅读以下书籍了解更多Python的基础知识以及它在数据科学中的应用:
· Python数据科学手册
· 用于数据分析的Python
· 学习Python
4. Hadhoop平台
尽管这不是必须的平台,但很多情况下,这是首选平台。有Hive或Pig的经验是一个很好的卖点。熟悉Amazon S3等云工具也有好处。由CrowdFlower进行的一项面向3490个领英数据科学职位的研究显示,有49%的人将Apache Hadhoop列为数据科学家要掌握的第二个重要的技能。
数据科学家可能会遇到这样一种情况:拥有的数据量超过了系统的内存,或需要将数据发送到不同的服务器。这就是Hadhoop的作用所在,Hadoop可以将数据快速传输到系统上的各个点,这还只是冰山一角,Hadoop还可以进行数据探索、数据过滤、数据采样和汇总。
5. SQL 数据库/编程
尽管NoSQL和Hadoop是数据科学的重要组成部分。但仍期望候选者能够用SQL编写或执行复杂的查询。SQL(结构化查询语言)是一种编程语言,可以帮助执行添加、删除以及从数据库中提取数据等操作,还可以协助执行分析功能和转换数据库结构。
作为一名数据科学家,需要精通SQL。因为SQL是专为访问、通信和处理数据而设计的,用它查询数据库会得到一些见解。简洁的命令可以节省时间并且减少执行困难查询所需的编程量。学习SQL有助于更好的理解关系数据库和提升个人资料。
6. Apache Spark
Apache Spark正在成为全球最流行的大数据技术,正如Hadoop的大数据计算框架,唯一的差别就是Spark比Hadoop更快,因为Hadoop需要读取和写入磁盘,速度会变慢,Spark则将计算结果缓存在内存中。
Apache Spark专为数据科学设计,以帮助更快地运行其复杂算法。有助于在处理海量数据时传播数据处理,从而节省时间;还能在一台或一组机器上帮助数据科学家处理非结构化数据集。
Apache Spark能防止数据科学中的数据丢失,速度和平台是它的优势,能够轻松实施数据科学项目。有了Apache Spark就可以执行从数据接收到分布式计算的分析。
7. 机器学习和人工智能
大部分数据科学家都不精通机器学习领域和技术,包括神经网络、强化学习和对抗性学习等。想要脱颖而出,就需要了解如监督机器学习、决策树和逻辑回顾等机器学习技术。这些技术可以帮助解决基于主要组织结果预测的不同数据科学问题。
数据科学需要在机器学习的不同领域应用技能,Kaggle的一项调查显示,只有一小部分的数据专业人员能够掌握高级机器学习技能,例如,监督机器学习、非监督机器学习、时间序列、自然语言处理、离群值检查、计算机视觉、推荐引擎、生存分析、强化学习和对抗学习。
数据科学需要处理海量数据集,你可能想要精通机器学习以处理这些数据集。
8. 数据可视化
图片来源:pexels.com/@pixabay
商界会不断产生大量数据,这些数据需要转化成易于理解的版本。和原始数据相比,人们更容易理解图表形式的图片,“一图胜千言”。
作为一名数据科学家,必须要能够借助诸如ggplot、d3.js、Matplotlib和Tableau等数据可视化工具将数据可视化。这些工具有助于把项目中的复杂结果转换为易于理解的版本。问题在于,很多人不理解序列相关和p值,所以需要直观的将这些术语表示的内容体现在结果中。
数据可视化给机构提供了直接处理数据的机会。他们能够迅速洞察数据以抓住商机,在竞争中遥遥领先。
9. 非结构化数据
处理非结构化数据对数据科学家来说至关重要。非结构化数据是不适合数据库表的非定义内容,例如,视频、博客文章、客户评论、社交媒体文章、视频来源、音频等,由大量文本堆砌而成。因为这些数据不够精简,所以很难将其分类。
由于非结构化数据的复杂性,大多数人将其称为“黑暗分析”。非结构化数据有助于阐明对决策有用的见解。作为一名数据科学家,必须具备理解和操作不同平台的非结构数据的能力。
10. 求知欲
我没有什么特殊的才能,只有强烈的好奇心。阿尔伯特·爱因斯坦毫无疑问,最近在很多地方都能看到这则名言,尤其是和数据科学家相关时。几个月前,Frank Lo发表的客座博客中,阐述了它的意义并谈及了其它必备的“软技能”。
好奇心的定义是渴望获得更多知识。作为一名数据科学家,需要能够对数据提出问题,因为数据科学家花了将近80%的时间来发现和准备数据。数据科学领域是一个发展非常迅猛的领域,必须掌握更多知识才能紧跟潮流。
需要定期在线阅读内容和数据科学发展趋势的相关书籍来更新自身的知识储备。不要被互联网上眼花缭乱的海量数据淹没了。你必须要知道如何利用它们,好奇心是成为一名数据科学家的必备技能之一。例如,起初,可能还不能从收集到的数据中察觉出什么,但好奇心会带领你在数据中找寻到答案以及带来更多的见解。
11. 商业头脑
要成为一名数据科学家,需要对自己所在的行业有一个坚实的了解,以及了解公司有哪些待解决的问题。就数据科学而言,除了利用其数据确定业务的新方法外,能够辨别哪些问题能够解决业务也是至关重要的。
要做到这一点,必须要了解解决的问题会如何影响业务。了解企业的运作,才能朝着正确的方向努力。
12. 沟通技巧
寻找卓越数据科学家的公司正在招聘这样的人,他能够清晰流畅的将技术发现传达给如市场或销售部门等的非技术团队。除了需要理解非技术部门同事的需求以便恰当的讨论数据外,数据科学家还必须确保企业所做的决定有高质量的见解支撑。
除了使用公司所能理解的语言外,还需要用数据讲故事的方式来沟通。作为一名数据科学家,需要知道如何围绕数据来构造故事线,以便其它人都能够轻松理解。例如,直接呈现数据不如以讲故事的形式分享对这些数据的见解有效。讲故事的形式有助于你恰到好处的与雇主沟通数据发现。
交流时,注意分析数据的结果和值。大多数雇主并不想知道你分析了什么,他们感兴趣的是这些数据会对业务产生什么积极影响。学会通过沟通传递价值和建立持久关系。
13. 团队合作
图片来源:pexels.com/@rawpixel
数据科学家不能孤军奋战。必须和公司高管一起研究战略,与产品经理和设计师携手研发新产品,和营销人员一起开展更好的转换活动,与客户端和服务器软件开发人员并肩作战以创建数据管道和改进工作流。必须和公司里的每一个人一起工作,包括你的客户。
从根本上来说,你将和团队成员协作开发用例,以便了解解决问题所需的业务目标和数据,知道处理用例的正确方法,解决问题所需的数据,以及如何以相关人员都能轻松理解的方式来呈现结果。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”