求职攻略：数据科学项目的雇主最看重什么？

IT伯伯

2019-01-03

求职攻略：数据科学项目的雇主最看重什么？

获得一份工作并不容易，你需要让自己与众不同。

创建数据科学项目是为了什么？从雇主的角度来看，当然是为了能够让这些项目来产生商业影响。那么如何构建显示商业影响力的投资组合项目呢？如果你刚刚起步，那么预测花型数据就是个不错的选择，但是在现实生活中，你可能会直接或间接地从事一些与商业相关的工作。

本文以R客户流失预测为例，重点研究了R客户流失的预测过程。文章将逐步介绍如何在R中构建客户流失预测模型，该模型显示了对业务的重大影响。

求职攻略：数据科学项目的雇主最看重什么？

项目范围界定

任何真实数据科学项目在开始时，都需要提出一系列问题。

以下就是一些这样的好问题:：

1. 想解决什么问题?·

2. 可能的解决方案是什么?·

3. 如何评价你的模型?

假设你在电信行业工作，并且能够访问客户数据。老板找到你，问到：“我们如何利用现有的数据改善业务?”这个问题相当含糊，所以我们可以就“如何回答上面的问题”来制定一个策略，用来回答老板的问题：

你想解决什么问题?

在查看了数据之后，你会发现获取新客户的成本是保留现有客户成本的5倍。现在更重要的问题变成，“如何提高客户保留率来降低成本?”

你可能的解决方案是什么?

为了增加客户保留率，我们需要识别潜在的不满意客户。如果能够在客户生命周期的早期进行干预，就可以提供折扣或其他服务，试图防止不满意的客户流失。既然可以访问客户数据，我们就可以构建一个机器学习模型，尝试着预测可能流失的不满意客户。为了简单起见，我们来看看使用逻辑回归模型的情况。

你将如何评价模型?

我们将使用一系列机器学习评估指标(ROC、AUC、敏感性、特异性)以及面向业务的指标(节省成本)。

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

准备数据

这个工作流因项目而异，但是在这个例子中，我们将使用以下工作流：

1. 导入数据

2. 快速查看

3. 清理数据

4. 分离数据

下面是R中的前两个步骤的快照：

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

虽然没有显示，但是在清理步骤中，我们使用中值来估算缺失的值。这是一个简单的方法，但是一定要查找更严格的统计方法。

在最后一步中，将数据分为训练集和测试集，分别使用75%和25%的数据。这种方法通常能够防止过度拟合。

求职攻略：数据科学项目的雇主最看重什么？

拟合模型

为了实现逻辑回归模型，将使用广义线性模型(GLM)函数。

GLMs有不同的类型，其中包括逻辑回归。为了指定想要执行的二元逻辑回归，我们将使用参数“family=binomial”。

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

做出预测

现在我们已经拟合了模型，是时候看看它如何执行了。

为此，我们将使用“测试”数据集进行预测。我们将传入上一节中的“fit”模型。为了预测概率，我们将指定“type=response”。

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

将响应阈值设置为0.5，因此，如果预测的概率大于0.5，我们将把这个响应转换为“Yes”。

下一步是将字符响应转换为因子类型。因此，编码对于逻辑回归模型是正确的。

求职攻略：数据科学项目的雇主最看重什么？

稍后将更仔细地查看阈值，所以不必担心为什么将它设置为0.5。

最后一步是评估模型。

混淆矩阵是一个有用的工具，能向我们展示了每个类有多少正确和错误的预测。

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

敏感性(真阳性率)和特异性(真阴性率)也是“混淆矩阵”函数报告的有用指标。

求职攻略：数据科学项目的雇主最看重什么？

另一个有用的指标是接收机工作特性(ROC)曲线下的域，也称为AUC。

ROC是一个很好的工具，因为它可以在阈值变化时绘制真阳性率(TPR)与假阳性率(FPR)的关系图。下面是如何使用“ROCR”库绘制它：

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

使用这个图的一个有用的方法是求曲线下的面积，也称为AUC。AUC可以取0到1之间的任何值，其中1是最好的选择。下面是计算AUC的R代码：

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

模型AUC是0.85，这是非常好的结果。如果只是随机猜测，ROC是45度斜线。这相当于AUC是0.5。至少，比随机猜测做得更好，所以我们知道模型至少是存在一些价值的！

求职攻略：数据科学项目的雇主最看重什么？

展示商业影响

最后一步是将我们目前所做的一切转化为商业影响。

先做一些关于成本的假设。假设在电信行业获得一个新客户需要花费300美元。之前说过，数据显示，获得新客户的成本是保留现有客户的5倍，所以保留成本是60美元。

以下是关于这些成本如何与四种类型的预测相关联的简要结论：

1. 假阴性(预测客户不会流失,但他们实际上流失了):300美元

2. 真阳性(预测客户会流失,他们实际上也流失了):60美元

3. 假阳性(预测客户会流失,但他们实际上没有流失):60美元

4. 真阴性(预测,客户不会流失,他们实际上也没有流失):0美元

如果将每种预测类型的数量乘以相关的成本，并将它们相加，就会得到如下的成本方程:成本= FN(300美元)+ TP(60美元)+ FP(60美元)+ TN(0美元)

使用不同的阈值(0.1、0.2、0.3、……、0.9、1.0)计算每个客户的成本。在初始化阈值向量“thresh”之后，可以循环遍历每个值并进行预测。由于我是根据每个客户计算成本，所以要除以测试集中数据点的总数。

求职攻略：数据科学项目的雇主最看重什么？

最后，把结果放在数据帧中，以及我称之为“简单”的模型中。这是之前的逻辑回归模型，默认值是0.5。

求职攻略：数据科学项目的雇主最看重什么？

求职攻略：数据科学项目的雇主最看重什么？

图中显示，在0.2的阈值下，每个客户的最低成本约为40美元。

假设公司目前使用的是“简单”模型，阈值为0.5时，每个客户的成本约为48美元。

如果有大约50万的客户群，那么从简单的模式转换到优化的模式每年可以节省400万美元的成本!这种成本节约正是雇主们希望看到的重大商业影响。

求职攻略：数据科学项目的雇主最看重什么？

结论

在求职过程中，让自己脱颖而出的最佳方法之一是构建展示真实商业影响的投资组合项目。

如果你能提出一些明智的商业问题，并像现实世界中的数据科学家一样完成一个项目，对雇主而言，你将立马变得更有价值。

求职攻略：数据科学项目的雇主最看重什么？

编译组：林珍花、赵璇

相关链接：

https://www.kdnuggets.com/2018/12/data-science-projects-business-impact.html

如需转载，请后台留言，遵守转载规范

IT伯伯

0 关注 0 粉丝 0 动态

相关推荐

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 5评论 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 13评论 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 11评论 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 9评论 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 15评论 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 12评论 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 15评论 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 15评论 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 14评论 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 14评论 2020-10-30

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

ningwentao 14评论 2020-10-30

IT伯伯

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号