机器学习到底是什么?
摘要:人工智能和机器学习可谓火爆空前。自从AlphaGo完胜人类围棋顶尖棋手后,人们关于人工智能的讨论就从未间断过。 有人说,人工智能会使大批人失业,又有人说,人工智能会给人类带来威胁。更多人期待的则是,人工智能可以帮助我们创造更多的价值。AI是一个非常广义的概念。
关于机器学习最简单的定义来自于Berkeley所表述的:机器学习是AI的一个分支,它探索了让计算机根据经验提高效率的方法。
为了更深刻的理解这一定义,接下来我们将对其进行拆分分析。
AI的分支:人工智能是一种能够使得计算机及其系统能够成功完成通常需要人类智能行为才能完成的任务的研究和开发。机器学习是训练计算机完成上述任务的技术和过程,是其必不可少的一部分。
探索方法:现阶段机器学习技术仍在不停地涌现,虽然一些用于训练计算机的模型已经被识别和使用,但由于不同的业务问题需要不同的模型,在训练计算机时也可以使用不同的模型,随着时间的推移将会开发出更多模型。
帮助计算机以提高其性能:大多数情况下,要让计算机完成人工智能的任务,它需要借助于人工帮助去练习和适应。
以经验为基础:提供具有经验的AI的另一种说法—为其提供数据。随着更多数据被输入系统,计算机可以更准确地对它以及将遇到的未来数据做出响应。
机器学习如何运作?
让我们来看看机器学习是如何运作的:
收集:机器学习取决于数据,第一步是确保按照你要解决的问题的要求拥有适合的数据。
清理:数据可以由不同的源生成,包含在不同的文件格式中,并以不同的语言表示。可能需要在数据集中添加或删除信息,因为某些实例可能缺少信息,而其他实例可能包含不需要的或无关的条目。它的准备工作将影响其可用性和结果的可靠性。
拆分:根据数据集的大小,可能只需要一部分。从所选样本中,应将数据分为两组:一组用于训练算法,另一组用于评估算法。
训练:这个阶段主要是为了找到准确完成所选目标的函数。根据所使用的模型类型,采用不同的训练形式:如,在简单的线性回归模型中拟合一条线、生成随机森林算法的决策树。为了更好地理解我们拿神经网络来说,一般算法碰到数据集的一部分时,将会尝试处理数据。测量其自身的性能并自动调整其参数(也称为反向传播),直到它能不断产生期望的结果具有足够的可靠性。直到它能不断产生期望的结果,并具有足够的可靠性。
评估:一旦算法在训练数据上表现良好,它将再次使用没有见过的数据进行测量。此过程允许你防止过度拟合,但这种情况仅发生在学习算法运行良好同时又与你的训练数据相关的情况下。
优化:该模型针对目标应用程序内的集成进行了优化,以确保其效率。
是否有不同类型的机器学习?
在机器学习中可以使用许多不同的模型,但它们通常被分为三种不同的学习类型:监督、无监督和强化。根据要完成的任务,有些模型比其他模型更合适、性能更好。
监督学习:其特点是在训练模型时明确标记每个数据点的正确结果,以便找它们之间的关系,确保在引入未分配的数据点时,可以正确的做出预测或分类。
如在对股票价格的研究中,分析数据点之间的关系,可以用回归学习算法对下个数据点做出预测。
无监督学习:该类学习的特征是算法在训练模型时期不对结果进行标记,而直接在数据点之间找有意义的关系,它的价值在于发现模式以及相关性。如,一个喜欢这瓶酒的人也喜欢这一个。
强化学习:这种类型的学习是有监督学习和无监督学习的结合。它通常用于解决更复杂的问题。在实践中,该类学习类型可应用于控制机器人手臂、找到最有效的电机组合、机器人导航等领域。同时逻辑游戏也很适合强化学习如扑克等。强化学习的其他应用在物流、日程安排和任务的战略规划中也很常见。
机器学习可以应用到哪里?
企业需要考虑机器学习开发的三个阶段及其应用。这三个阶段是指:描述性阶段,预测性阶段和规范性阶段。
描述性阶段是指记录和分析历史数据增强商业智能。向管理者提供描述性信息,并更好地理解过去行动和决策的结果和后果。这个过程现在已成为全球大多数大型企业的常规工作。
应用机器学习的第二阶段是预测。收集数据并使用它来预测特定结果可以提高反应性,使其更高效地做出决策。
最后一个规范性阶段是最先进的机器学习阶段,该阶段已被应用与企业活动中,并且在新兴企业的推动下不断向前发展。在针对有效和高效的业务实践时了解原因、动机和背景是最佳决策的先决条件,而只预测行为或结果是不够的。具体地说,当人和机器结合起来时,这个阶段是可能的。机器学习用于找到有意义的关系并预测结果,而数据专家则充当翻译者,以了解关系存在的原因。这样,就可以更精确地作出决策。
此外,除了预测性洞察之外,感兴趣的朋友还可以了解一下另一个机器学习应用程序:流程自动化。这里是关于这两个概念的介绍和对比。
以下是机器学习可以解决的问题的一些示例。
物流和生产:
lRethink Robotics使用机器学习来训练机器人手臂并提高生产速度;
lJaybridge Robotics可实现工业级车辆自动化,以实现更高效的运营;
l Nanotronics自动化光学显微镜以改进检查;
l Netflix和Amazon根据用户需求优化资源分配;
l 其他例子包括:预测ERP/ERM需要;预测资产故障和维护,提高质量保证,提高生产线性能。
销售和营销:
l 6sense预测哪种铅更容易被买,哪个时间更容易被买入;
l Salesforce Einstein帮助预测销售机会并自动完成任务;
l Fusemachines通过AI助手自动完成销售任务;
l AirPR提供了提高公关绩效的洞察力;
l Retention Science建议跨渠道行动以推动参与;
l 其他示例包括:预测客户的生命周期价值,提高客户细分准确度,检测客户购物模式以及优化用户的应用内体验。
人力资源:
l Entelo帮助招聘人员识别和鉴定候选人;
l hiQ协助管理人员进行人才管理。
金融:
l Cerebellum Capital和Sentient利用机器学习驱动的软件增强投资管理决策;
l Dataminr可以通过提供有关社交趋势和突发新闻的早期警报来协助实时财务决策;
l 其他例子包括:检测欺诈行为和预测股票价格。
卫生保健:
l Atomwise使用预测模型来减少药物生产时间;
l Deep6 Analytics确定符合条件的患者进行临床试验;
l 其他例子包括:更准确地诊断疾病,改善个性化护理和评估健康风险。
你可以在Sam DeBrule汇集的精彩列表中找到更多机器学习和人工智能以及其他相关资源的示例。
阿里云云栖社区组织翻译。
文章原标题《Understanding Machine Learning》
作者:Charles A.R
译者:乌拉乌拉,审校:袁虎。