机器学习:对新手的一种解释
在技术行业内,有许多领域。本文的目的是提供对这些领域之一的了解,即机器学习。在本文中,我将提供机器学习的高级解释,以便即使是不熟悉与该领域有关的技术概念的初学者也会对机器学习的内容有所了解,以及对我们的各个方面住。我们将探索常见的机器学习方法和算法。
机器学习
机器学习是人工智能(AI)领域的研究领域。机器学习的主要目标是理解数据的结构,并将数据纳入有意义且可供人们使用的模型。机器学习的过度简化是它产生预测。例如,“给定具有特定属性的实例,预测关于该实例的某些事情”。预测可能是关于未来的(“预测股票在某个时间点的价格”),但也可以是关于电脑不立即明显的特质(“预测图像是猫还是狗”)。虽然机器学习与计算机科学的其他领域(如数据科学)有很多重叠,但它与传统的计算方法不同。在传统的计算中,算法是计算机用来解决问题的定义良好的编程指令集。另一方面,机器学习算法提供了允许计算机训练数据输入(例如大量猫或狗图像)的能力,并使用统计分析来生成落在特定范围内的值(不管图像是猫或狗)。因此,机器学习有助于计算机根据样本数据构建模型,以便基于数据输入自动执行决策过程。另一方面,机器学习算法提供了允许计算机训练数据输入(例如大量猫或狗图像)的能力,并使用统计分析来生成落在特定范围内的值(不管图像是猫或狗)。因此,机器学习有助于计算机根据样本数据构建模型,以便基于数据输入自动执行决策过程。另一方面,机器学习算法提供了允许计算机训练数据输入(例如大量猫或狗图像)的能力,并使用统计分析来生成落在特定范围内的值(不管图像是猫或狗)。因此,机器学习有助于计算机根据样本数据构建模型,以便基于数据输入自动执行决策过程。
机器学习方法
在机器学习中,任务通常分为三大类,即监督学习,无监督学习和强化学习。这些类别是基于如何完成学习或者如何给所开发的系统提供学习反馈。监督学习方法基于示例输入数据和输出由人标记的数据来训练算法,而在无监督学习中,给算法的数据未被标记。强化学习指的是面向目标的算法,该算法学习如何获得复杂的目标,或在多个步骤中沿特定维度最大化。这样做是为了使算法能够找到它提供的数据内的结构。
监督学习
简而言之,在监督学习中,我们已经知道基于过去或已完成数据的任务或问题的解决方案。这个想法是找到一个模型,可以预测我们不知道它们时的答案(未来或不完整的数据)。
监督式学习通过两项任务完成:
回归:将输入变量映射到连续输出变量的任务,例如连续输出变量是一个实数值,如整数或浮点数。
分类:将输入数据变量映射到离散输出变量的任务,例如输出变量是标签,类别或类。映射函数预测给定观测的类或类别。
虽然分类和回归预测建模问题是不同的。它们之间的算法有一些重叠。例如,分类算法可以预测连续值,但连续值是以类模型的概率形式。一些算法可以用于分类和回归以及诸如决策树和人工神经网络的小修改。监督学习的一个常见用例是使用历史数据来预测统计上可能的未来事件。
无监督学习
在无监督学习中,数据是未标记的,因此该算法留在其输入数据中找到共同点。本质上,我们希望算法能够找到未知的结构或趋势。虽然提供的数据没有标签,但我们希望算法将数据组织到组,类或类中。我们可以进一步将监督学习分为:
聚类分析:基于相似性的任务或分组
密度估计:使用统计模型找到引起观察变量的潜在概率分布的任务。
维度降低:找到一组捕捉观察变量基本模式的变量的任务。在保留核心特征的同时缩小数据规模。
如果没有给出正确的答案,无监督学习方法可以查看复杂的数据,这些数据是膨胀的,看似无关的,以便以有意义的方式进行组织。例如,给狗的未标记照片作为输入数据,算法最终将能够将狗照片分类在一起。无监督学习的目标是发现数据集中的隐藏模式。
强化学习
在强化学习中,非常类似于无监督学习,该算法没有提供答案。相反,该算法的任务是决定如何执行它已经给出的任务。由于没有训练数据,算法必须从经验中学习。它通过反复试验来收集培训实例,试图完成任务,实现最大化长期奖励的目标。理解强化学习的最简单的背景是具有明确目标和点系统的游戏。就像一个受到正面或负面强化激励的孩子一样,算法在做出错误的决定时会受到惩罚,而在做出正确的决定时会得到奖励。强化学习解决了将即时行动与其产生的延迟回报相关联的难题。很像人类,强化学习算法通常需要等待才能看到他们决策的成果。他们在延迟的回报环境中工作,在这种环境下,很难了解哪些行为会在一段时间内采取某些结果并采取措施。预期强化学习算法可以在更多模糊环境中表现更好,同时从任意数量的可能操作中进行选择,而不是选择有限的游戏选项。这个 预期强化学习算法可以在更多模糊环境中表现更好,同时从任意数量的可能操作中进行选择,而不是选择有限的游戏选项。这个 预期强化学习算法可以在更多模糊环境中表现更好,同时从任意数量的可能操作中进行选择,而不是选择有限的游戏选项。
实施机器学习
在真实情况下使用机器学习算法之前,机器学习技术使用称为交叉验证的训练和测试系统。验证定义为决定量化变量之间的假设关系的数值结果是否可接受的过程,作为输入数据的描述。另一方面,交叉验证用于了解模型如何将其推广到其他数据集,而不仅仅是用于训练的数据。
总是需要验证机器学习模型的稳定性,以确保模型正确解释数据,并且偏差或变异不高。
实际应用
机器学习就在我们身边。有几种日常的机器学习的例子,我们甚至都没有意识到。仅举几例,这些技术被应用于和用于:搜索引擎,垃圾邮件过滤,面部识别,社交网络分析,市场细分,数据分析,欺诈检测和风险分析。
有时候描述是不够的。有了这些复杂的算法,查看如何将这些技术与实际数据和实际应用程序结合使用的实际例子通常会更加有益。让我们来看看在金融机器学习方面的一些不同的方法。
无监督学习技术可用于分析和理解财务数据。例如,PCA可以用作资产分配工具,k-均值聚类作为股票市场回报分组的一种方式,或其他聚类技术来重现标准普尔500指数甚至ISOMAPs,以帮助将股票分类为行业。
监督学习技术非常适合财务问题。它们可用于做出预测并帮助制定投资和风险策略。例如,像最近邻居,神经网络,决策树和随机森林以及朴素贝叶斯这样的技术可以检测货币交叉和股票市场中的市场变动类型。
结论
虽然数据和计算分析可能使我们认为我们正在接收客观信息,但事实并非如此。人类偏见在数据收集,组织和最终确定机器学习如何与数据交互的算法中起着重要作用。例如,如果人们正在为“鱼”提供图像作为训练算法的数据,并且这些数据人们压倒性地选择金鱼的图像,计算机可能不会将鲨鱼归类为鱼。这会造成对鲨鱼的偏差,因为鱼类和鲨鱼不会被视为鱼类。随着机器学习越来越多地用于商业活动,未被捕获的偏差可能会延长可能阻止人们获得贷款资格的系统性问题,支付工作机会,或收到当天的送货选项。因为人类的偏见会对他人产生负面影响,所以要意识到这一点非常重要,并且尽可能地努力消除它。由于机器学习是一个不断创新的领域,因此必须牢记算法,方法和方法将继续发生变化。