在云端你需要的5个机器学习技能

changyuanchn

2020-11-01

机器学习和AI继续深入IT服务中，并补充软件工程师开发的应用程序。如果IT团队想跟上这种步伐，必须提高他们的机器学习技能。

云计算服务支持构建和部署AI及机器学习应用程序的各种功能。在很多方面，AI系统的管理与IT专业人员在云端熟悉的其他软件非常相似。但是，仅仅因为某人可以部署应用程序，并不一定意味着他们可以成功部署机器学习模型。

在云端你需要的5个机器学习技能

尽管这些共性可能会加快过渡，但仍存在重大差异。除了软件工程技能外，你的IT团队成员还需要特定的机器学习和AI知识。除技术专长外，他们还需要了解当前可用于支持其团队计划的云计算工具。

下面让我们探索IT专业人员在云端成功利用AI所需的5个机器学习技能，并了解Amazon、微软和谷歌为支持这些技能所提供的产品。在这些技能集中，虽然存在一些重叠，但不要期望一个人具备所有技能。通过组建具有这些技能的人员的团队，可使你的企业处于最佳位置，以利用基于云的机器学习。

1. 数据工程

如果IT专业人员想在云端实现任何类型的AI策略，都需要了解数据工程。数据工程包含一系列技能，这涉及数据整理和工作流开发领域，以及软件架构知识。

IT专业知识的这些不同领域可以分解为IT专业人员应完成的不同任务。例如，数据整理通常涉及数据源标识、数据提取、数据质量评估、数据集成以及在生产环境中执行这些操作的管道开发。

数据工程师应该习惯使用关系数据库、NoSQL数据库和对象存储系统。Python是一种流行的编程语言，可结合批处理和流处理平台(例如Apache Beam)以及分布式计算平台(例如Apache Spark)使用。即使你不是专业的Python程序员，只要具备一定的语言知识，你都可以从针对数据工程和机器学习的各种开源工具中提高技能。

数据工程在所有主要云端都得到很好的支持。AWS提供全面的服务来支持数据工程，例如AWS Glue、Amazon Managed Streaming for Apache Kafka(MSK)和各种Amazon Kinesis服务。AWS Glue是数据目录以及提取、转换和加载(ETL)服务，其中包括对计划作业的支持。MSK是数据工程管道的有用构建块，而Kinesis服务对于部署可扩展流处理管道特别有用。

Google Cloud Platform则提供Cloud Dataflow，这是一项托管的Apache Beam服务，支持批处理和Steam处理。对于ETL流程，Google Cloud Data Fusion提供基于Hadoop的数据集成服务。Microsoft Azure还提供多种托管数据工具，例如Azure Cosmos DB、Data Catalog和Data Lake Analytics等。

2. 模型构建

机器学习是发展良好的学科，你可以通过研究和开发机器学习算法来发展自己的职业。

IT团队使用工程师提供的数据来构建模型，并创建软件以提出建议、预测价值和对条目进行分类。重要的是要了解机器学习技术的基础知识，即使很多模型构建过程都是在云端自动完成。

作为模型构建者，你需要了解数据和业务目标。你需要构想解决方案来解决问题，并了解如何将其与现有系统集成。

现在市场上提供现成的产品，例如谷歌的Cloud AutoML，这套服务可以帮助你使用结构化数据以及图像、视频和自然语言来构建自定义模型，而无需对机器学习有太多的了解。而Azure在Visual Studio中提供ML.NET模型构建器，该模型构建器提供界面用于构建、训练和部署模型。

Amazon SageMaker是另一项托管服务，用于在云端构建和部署机器学习模型。这些工具可以选择算法，确定数据中哪些特征或属性最有价值，并使用称为超参数调整的过程优化模型。这些服务扩展了机器学习和AI策略的潜在用途。正如你不需要成为机械工程师就能驾驶汽车一样，你也不需要机器学习的研究生学位即可建立有效的模型。

3. 公平与偏差检测

算法做出的决策将直接且显着影响个人。例如，金融服务利用AI做出有关信贷的决策，这可能会无意中偏向特定人群。这不仅可能因拒绝信贷来伤害个人，而且还使金融机构面临违反《平等信贷机会法》等法规的风险。

这些看似艰巨的任务对于AI和机器学习模型是不可避免的事情。检测模型中的偏差可能需要精通的统计和机器学习技能，但与模型构建一样，某些繁重的工作可以由机器完成。

FairML是用于审核预测模型的开源工具，可帮助开发人员识别工作中的偏见。检测模型偏差的经验还可以帮助告知数据工程和模型构建过程。Google Cloud的公平性工具在市场上领先，其中包括What-If Tool、Fairness Indicators和Explainable AI服务。

4. 模型性能评估

模型构建过程的一部分是评估机器学习模型的性能。例如，分类分析是根据准确性、精确度和召回率进行评估。而回归模型(例如预测房屋出售价格的模型)通过测量其平均错误率进行评估。

现在表现良好的模型将来可能会表现不佳。这里问题不是，该模型会以某种方式被破坏，而是训练该模型数据会过时，而无法再反映未来世界的情况。即使没有突然的重大事件，也会发生数据漂移。重要的是评估模型并在生产中继续对其进行监视。

Amazon SageMaker、Azure Machine Learning Studio和Google Cloud AutoML等服务都包含模型性能评估工具。

5. 领域知识

机器学习 python机器学习云计算人工智能

安科网

在云端你需要的5个机器学习技能

changyuanchn

changyuanchn

相关推荐

关于机器学习管道需要了解什么?

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

这里有你需要的5个机器学习必备技能

如何通过7个步骤构建机器学习模型

为什么所有的机器学习模型有90％从没有投入生产

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

理解AI：为什么要在人工智能系统中寻求可解释性呢？

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

IT自动化和人工智能将在2021年走向何方?

强化学习到底是什么，它如何运作？

数字营销：AI如何“看透”人类行为模式？

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

机器学习新风暴：如何用ML模型预测房价？

LinkedIn开源Dagli，发布Java机器学习函数库

changyuanchn