AI/ML偏差知多少?不同行业的示例让你秒懂

点击上方关注,All in AI中国

作者——Ajitesh Kumar

本文的主要目的是为了让我们了解与机器学习模型偏差、偏差相关的属性/特性相关的概念以及来自不同行业的示例。

AI/ML偏差知多少?不同行业的示例让你秒懂

在人工智能(AI)和机器学习(ML)驱动的世界中,预测模型已开始在决策领域得到更多使用,决策者、审计师和最终用户的主要关注点是确保这些模型没有根据模型预测(有意或无意的偏差)做出有偏差/不公平的决定。想象一下银行、保险和就业等行业,其中模型被用作决策问题的解决方案,例如申请人、批准贷款/信贷、决定保险费等等。如果基于模型做出的偏差预测结果对用户有害,可能会影响他们的决定,从而导致不公平/有偏差的决策。因此,对于解决ML问题的产品经理/业务分析师和数据科学家而言,了解模型预测偏差的不同细微差别非常重要,例如本文中讨论的以下一些内容:

  • 什么是ML模型公平/偏差?
  • 如何测试模型公平性/偏差
  • 与偏差相关的特性/属性
  • 行业受到AI Bias的影响

什么是ML模型公平/偏差?

机器学习模型中的偏差可能是由于缺乏足够的特性和用于训练模型的相关数据集引起的。鉴于用于训练模型的特性和相关数据是由人类设计和收集的,换句话说个体(数据科学家或产品经理)的偏差可能会影响训练模型的数据准备。这意味着可能遗漏一个或多个特性,或者用于训练的数据集的覆盖范围不够好。即,该模型可能无法捕获数据集中存在的基本规则。结果,由此产生的机器学习模型最终将反映偏差(高偏差)。

机器学习模型偏差可以通过以下几个方面来理解:

  • 缺乏适当的特性可能会导致偏差。在这种情况下,可以说该模型是不合适的。换句话说,可以发现这种模型表现出高偏差和低方差。
  • 缺乏适当的数据集:尽管这些特性是合适的,但缺乏适当的数据可能会导致偏差。对于大量不同性质的数据(涵盖不同的情景),可以解决偏差问题。但是,必须注意避免过度拟合问题(高方差),这可能会影响模型性能,因为模型无法推广所有类型的数据集。

如果发现模型具有高偏差,则模型将被称为不公平,反之亦然。需要注意的是,减少偏差的尝试将导致具有高方差的高复杂度模型。下面给出的图表表示偏差和方差方面的模型复杂性。请注意,随着偏差的减少,模型趋于变得复杂,同时方差可能很大。

AI/ML偏差知多少?不同行业的示例让你秒懂

如何测试ML模型的公平性/偏差?

重要的是要了解人们如何确定模型偏差的程度,因此是不公平的。最常见的方法之一是确定输入值(与特性相关)对模型预测/输出的相对重要性。确定输入值的相对重要性将有助于确定模型不过度依赖于后面部分之一中讨论的受保护属性(年龄,性别,颜色,教育等)这一事实。其他技术包括审计数据分析,ML建模管道等。因此,人们将能够评估模型是否公平(无偏)。

为了确定模型偏差和相关的公平性,可以使用以下一些框架:

·Lime(https://github.com/marcotcr/lime)

·FairML(https://github.com/adebayoj/fairml)

·SHAP(https://github.com/slundberg/shap)

·Google假设分析(https://ai.googleblog.com/2018/09/the-what-if-tool-code-free-probing-of.html)

·IBM Bias评估工具包(https://github.com/IBM/AIF360)

AI/ML偏差知多少?不同行业的示例让你秒懂

与偏差相关的特性/属性

以下是可能导致偏差的一些属性/功能:

  • 种族
  • 性别
  • 颜色
  • 宗教
  • 国籍
  • 婚姻状况
  • 性取向
  • 教育背景
  • 收入来源
  • 年龄

考虑到由于与上述特性相关的数据引入的偏差,人们可能希望采用适当的策略来训练和测试模型和相关的性能。

示例:受AI偏差影响的行业

在诸如以下某些行业的各种用例中可能出现偏差(有意或无意的偏差):

  • 银行业:设想一下有效的申请人贷款申请未获批准的情况。这也可能是因为系统中引入了用于模型培训的特性和相关数据(如性别,教育,种族,地点等)的偏差导致的。在另一个例子中,想象一下申请人的贷款获得批准,尽管他不是足够合适。在又一个示例中,假设申请人信用卡申请被拒绝,尽管申请人是满足获得信用卡的所有要求的有效申请人。由于申请人的教育资格,用于对信用卡申请进行分类以被批准或拒绝的模型可能会发生潜在的偏差。
  • 保险:设想一下,一个人被要求根据模型的预测支付更高的保费,该预测考虑了一些属性,如性别,进行预测的种族。
  • 就业:想象一下机器学习模型根据候选人的种族,肤色等属性不恰当地过滤候选人简历。这不仅会影响合适候选人的就业能力,还会导致公司错失聘请优秀候选人的机会。
  • 住房:想象一个具有高偏差的模型,对房屋定价做出不正确的预测。这可能导致房屋所有者和最终用户(买方)错过与买卖相关的机会。位置,社区,地理位置等相关的数据,可能会引入偏差。
  • 欺诈(刑事/恐怖分子):假设一下,该模型错误地将一个人归类为潜在的罪犯并让他/她接受他/她未犯过的罪行的质疑。这可能因为种族,宗教,国籍等有偏见的模式的预测结果。例如,在某些国家或地区,特定宗教或国籍的人被怀疑从事某种犯罪,如恐怖主义。现在,这成为个人偏差的一部分。这种偏差反映在模型预测中。
  • 政府:假设一下,政府计划将提供给某一部分人,并使用机器学习模型对那些从这些计划中获益的人进行分类。偏差会导致一些符合条件的人没有获得福利或一些不合格的人获得福利。
  • 教育:如果由于潜在的机器学习模型偏差,申请人入学申请被拒绝。这种偏差可能是由于使用了哪种模型训练的数据而造成的。
  • 金融:在金融行业中,使用有偏差的数据构建的模型可能会导致冒犯"平等信用机会法"(公平贷款)而不批准正确的申请人的信贷请求的预测。并且,最终用户可能会对相同的要求提出质疑,即要求公司提供对不批准信用请求的解释。该法律于1974年颁布,禁止基于种族,肤色,宗教,性别等属性的信用偏差。在建立模型时,产品经理(业务分析师)和数据科学家确实采取措施确保正确/通用数据(涵盖不同与某些上述特性相关的方面已用于构建(训练/测试)模型,无意中排除某些重要特性或数据集可能导致偏差。

参考文献

  • 偏差 ——方差权衡(https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff)
  • 机器学习中的偏差(http://www.cs.cmu.edu/~wcohen/10-601/bias-variance.pdf)
  • 机器学习偏差的风险以及如何预防(https://sloanreview.mit.edu/article/the-risk-of-machine-learning-bias-and-how-to-prevent-it/)

总结

在这篇文章中,你知道了与机器学习模型偏差、偏差相关的属性/特性以及来自不同行业的示例相关的概念。此外,你还了解了一些可用于测试偏差的框架。

首先,ML模型的偏差是由于产品经理/数据科学家在研究机器学习问题时出现的偏差所致。它们无法捕获重要特性并覆盖所有类型的数据来训练导致模型偏差出现偏差。具有高偏差的机器学习模型可能导致利益相关者采取不公平/有偏差的决策,这反过来会影响最终客户的生计和福祉。因此,利益相关者必须重视测试模型是否存在偏差。

AI/ML偏差知多少?不同行业的示例让你秒懂

相关推荐