有些决策不能,也永远不该委托给机器
大数据文摘出品
编译:大茜、张文静、Aileen、魏子敏
我们正将越来越多的选择权拱手让于算法。
从新的一天要听什么歌、哪些人应该拿到社会福利,到学校课程设置、公司并购决定,机器开始支配这些看似琐碎但重要的抉择,而我们还没有意识到,这或许是比“终结者”的到来更严重的威胁。
但有些决策不能,也永远不应该委托给机器。
用算法来做决策的初衷一定是善意的:提高效率,让决策迅速获得数据支持,且保证流程的一目了然。
而在惊叹于这些让人眼花缭乱的自动化决策系统的同时,管理层常常忘记一个最重要的问题:
算法的引入是减少还是加剧了系统中的不公平因素?这种算法是否会影响决策——或作为决策的基础,可能对人们的生活产生负面影响?
由于数据偏差、系统内置偏见,不了解统计数据以及过度信任机器的决策者,还有其他众多的挑战,算法永远不会给我们“完美”的结果。
那么,在算法和你的判断产生出入时,你将在多大程度上依赖算法?
影响分析结果的因素有很多。这篇文章将指出,在进行自动化改革之前,所有组织需要考虑的几个因素。
印第安纳州的失败算法和100万受害者
先来看一个算法偏差导致的可怕后果。
在印第安纳州,一个算法将有关福利的不完整的文件归类为不合规。
在三年的时间里,因为这一决定,有100万人无法获取食品券,医疗保健和现金福利。
Omega Young是100万受害者之一。
在2009年3月1日,她因无法负担医药费而死亡。(在她死后赢得了最终维权上诉,并重新得到她的所有福利金。)
将是否能继续获得医疗补助金这一决策留给AI决策,这一事件让印第安纳州在之后饱受诟病。
弗吉尼亚的Eubanks讨论了印第安纳州在自动不平等方面(Automating Inequality)系统的失败,她写了一本关于技术如何影响公民、人权以及经济公平的书。Eubanks解释说,算法让机器为我们在棘手的社会问题上做出的决策而不是我们自己做出抉择,这样的方式有一种“情感距离” 。
“我们不能利用算法来逃避做出艰难的决策,或者推卸我们关心他人的责任。在这些情况下,算法不是答案。单靠数学无法解决根深蒂固的社会问题,试图依靠它只会加剧系统中已经存在的不平等现象。”
在决定是否进行自动化之前,我们需要仔细审视系统可能影响的人以及判断影响可能是什么,并确定当前系统中已经存在的不平等因素。
可用的数据是否真的能带来好的结果?
算法依赖于输入的数据,而且需要正确的数据来确保正常运行。在实施依赖算法的决策系统之前,组织需要深入研究他们试图解决的问题,并且对他们是否有解决问题所需的数据进行一些诚实的思考。
Eubanks书中讨论了另一个案例,宾夕法尼亚州阿勒格尼县的儿童,青年和家庭(CYF)部门实施了一种算法,为每个报告给该机构的潜在虐童事件中的儿童打一个“威胁分数”,并帮助案件工作人员决定哪些报告应该进行调查。该算法的目标是常见的:帮助社会服务机构最有效地利用有限的资源来提供社区服务。
为了实现他们的目标,该县试图预测哪些儿童可能成为被虐待的受害者,即“目标变量”。但该县没有足够的关于与虐童有关的死亡率或近似死亡率的数据来构建具有统计学意义的模型,因此他们使用了有足够数据的两个变量——社区再转诊CYF的热线数和两年内寄养儿童数,作为儿童虐待数的替代指标。这意味着该县的算法可以预测儿童再转诊以及寄养的可能性,并利用这些预测结果对儿童的虐待威胁打分。
其中的问题显而易见。
这些替代变量并不是有关虐童数据的有效替代。
首先,它们是主观的。再次转诊这一变量包含了隐藏的偏见:“匿名以及那些被强制要求的记者报道黑人和混血儿家庭虐童和忽视儿童的频率比他们报道的白人家庭多三倍半”。
有时甚至是那些凶恶的邻居,房东,或者家庭成员故意虚假举报来作为惩罚或报复,正如Eubanks在自动化不平等中所写的那样,“预测模型需要清晰明确的步骤,并且有大量相关数据才能正确运行。”这些标准在阿勒格尼县尚未完全满足。不管怎么说,CYF推进并实施了一项算法。
这一精度有限的算法导致了什么结果?
在2016年出现了15,139次虐童报道。其中,该算法错误预测了3633个个案。这一结果无端侵入和监视了数千个贫穷的少数人的家庭的生活。
该算法是否公平?
缺乏足够的数据也可能使算法的应用缺乏公平。
例如,阿勒格尼县没有所有家庭的数据;其数据仅从使用公共资源的家庭收集——即低收入家庭。
这导致了一种只针对低收入家庭进行研究的算法,并且可能产生反馈循环,使得进入系统的家庭难以完全摆脱它所需的监管。这个结果冒犯了公平的基本概念。对受到不利影响的阿勒格尼县家庭来说肯定不公平。
算法公平有很多评判标准。
算法是采用相同的方法对待不同组还是对它们分别研究?系统是否为追求公平,公共安全,平等或有效资源配置而优化?
是否有机会让受到影响的社区参与并影响决策中关于算法设计,实施和使用的过程,包括关于如何衡量公平性?在算法造成任何不当损害之前,是否有机会让那些受到不利影响的人在受到实质性伤害以前能寻求有意义并且迅速的审查?
组织应该对所采用的公平标准保持透明度,并且应该让各种利益相关者参与公平准则的制定,包括(也是最重要的)将会直接受到影响的社区。如果算法没有通过,它就不应该是解决措施。在实施基于算法决策的系统的情况下,应该有一个持续的审查过程来评估结果并校正任何不当的影响。
结果如何真正被人类使用?
另一个组织必须考虑的因素是结果将如何被人类使用。
在阿勒格尼县,尽管该算法的“威胁评分”应该作为案件工作者在决定调查哪些家庭之前考虑的众多因素之一,但Eubanks观察到在实际操作中,算法似乎在训练参与的工作者。
根据以往经验,案件工作者的判断有助于消除隐藏的偏见。当利用算法来解决问题,并且个案工作者开始用算法的结果替代他们自己的判断时,他们完全放弃了他们的看门人角色,使得系统变得更加阶级化并且带有种族偏见。
算法决策往往因其超越人类本能的优越性而被吹捧。将机器学习视为客观和内在的可信趋势被称为“自动化的偏见”。当我们尝试做决策时,无疑会存在许多认知偏差;自动化偏见则又增加其中的复杂度。
正是因为我们是人类所以才存在这种偏见(也包括其他许多方面),如果算法的结果是做决策时考虑的唯一因素,组织机构必须构建一个能够控制自动化偏见的系统。
这包括设计算法来提供阐述性的报告而不是仅是一个分数,并确保决策者受过有关统计学以及那些他们要运用的特定算法的潜在缺点的基础培训。
在某些情况下,决策者会偏向算法的提供的答案的可能性足以阻止算法的应用。例如,这包括为了确定刑罚而预测累犯率。在威斯康星州,法院支持使用COMPAS算法来预测被告的再犯概率,法官是最终做出决定的人。认为法官的“本心”并未受到算法的负面影响的想法天真不靠谱的,因为人会本能的相信机器。
一项关于算法风险评估对肯塔基州法官的影响的研究发现,算法只在很短的时间内影响法官的决策,之后他们就按着以前的习惯行事,但是这些影响可能会因不同的法官群体而有所不同,而且即使是一个罪犯受到了影响,但由于这种影响使其失去了自由,这也是很严重的。
由于判刑这件事情过于重大,以及预测再犯率是一个严肃问题(该系统“基本上将黑人罪犯妖魔化,而认为白人罪犯是怀疑有罪”),在这种情况下使用算法是不适当,不道德的。
受这些决策影响的人会对系统产生影响吗?
最后,算法应服务于受其影响的群体,而不是不择手段地节省时间和资源。
这要求数据科学家考虑到被影响群体的恐慌和担忧。但是数据科学家通常远离那些算法影响的群体。
正如《数学性破坏武器》(《Weapons of Math Destruction》)的作者Cathy O'Neil在今年早些时候告诉Wired时说道:“我们完全阻隔了构建算法的人与受到它们实际影响的人之间的联系。”即使是最好的系统也会注定产生严重的意外反作用,无论何时都是如此。
Weapons of Math Destruction
在实施算法之前,必须要解决数据科学家,组织实施者和受影响群体之间联系断层的问题。
O'Neil建议数据科学家可以考虑那些受系统影响的所有利益相关者的关注点,来编制一个“道德矩阵”,以阐明所有这些相互矛盾的含义,动机和考虑因素,使得数据科学家考虑到他们的设计的深远影响。
“受影响的群体也应该有机会来评估,纠正和影响这些系统。”
正如卫报指出的那样,“不良意图下产生的不良AI是不需要的”。任何基于算法决策的系统都是如此。即使是最好的系统也会造成严重的伤害,特别是当一个组织不反省,也不考虑使用算法决策是否合乎道德的的时候。这些问题仅仅是起点,并不能保证在回答这些问题后算法就能产生公平的结果,但它们是所有组织在实施依赖算法的决策系统之前应该自问的问题。
相关报道:
https://www.eff.org/deeplinks/2018/05/math-cant-solve-everything-questions-we-need-be-asking-deciding-algorithm-answer