如何确保人工智能和机器学习项目的安全性
人工智能和机器学习在带来好处的同时也带来了新的漏洞。本文叙述了几家公司将风险降至很低的方法。
当企业采用新技术时,安全性往往被放在次要位置,以最低的成本尽快将新产品或服务提供给客户似乎更为重要。
人工智能(AI)和机器学习(ML)提供了与早期技术进步相同的漏洞和错误配置的机会,而且还有其特有的风险。随着企业开始进行以人工智能驱动的数字化转型,这些风险可能会变得更大。博思艾伦汉密尔顿公司(Booz Allen Hamilton)的首席科学家爱德华•拉夫(Edward Raff)表示:“不要仓促地进入这个领域。”
与其他技术相比,人工智能和机器学习需要更多的数据,也需要更复杂的数据。数学家和数据科学家开发的算法来自研究项目。拉夫表示,在科学界,直到最近才开始认识到人工智能存在安全问题。
云平台通常要处理大量的工作负载,从而增加了另一个级别的复杂性和脆弱性。毫不奇怪,网络安全是人工智能采用者最令人担忧的风险。德勤上月公布的一项调查显示,62%的采纳者认为网络安全风险是主要的担忧,但只有39%的人表示他们准备应对这些风险。
让问题变得更加复杂的是,网络安全是人工智能使用的首要功能之一。德勤技术、媒体和电信中心的执行董事杰夫•洛克斯(Jeff Loucks)表示,企业在人工智能方面的经验越丰富,他们就越担心网络安全风险。
此外,即使是经验更丰富的企业,也没有遵循基本的安全做法,例如对所有AI和ML项目进行完整的审计和测试。Loucks表示,公司目前在实施这些方面做得不是很好。
AI和ML对数据的需求带来了风险
AI和ML系统需要三组数据:
- 训练数据以建立预测模型
- 测试数据以评估模型的运行情况
- 当模型投入使用时运营数据
虽然实时交易或运营数据显然是一项有价值的企业资产,但很容易忽略也包含敏感信息的训练和测试数据池。
许多用于保护其他系统中的数据的原则可以应用于AI和ML项目,包括匿名化、令牌化和加密。第一步是询问是否需要数据。在准备AI和ML项目时,收集所有可能的数据,然后看看可以做些什么。
关注业务成果可以帮助企业将收集的数据限制在所需的范围内。为教育机构分析学生数据的Othot公司的首席技术官约翰•阿巴蒂科(John Abbatico)表示,数据科学团队非常渴望数据,他们在处理学生数据时明确表示,高度敏感的PII(个人身份信息)不是必需的,也永远不应该包含在提供给他们团队的数据中。
当然,错误是会发生的。例如,客户有时会提供敏感的个人信息,如社会保险号。这些信息不会提高模型的性能,但会带来额外的风险。阿巴蒂科表示,他的团队已经制定了一套程序来识别PII,将其从所有系统中清除,并将错误通知客户。
人工智能系统还需要情景数据,这可能会极大地扩大公司的暴露风险。假设一家保险公司想要更好地掌握客户的驾驶习惯,它可以购买购物、驾驶、位置和其他数据集,这些数据集可以很容易地交叉关联并与客户账户匹配。这种新的、呈指数级增长的数据集对黑客更具吸引力,如果被攻破,对公司的声誉也会造成更大的破坏。
人工智能的安全设计
有很多数据需要保护的一家公司是在线文件共享平台Box。Box使用AI提取元数据,并提高搜索、分类等能力。Box的CISO拉克希米•汉斯帕尔(Lakshmi Hanspal)表示,Box可以从合同中提取条款、续订和定价信息。Box的大多数客户内容分类要么是用户定义的分类,要么是被完全忽视。他们坐在堆积如山的数据上,这些数据可能对数字化转型有用。
汉斯帕尔说,保护数据是Box的一个重要事项,同样的数据保护标准也适用于人工智能系统,包括训练数据。Box建立信任并保持信任。
这意味着所有系统,包括新的人工智能项目,都是围绕核心数据安全原则构建的,包括加密、日志记录、监控、身份验证和访问控制。汉斯帕尔指出,数字信任是其平台与生俱来的,他们将其付诸于实践。
Box对传统代码和新的AI和ML支持的系统都有一个安全的开发流程。汉斯帕尔说:“我们在开发安全产品方面与ISO的行业标准保持一致。设计上的安全性是内置的,而且有制衡机制,包括渗透测试和红色团队。”
数学家和数据科学家在编写AI和ML算法代码时通常不担心潜在的漏洞。当企业构建AI系统时,他们会借鉴现有的开源算法,使用商业的“黑匣子”AI系统,或者从零开始构建自己的AI系统。
对于开放源码,攻击者有可能嵌入恶意代码,或者代码包含漏洞或易受攻击的依赖项。专有商业系统还使用开放源代码,以及企业客户通常无法查看的新代码。
逆向攻击是一个主要威胁
AI和ML系统通常是由非安全工程师创建的开源库和新编写的代码的组合。此外,不存在用于编写安全AI算法的标准优秀实践。考虑到安全专家和数据科学家的短缺,这两方面的专家供应更少。
AI和ML算法是比较大的潜在风险之一,也是博思艾伦•汉密尔顿(Booz Allen Hamilton)的Raff最担心的长期威胁之一,其有可能将训练数据泄露给攻击者。他表示:“有一些逆向攻击,可以让人工智能模型向你提供关于它自身以及它所接受的训练的信息。如果它是根据PII数据进行训练的,你就可以让模型向你泄露这些信息。实际的PII可能会暴露出来。”
Raff说,这是一个被积极研究的领域,也是一个巨大的潜在痛点。有些工具可以保护训练数据免受逆向攻击,但它们太昂贵了。他表示:“我们知道如何阻止这种威胁,但这样做会使培训模型的成本增加100倍,这并不夸张,所以没人会这么做。”
你不能确保你不能解释的东西安全
另一个研究领域是可解释性。今天,许多AI和ML系统,包括许多主要网络安全供应商提供的AI和ML支持的工具,都是“黑匣子”系统。YL Ventures的CISO Sounil Yu表示:“供应商没有在其中建立可解释性。在安全方面,能够解释所发生的事情是一个基本的组成部分。如果我不能解释为什么会发生这种情况,我怎么能补救呢?“。
对于构建自己的AI或ML系统的公司来说,当出现问题时,他们可以回到训练数据或使用的算法来解决问题。Yu指出,如果你是从别人那里构建的,你根本不知道训练数据是什么。
需要保护的不仅仅是算法
人工智能系统不仅仅是一个自然语言处理引擎,或者仅仅是一个分类算法,或者仅仅是一个神经网络。即使这些部分是完全安全的,系统仍然必须与用户和后端平台交互。
系统是否使用强身份验证和最低权限原则?到后端数据库的连接是否安全?与第三方数据源的连接情况如何?用户界面对注入攻击是否有弹性?
另一个与人相关的不安全感来源是人工智能和机器学习项目独有的:数据科学家。奥托特的阿巴蒂科表示,优秀的数据科学家对数据进行实验,得出有洞察力的模型。然而,当涉及到数据安全时,实验可能会导致危险的行为。使用完数据后,他们可能会倾向于将数据移动到不安全的位置或删除样本数据集。Othot在早期就投资于获得SOC II认证,这些控制有助于在整个公司实施强有力的数据保护实践,包括在移动或删除数据时。
人工智能机构Urvin AI的产品经理、国际非营利性安全研究组织ISECOM的联合创始人彼得•赫尔佐格(Peter Herzog)表示:“事实是,所有地方的大多数人工智能模型中较大的风险并不在人工智能中,问题出在人身上。没有安全问题的人工智能模型几乎没有,因为人们决定如何训练他们,人们决定包括什么数据,人们决定他们想要预测和预测什么,以及人们决定暴露多少信息。”
另一个特定于AI和ML系统的安全风险是数据中毒,即攻击者将信息输入系统,迫使系统做出不准确的预测。例如,攻击者可能会通过向系统提供具有类似恶意软件指示器的合法软件示例来欺骗系统,使其认为恶意软件是安全的。
拉夫说:“这是大多数企业高度关注的问题。目前,我没有意识到任何人工智能系统在现实生活中受到攻击。从长远来看,这是一个真正的威胁,但现在攻击者用来逃避杀毒软件的经典工具仍然有效,所以他们不需要变得更花哨。”
避免偏差和模型漂移
当AI和ML系统用于企业安全时,例如,用于用户行为分析、监控网络流量或检查数据泄露,偏差和模型漂移可能会产生潜在风险。很快过时的训练数据集可能会使组织变得脆弱,特别是在越来越依赖人工智能进行防御的情况下。企业需要不断更新模型,让更新模型成为一件持续的事情。
在某些情况下,训练数据可以是自动的。例如,调整模型以适应不断变化的天气模式或供应链交付时间表,可以帮助使其随着时间的推移变得更加可靠。当信息源涉及恶意行为者时,则需要仔细管理训练数据集,以避免中毒和操纵。
企业已经在处理造成道德问题的算法,例如当面部识别或招聘平台歧视女性或少数族裔时。当偏见悄悄渗透到算法中时,它还可能造成合规问题,或者,在自动驾驶汽车和医疗应用的情况下,可能会导致人员死亡。
就像算法可以在预测中注入偏差一样,它们也可以用来控制偏差。例如,Othot帮助大学实现优化班级规模或实现财务目标。Othot的Abbatico说,在没有适当约束的情况下创建模型很容易造成偏见。“对偏见进行审查需要多花精力。添加与多样性相关的目标有助于建模理解目标,并有助于抵消偏见,如果不将多样性目标作为约束因素包括在内,偏见则很容易被纳入。”
人工智能的未来在云端
AI和ML系统需要大量的数据、复杂的算法和强大的处理器,这些处理器可以在需要时进行扩展。所有主要的云供应商都在争先恐后地提供数据科学平台,这些平台将所有东西都放在一个方便的地方。这意味着数据科学家不需要等待IT为他们配置服务器。他们只需上网,填写几张表格,就可以开业了。
根据德勤的AI调查,93%的企业正在使用某种形式的基于云的AI。德勤的Loucks说:“这让我们更容易上手。”然后,这些项目会变成运营系统,随着规模的扩大,配置问题会成倍增加。有了最新的服务,集中化、自动化的配置和安全管理仪表盘可能不可用,公司必须自己编写或等待供应商加快步伐填补空白。
当使用这些系统的人是公民数据科学家或理论研究人员,而他们在安全方面没有很强的背景时,这可能是一个问题。此外,供应商历来都是先推出新功能,然后再推出安全功能。当系统被快速部署,然后扩展得更快时,这可能会是一个问题。我们已经在物联网设备、云存储和容器上看到了这种情况。
Raff说,人工智能平台供应商越来越意识到这一威胁,并从错误中吸取了教训。他说:“我看到,考虑到历史上的‘安全放在最后’的心态,纳入安全内容的计划比我们原本预期的要积极得多。ML社区对此更为关注,延迟时间可能会更短。”
德勤(Deloitte)AI联席主管Irfan Saif对此表示赞同,特别是在涉及到支持大型企业AI工作负载的主要云平台时。就网络安全能力的演变而言,它们可能比之前的技术更成熟。