IBM发布人脸识别最强工具,多样性数据集,100万张人脸图像!

为了改善既有AI人脸识别存在的偏见问题,IBM发布脸部多样性数据集Diversity in Faces(DiF),来加速公平且准确的人脸识别系统研究,该数据集包含100万张已标注的人脸图像,IBM预计提供该数据集给全球的研究社区,研究人员按照申请步骤提出请求后,IBM将会进行批准。而麻省理工大学的计算器科学与AI实验室,也在前一天发布正在改善人脸识别算法的消息,新算法会先对数据集进行筛选,确保训练数据包含不同种族和肤色的数据,以减少训练数据对人脸识别系统产生影响。

IBM发布人脸识别最强工具,多样性数据集,100万张人脸图像!

目前人脸识别系统存在着偏见的问题,去年6月,麻省理工学院多媒体实验室曾测试了微软、IBM和中国的旷视科技开发的人脸识别系统,测试发现这些系统识别浅色人种性别的能力,大过于识别深色人种的性别,而辨识度最差的则是深色人种的女性,MIT多媒体实验室认为,人脸识别技术可能因为所使用的数据集和建立算法的条件,而造成偏差。

IBM发布的DiF数据集图片是来自于公开的YFCC-100M数据集,利用在人脸研究领域多年的10个编程方案(coding scheme)为图片标注,包含客观的人脸识别方法和主观的预测,客观的人脸识别方法是一些面孔特征,如头部长度、鼻子长度、额头高度、脸部的对称比例,而人类主观的预测则是年龄、性别、姿势等,IBM相信,借助发布100万标注的数据集,能够加速人脸识别系统数据集的覆盖率和多样性,减少AI系统的偏见,而这次发布的数据集只是第一步。

IBM希望,DiF数据集能够成为研究人员着手打造无偏见人脸识别技术的开端,初步的分析显示,相比过去的数据集,DiF数据集提供了更分布更平均且广泛的人脸图像,除此之外,DiF数据集也能够让研究人员更近一步理解人脸特征,用来研究人脸识别技术。

相关推荐