为什么说通过界面和功能对人工智能软件进行测试是不严谨的?
近两年人工智能发展迅猛,各种应用层出不穷,但其质量却是良莠不齐。原因在于大部分测试童鞋还在用传统的测试方式也就是通过界面和功能对人工智能软件进行测试,但是AI软件从开发到测试都很不同于传统软件,本文就以智能文本分类系统为例通过两步来介绍为何传统的测试方法不能保证AI软件的质量。
一、第一步------------人工智能软件测试的痛点
目标
掌握人工智能软件测试面临的现实痛点
步骤
1.智能文本分类系统是AI自然语言处理的一个基本应用,界面如下图所示
2.对其测试时需要根据不同的输入点击获取标签得出所属的类别以及所属类别的概率值
3.通过功能和界面进行测试的话需要输入各种可能输入的文本,耗时巨大,并且也不太现实
4.从界面上对得到的score代表的概率值进行判断无法得出一个客观的评判,这个值多少合适判断不了
5.因此传统界面和功能测试完了判断不了智能文本分类系统能否上线
二、第二步----------------AI软件测试的正确方式
目标
掌握AI软件测试的正确方式
步骤
1.了解AI软件测试的本质
人工智能软件是根据算法对大量的数据进行训练找规律,最终得出一个模型来对新的数据进行预测,预测的时候会给出一个概率值。
2.AI软件测试的正确方式
通过实现人工智能算法自带的评测指标来进行AI软件的测试可以很好的评估软件的质量,完美解决穷举各种输入和概率值大小的现实问题
3.通过AI模型测试的具体评测指标
以智能文本分类为例,其采用了监督示机器学习的分类算法,对应的评测指标有:
准确率、精确率、召回率
总结
本文通过智能文本分类系统面临的测试难点来指出AI软件测试过程中的通用难题。以此指出了通过功能和界面测试人工智能软件不能保证AI软件的质量,正确的方式应该是通过实现AI软件算法自带的评测进行进行测试