2019年10大机器学习Q&A,面试应知!
新兴技术风靡全球,它们所带来的创新、机遇和威胁也是前所未有的。而这些领域所需要的专家人才也随之增长。
根据最新的行业报告显示,新兴技术领域的工作,如机器学习、人工智能和数据科学等,是最热门的新兴职业。从事此类新兴技术工作既能获得丰厚的利润,又能开发智力。
本文整理了一些最常见的机器学习面试问题及其相应的回答。机器学习有志者以及经验丰富的ML专业人员可以在面试前以此巩固其基础知识。
1. 机器学习和深度学习有什么区别?
机器学习是人工智能的一个子集,为机器提供了无需任何显式编程就能自动学习和改进的能力。而深度学习是机器学习的一个子集,其人工神经网络能够做出直觉决策。
2. 如何理解召回率和精度这两个术语?
召回率又称真阳性率,是模型所需的阳性例数与整个数据中可用阳性例数的比值。
精度基于预测,又称阳性预测值,是模型所需的准确阳性例数测量值与模型实际需要的阳性例数之间的比值。
3. 监督机器学习和无监督机器学习有什么区别?
在监督学习中,机器在标记数据的帮助下进行训练,即带有正确答案标记的数据。而在无监督机器学习中,模型自主发现信息进行学习。与监督学习模型相比,无监督模型更适合于执行困难的处理任务。
4. 什么是K-means和KNN?
K-means是一种用于处理聚类问题的无监督算法,KNN或K近邻是一种用于处理回归和分类的监督算法。
5. 造成分类不同于回归的原因是什么?
这两个概念都是监督机器学习技术的一个重要方面。分类将输出划分为不同的类别进行预测。而回归模型通常用于找出预测和变量之间的关系。分类和回归的关键区别在于,前者的输出变量是离散的,而后者是连续的。
6. 如何处理数据集中的缺失值?
数据科学家面临的最大挑战之一与数据丢失问题有关。可以通过多种方式对缺失值进行归因,包括分配唯一类别、删除行、使用均值/中值/众数替换、使用支持缺失值的算法以及预测缺失值等等。
7. 如何理解归纳逻辑编程(ILP)?
归纳逻辑编程是机器学习的子领域,通过使用逻辑编程开发预测模型来搜索数据中的模式。该过程假定逻辑程序是一种假设或背景知识。
8. 需要采取哪些步骤来防止特定模型出现过拟合问题?
在训练中得到大量数据时,模型开始学习数据集中的干扰信息和其他错误数据。这使得模型难以泛化除训练集外的新样本。有三种方法可以避免机器学习中的过拟合。第一,保持模型简单;第二,使用交叉验证技术;第三,使用正则化技术,例如LASSO。
9. 什么是集成学习?
集成方法又称多学习器系统或基于委员会的学习 。集合方法是一种学习算法,能构建分类器集,再分类新数据,对其预测进行选择。该方法训练了许多假设以解决相同的问题。集成建模的最佳示例是随机森林,其中许多决策树用于预测结果。