概述
在机器学习任务中,数据和特征决定了机器学习的上限(例如偏差-方差分解中的噪声部分,噪声决定了机器学习任务的难度),而模型和算法只是逼近这个上限而已。而这里的数据便指的是经过特征工程得到的数据。
特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的是获取更好的数据特征,使得机器学习模型可以更好地逼近学习的上限。如果使用的模型是诸如线性回归、支持向量机、决策树等统计学习模型,特征工程的作用比模型的训练更加重要,甚至当特征工程做得很好时,使用简单的模型也可以取得不错的效果。当然,对于深度学习而言,由于神经网络自身具有强大的学习能力,可以自己从数据中学到某些“特征”(当然,这些“特征”的可解释性较差),对于特征工程的要求就要相对低很多。但是,这并不意味着深度学习对特征工程没有要求,通常仍需要对数据做一些预处理。