基于机器学习的个性化推荐算法及应用
上QQ阅读APP看书,第一时间看更新

2.1.3 机器学习的工作流程

从2.1.1小节中的示例可知,机器学习的本质是模型的选择和模型参数的确定,也就是寻找一个决策函数,其核心是数据和训练。一般情况下,机器学习算法就是要确定映射函数f以及参数θ,并为它们建立相应的映射关系,如式(2-2)所示。

(2-2)

其中,x为函数的输入,一般为一个向量;y是函数的输出,是一个向量或标量。机器学习根据数据不断训练模型,逐步确定映射关系和参数。当映射关系和参数确定后,给定一个输入就可以产生一个输出,这就是用训练的模型进行预测的过程。

简单地说,机器学习的工作流程分为数据收集和准备、数据清洗、特征提取和选择、算法选择和参数确定、模型训练、模型评估和新数据预测等7步,如图2-3所示。

图2-3 机器学习的工作流程

第一步:数据收集和准备。对于一个新研究问题,需要收集数据,或者重组和准备数据,这些数据需要包含可能有用的所有特征,并在选择最佳特征、收集和分析完整数据之前进行实验。

第二步:数据清洗。收集的数据可能存在格式不统一、包含缺失值、噪声大等问题,需要进行数据处理。

第三步:特征提取和选择。特征提取和选择都可以看作数据的降维方法,依据对研究问题和数据的分析,通过实验鉴别该问题相关的n个特征中有用的j(j<n)个特征,根据问题的复杂性,确定对该问题最有用的m个特征,通过适合的方法去掉nm个不太重要的特征。

第四步:算法选择和参数确定。根据给定的数据集,选择合适的算法。依据算法的基本原理和研究问题的特性确定参数,或者通过实验来确定适合的参数值。

第五步:模型训练。根据给定的数据集、算法和参数,利用计算资源构建数据模型,预测关于新数据的输出。模型训练的目标一般是得到一个准确率高、误差低和性能稳定的模型。

第六步:模型评估。在模型投入应用之前需要对其进行测试,并评估其在经过训练数据上的准确性,这通常包括与该领域的专家的结论、该领域的相关算法等进行比较,以便选择适合的度量指标。

第七步:新数据预测。当模型的性能达到预期效果时,就可以将其应用到未知数据的预测上。