交叉验证1
拟合情况
- 泛化能力:模型对于未见过数据的预测能力(使用测试集)
比如有500组数据,可以用400组用于训练,即训练集,剩下100组作为测试集。 - 模型误差:
- 偏差大:多次训练,训练集平均拟合不好。离得太大了。
- 方差大:多次训练,测试集上效果抖动厉害。在测试集对比时,上下抖动太厉害。
- 泛化误差 = 偏差+误差+噪声,偏差小方差小才是好模型。
- 欠拟合与过拟合:
- 欠拟合:模型在训练集上拟合的不好。还没上测试集的时候就已经表现出明显拟合欠缺。
- 过拟合:模型在训练集上拟合的很好,但在测试集上拟合的不好。
- 好的模型应该对训练集和测试集的拟合上都很好。
交叉验证
- 原理
等分后,进行训练,将测试结果(mse)保存,最后平均,得到总的结果。如果结果差→偏差大,波动大→方差大实际操作中,可以先73分,作为训练集测试集,进行测试,没必要完全使用交叉验证。交叉验证
模型调参的评估指标——模型在具体问题上的适用性
MSE:真实值与预测值的差的平方和/N;RMSE:MSE开根;MAE:如图;
SSr:预测Y点到真实Y平均值的距离;SST:实际Y点到真实Y平均值的距离。
R方接近于1更好,MSE越接近于0越好。