交叉验证可以分为简单交叉验证、K折和留一法。

不分验证集是因为数据不足

简单交叉验证

训练集和测试集

K折交叉验证(K-Fold Cross Validation)

K折交叉验证是一种常用的模型评估方法,用于评估机器学习模型的性能,特别是在数据集较小的情况下。

基本概念

  1. 工作原理

    • 将原始数据集随机分成k个大小相似的子集(称为”折”)
    • 每次使用其中k-1个子集作为训练集,剩下的1个子集作为验证集
    • 重复这个过程k次,每次使用不同的子集作为验证集
    • 最后将k次评估结果的平均值作为模型的最终性能指标
  2. 常见k值

    • 通常k取5或10
    • 当数据集特别小时,可能会使用更大的k值(如LOOCV,即留一法交叉验证)

优点

  • 充分利用有限的数据进行模型训练和评估
  • 减少因数据划分不同而导致的评估结果波动
  • 可以检测模型是否过拟合
  • 适用于数据集较小的情况

留一法(K折交叉验证,k=1,留一个样本检验)