• 问与答
  • 筛选出的特征过多 结果存在过拟合 应该这么解决

(1) 我的问题是?
→筛选特征过多,训练组结果好,验证组结果差 该如何处理 需要添加什么方法

(2) 为解决此问题我查阅过哪些资料?

(3) 我做过哪些尝试解决该问题?
→1、更改随机种子 2、lasso、RFE均试过 3、换其他期数据

(4) 目前我对该问题的反思和猜测是?
→1、样本量少 2、特征筛选方式欠佳

    特征筛选步骤:(三分类)

    1、正态、方差齐检验后分别用ANOVA和KW检验

    2、数据标准化

    3、LassoCV (也试了RFE,嵌套的是OneVsRest.svm)

    4、用OneVsRest.svm建立模型

    其中一次结果:

    训练组 验证组

    样本量 166 0:60+ 1:60+ 2:30+

      问题:

      1、是否是由于样本过少导致的

      2、如果是 解决方法除了增加样本量外 还有没有什么方式来减少筛选的特征或降低过拟合 比如能否在目前特征筛选步骤中 再加一个特征筛选的方式,以及加什么

        说点什么吧...