(1) 我的问题是? →筛选特征过多,训练组结果好,验证组结果差 该如何处理 需要添加什么方法
(2) 为解决此问题我查阅过哪些资料? →
(3) 我做过哪些尝试解决该问题? →1、更改随机种子 2、lasso、RFE均试过 3、换其他期数据
(4) 目前我对该问题的反思和猜测是? →1、样本量少 2、特征筛选方式欠佳
特征筛选步骤:(三分类)
1、正态、方差齐检验后分别用ANOVA和KW检验
2、数据标准化
3、LassoCV (也试了RFE,嵌套的是OneVsRest.svm)
4、用OneVsRest.svm建立模型
其中一次结果:
训练组 验证组
样本量 166 0:60+ 1:60+ 2:30+
问题:
1、是否是由于样本过少导致的
2、如果是 解决方法除了增加样本量外 还有没有什么方式来减少筛选的特征或降低过拟合 比如能否在目前特征筛选步骤中 再加一个特征筛选的方式,以及加什么