个人经验:“过滤”其实是个筛选的过程,去掉①相对“无用”或 ②贡献少的特征,或者!③“有用”但已经存在可以替代的特征。
逐个说明:比如良恶性鉴别吧,
①“无用”,从统计学来看就是某些特征在鉴别良恶性的时候没有统计学差异(一般用假设检验法),那么理论上可以首先剔除。
②贡献少的特征,这个比较难理解,可以从模型优化的角度,比如 大街小巷都知道的LASSO,LASSO就是多维度同时评价多个特征对良恶性的鉴别情况,某些特征的线性组合(实际上是L1正则化)的损失(最优化理论方面的知识)最小,那么这些特征可以被留下来,并按照一定的线性形式的组合方式,剩下的其他没有被选中的特征,就可以理解为“贡献少”的特征,就被逐出局了。
③“有用”但可以被替代,应该就是楼主提到的层面。假设A和B都是通过检验的特征,并且相关性超过0.9,理论上AB能相互取代,一般操作都是随机剩下一个(A或B均可),我个人做过实验,差异真不大(100+样本量,10+特征,仅供参考)。当然,如果一个有统计学差异,另一个没有,那就肯定留下有统计学差异的那个(但是这种情况应该比较少,要么一起有差异,要么一起没差异)。另外一个方面,也可以把AB分别和label(良恶性等金标准)做相关性,留个相关性大的。
个人看法,仅供参考^^