大部分单中心影像组学好像只有两个集,而在学习交叉验证的时候数据分三个集。两个集的组学在特征选择、调参和交叉验证时应该怎么做呢? 特别是交叉验证两个集不懂该怎样进行,训练集和测试集混一起交叉验证好像会数据泄露
特征选择、调参和交叉验证全在训练集上完成吗?
希望大佬解答
数据量够多的情况下,规范点还是分三个集好一些。只有训练集和测试集的话,你特征筛选+训练+调参+交叉验证都得在训练集上做。那你的步骤都要稍微改一下,例如交叉验证,可以将数据分成n个折。每次选取一个折作为测试集,其余n-1个折作为训练集,然后每个训练子集中再做交叉验证。 训练集和测试集任何情况下都不应该混到一起,被严格一点的审稿人看到,很容易直接reject。
样本量96个不是很多,可能没有办法分三个集。
k折交叉验证在训练集中进行,在训练集中又分k这部分作为测试集,k-1训练集做交叉验证。您上面的例子是这个意思吗