以下全部内容来自本人对GPT的深度调用与内容整合而成,请谨慎参考:
—
在处理数据中的离群值时,首先需要明确离群值的定义和检测方法。离群值通常指的是那些与大多数其他数据点显著不同的观测值,它们可能包含重要的信息或是噪声[5][8]。有多种方法可以用于检测和处理离群值,包括基于统计的方法、基于距离的方法、基于密度的方法等[4][5][6]。
对于原始问题中提到的情况,即在原始数据上筛选特征时由于特征数量过多而无法生成库克距离图来观测离群值,以及在Lasso后筛选特征时出现新的离群值的问题,可以考虑以下几种解决方案:
- 使用改进的Lasso方法:考虑到Lasso方法在高维数据集上的应用可能会遇到计算开销过大的问题,可以尝试使用均分式Lasso方法,该方法通过将特征集均分成多份,对每份进行特征选择,然后合并并再次进行特征选择,从而有效地对高维海量或高维小样本数据集进行特征选择[17]。
- 采用基于层次聚类的离群点分析方法:这种方法通过对离群点属性的检测来发现其离群特性,并且具有较低的计算复杂度和向高维空间扩展的特性[18]。这可能有助于在不直接依赖于库克距离的情况下识别和处理离群值。
- 结合多视角聚类的离群检测算法:这种方法通过从不同的视角对数据进行聚类,以提高离群检测的准确性和全面性[16]。这种方法可能有助于在不同特征子空间中识别离群值,从而避免了单一视角下的偏差。
- 利用基于密度的局部离群数据挖掘方法:这种方法通过寻找数据点的近邻区域并计算数据点的离群因子,以识别局部离群点[14]。这种方法可能有助于在特征选择后更精确地识别和处理离群值。
- 考虑使用基于偏离特征的离群点挖掘方法:这种方法通过从偏离特征(局部密度)的角度出发,提出了一种快速LOF检测算法,该算法通过划分数据空间为网格并基于网格的质心来计算数据点的局部离群因子,从而降低了时间复杂度[19]。这种方法可能适用于实时离群值检测,也可能有助于在特征选择后更有效地处理离群值。
在高维数据集上应用均分式Lasso方法以提高特征选择的准确性,可以通过以下几个步骤进行:
- 理解Lasso方法的基本原理:Lasso是一种用于线性回归模型中的正则化技术,通过添加一个L1正则化项(即系数的绝对值之和)来实现特征选择和参数估计[38]。它倾向于产生一些系数为0,从而实现可解释的模型。
- 考虑高维数据的特殊性:在高维数据中,变量数量远大于观测值数量,这可能导致传统Lasso方法在处理高相关性或多重共线性问题时表现不佳[34][36]。因此,需要采用适应高维数据的Lasso变体。
- 使用序列Lasso(SLasso):SLasso通过顺序解决部分惩罚最小二乘问题来选择特征,其中早期步骤中选定的特征在后续步骤中不会被再次惩罚。这种方法可以有效地先选择所有相关特征,然后再选择不相关的特征,从而提高特征选择的一致性[33]。
- 引入核化Lasso:对于捕捉非线性输入输出依赖性的情况,可以考虑使用特征智核化Lasso。这种方法通过特定选择的核函数,可以找到与输出值有强统计依赖性的非冗余特征[35]。
- 采用鲁棒自适应Lasso(RAL):RAL方法基于皮尔逊残差加权方案,能够在存在离群点和高多重共线性的情况下,正确选择非零系数的协变量,并同时估计参数[34]。
- 结合集成回归模型和重采样基Lasso特征选择:通过结合重采样基Lasso特征选择(RLFS)和集成正则化回归模型(ERRM),可以提高在高相关性数据上的性能。这种组合利用了LASSO、自适应LASSO(ALASSO)、弹性网络(ENET)等不同的惩罚基分类器,以提高预测准确性[36]。
- 使用ET-Lasso进行高效调谐:ET-Lasso通过添加排列特征作为伪特征来获得理想的调谐参数,从而有效地分离活动和非活动特征。这可以帮助在极大数量的特征中选择活动特征,同时控制错误发现率(FDR)[37]。
- 阈值Lasso:阈值Lasso通过多步骤阈值化过程,可以在保持模型稀疏性的同时,准确估计线性模型中的稀疏向量β。这有助于在高维数据中实现稀疏Oracle不等式,即在不牺牲估计β的准确性和预测Xβ的情况下,选择足够稀疏的模型[40]。
基于层次聚类的离群点分析方法主要包括以下几个步骤:
- 数据预处理:首先对数据集进行清洗和标准化,确保数据质量,为聚类分析提供准确的输入。
- 层次聚类算法选择:根据具体需求选择合适的层次聚类算法。常见的有单链接、完全链接和平均链接等[44]。
- 构建层次树(Dendrogram):通过层次聚类算法逐步将数据对象合并成簇,每一步合并都会计算两个簇之间的距离,并在树状图中表示出来。这一步是为了直观地展示数据中的聚类结构[43]。
- 确定聚类数目(K值):可以通过观察层次树来判断最优的聚类数目,通常是寻找最大距离增量的位置,这个位置的聚类数目即为最佳聚类数目[46]。
- 应用K-means算法进行微聚类:使用层次聚类得到的K值作为初始聚类中心,利用K-means算法进一步细化每个大聚类内部的结构,以便更精确地识别离群点[41]。
- 离群点检测:在完成上述步骤后,可以通过计算每个微聚类内的离群点来识别局部离群点。常用的方法包括基于密度的方法和基于距离的方法[48]。
- 效果评估:最后,需要对离群点检测的结果进行评估。可以使用精确度、召回率等指标来衡量算法的性能。此外,还可以通过比较不同算法或不同参数设置下的结果来优化算法[47]。
效果评估方面,可以采用以下几种方法:
- 统计指标:如精确度、召回率等,这些都是衡量模型性能的常用指标。
- 可视化分析:通过绘制混淆矩阵或接收者操作特征(ROC)曲线等方式,直观地展示模型的分类能力。
- 与基准方法比较:将新方法的性能与已知的优秀方法进行比较,以验证其有效性和稳定性[49]。
多视角聚类算法:
多视角聚类算法通过整合来自不同视角的信息,可以提高聚类的准确性。在《Co-regularized Multi-view Spectral Clustering》中,作者提出了一个谱聚类框架,通过共规则化聚类假设,实现了跨视角的一致性,从而提高了聚类的准确性[52]。这表明,多视角聚类算法能够有效地处理来自不同来源或不同度量标准的数据,通过融合这些信息,可以更好地揭示数据中的结构。
多视角聚类算法在处理高维数据时表现出色。在《Detecting Clusters and Outliers for Multi-dimensional Data》中,提到了在噪声数据集中检测簇和离群点的重要性,并介绍了一种迭代检测算法,该算法考虑了簇内关系和簇间关系,以及离群点的关系,从而在高维数据集中有效地识别簇和离群点[53]。这说明多视角聚类算法能够适应高维数据的特性,通过考虑数据的多个维度,提高离群值检测的效果。
此外,《Many-view clustering: an illustration using multiple dissimilarity measures》中描述了一个演化算法,用于多视角数据聚类,该算法能够处理四个或更多视角的情况,并且通过整合不同的相似性度量,显著提升了聚类性能[56]。这进一步证明了多视角聚类算法在处理复杂数据集时的优势。
然而,也有研究指出,当前的多视角聚类算法往往限于使用两种视角,而对于四种或更多视角的设置尚未得到充分的探索[56]。这表明,尽管多视角聚类算法在离群值检测中具有潜力,但仍需进一步的研究和开发,以适应更加复杂和多样化的数据环境。
多视角聚类算法在离群值检测中的应用案例表明,这些算法能够有效地利用来自不同视角的信息,提高聚类的准确性和效率。特别是在处理高维数据和复杂数据集时,多视角聚类算法展现出了显著的优势。
局部离群数据挖掘方法:
在局部离群数据挖掘方法中,有效地计算数据点的局部离群因子(Local Outlier Factor, LOF)是关键步骤之一。可以总结出几种不同的方法和技术来实现这一目标。
- 基于多示例学习的方法:MIL-LOF算法通过将真实对象提取为多示例形式,并运用退化策略和权重调整方法来计算综合离群点因子,从而检测离群点[61]。这种方法在准确性、全面性及高效性上相对其他算法有明显提高。
- 基于聚类分析的改进算法:通过以聚类分析为预处理,只对聚类之外的数据对象计算局部离群因子,避免了大量计算,并改进了对数据对象k距离邻域的求解[62]。这种方法不仅能更高效地挖掘出值得关注的离群点,而且还能更好地达到解析目的。
- 基于MapReduce与相关子空间的方法:利用属性维上的局部稀疏程度重新定义相关子空间,并利用局部数据集的概率密度给出相关子空间中的局部离群因子计算公式[63]。这种方法有效地体现了相关子空间中数据对象不服从局部数据集分布特征的程度。
- 基于局部估计密度的方法:使用核密度估计方法计算每个数据对象的密度估计值,并引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子[64]。这种方法在UCI标准数据集与模拟数据集上都可以取得较好的表现。
- 基于空间局部偏离因子的方法:利用SLDF度量空间点对象的离群程度,计算空间数据集中点对象的SLDF值并对其进行排序,将取值较大的前M个点对象作为空间离群点[65]。这种方法适用于高维大数据集的空间离群点检测。
- 基于核空间局部离群因子的方法:通过核函数将数据集映射到特征空间,然后在特征空间计算每个模式的局部离群因子[67]。这种方法继承了基于密度的LOF的优点,同时克服了LOF的不足,对线性不可分的数据可以取得比较好的分析结果。
- 结合K均值聚类算法和基于影响空间的方法:首先通过聚类把靠近簇中心密集区域的正常数据剔除,然后再调用INFLOF算法对剩余数据进行挖掘[69]。这种方法减少了中间结果的存储,大大减少了算法的运行时间。
- 基于聚类和密度的改进算法:利用聚类方法从原始数据集中筛选出候选离群数据集,在进行数据对象之间距离计算时,引入信息熵的概念确定数据对象的离群属性[70]。这种方法在保证检测准确率的前提下,降低了时间复杂度和检测准确率对参数的依赖性。
基于偏离特征的离群点挖掘方法与传统LOF检测算法的性能对比:
基于偏离特征的离群点挖掘方法与传统LOF检测算法的性能对比可以从多个角度进行分析。首先,我们需要了解这两种方法的基本原理和应用场景。
- LOF(局部异常因子)算法:LOF是一种基于距离的离群点检测方法,它通过计算一个点到其最近邻点的距离来评估该点是否为离群点。如果一个点的最近邻距离远大于平均值,则该点被认为是离群点[72]。LOF算法的一个主要优点是它能够有效地处理高维数据集,但其缺点在于当数据密度分布不均时,可能会导致误判[74]。
- 基于偏离特征的离群点挖掘方法:这种方法通常涉及到使用机器学习或深度学习技术来识别数据中的偏离模式。例如,Isolation Forest(iForest)是一种模型基础的离群点检测方法,它通过构建一棵树来隔离异常点,而不是像传统方法那样构建正常点的概况[71]。iForest特别适用于大规模数据集和高维问题,且具有较低的时间复杂度和内存需求。
在性能对比方面,我们可以从以下几个方面进行考量:
- 效率:iForest显示出比LOF更好的时间复杂度表现,尤其是在处理大规模数据集时[71]。此外,iForest还能有效处理高维数据,这对于许多实际应用来说是一个重要优势。
- 准确性:在一些研究中,iForest在AUC(曲线下面积)和处理时间方面都优于LOF和其他一些方法,如随机森林[71]。这表明iForest在离群点检测任务上可能具有更高的准确性。
- 适用性:iForest在高维数据问题上的表现尤为突出,这使得它在包含大量无关属性的情况下特别有用[71]。而LOF虽然也能处理高维数据,但在某些情况下可能需要调整参数以避免误判[74]。
总结来说,基于偏离特征的离群点挖掘方法(如iForest)在处理大规模和高维数据集方面通常优于传统的LOF算法,尤其是在效率和准确性方面。
参考文献
1. Kaiming He, X. Zhang et al. “Deep Residual Learning for Image Recognition.” Computer Vision and Pattern Recognition(2015).
2. Jia Deng, Wei Dong et al. “ImageNet: A large-scale hierarchical image database.” 2009 IEEE Conference on Computer Vision and Pattern Recognition(2009).
3. 张金鸽,徐一菲,肖广江等.广东牛奶消费调查数据的检验与离群值的判断及处理[J].广东农业科学,2011,38(24):96-98.
4. 朱嘉欣,包雨恬,黎朝.数据离群值的检验及处理方法讨论[J].大学化学,2018,33(08):58-65.
5. 胡婷婷. 数据挖掘中的离群点检测算法研究[D].厦门大学,2014.
6. 黄洪宇,林甲祥,陈崇成等.离群数据挖掘综述[J].计算机应用研究,2006(08):8-13.
7. 刘靖. 复杂数据类型的离群检测方法研究[D].华南理工大学,2014.
8. 杨鹏. 离群检测及其优化算法研究[D].重庆大学,2010.
9. 杨维永,何军,郑生军等.一种适宜于子空间聚类的离群点检测算法[J].计算机与现代化,2015,No.244(12):39-42.
10. 王中宇,张海滨,刘智敏.剔除离群值的学生化残差新方法[J].仪器仪表学报,2006(06):624-628+637.
11. 张新荣,徐保国.基于改进尺度的统计建模数据中离群点去除算法及应用[J].计算机工程与科学,2011,33(02):168-172.
12. 杨茂林. 离群检测算法研究[D].华中科技大学,2012.
13. 赵辉,邵素华,谢东坡.分析数据中离群值的处理方法[J].周口师范学院学报,2004(05):70-71+115.
14. 王茜,刘书志.基于密度的局部离群数据挖掘方法的改进[J].计算机应用研究,2014,31(06):1693-1696+1701.
15. 钱光超,贾瑞玉,张然等.基于遗传聚类算法的离群点检测[J].计算机工程与应用,2008,No.606(11):155-157.
16. 姚鹏. 基于多视角聚类的离群检测算法研究[D].重庆大学,2016.
17. 施万锋,胡学钢,俞奎.一种面向高维数据的均分式Lasso特征选择方法[J].计算机工程与应用,2012,48(01):157-161.
18. 张俊溪,杨海粟.基于层次聚类的离群点分析方法[J].计算机技术与发展,2014,24(08):80-83.
19. 尹新亮. 基于偏离特征的离群点挖掘方法研究[D].哈尔滨工程大学,2017.
20. 赵成钢.对剔除离群数据准则的探讨[J].科技与创新,2015,No.34(10):3-4.
21. 佘玉萍.基于中位数的双MAD的离群值检测方法[J].廊坊师范学院学报(自然科学版),2016,16(02):25-27.
22. 许行,张凯,王文剑.一种小样本数据的特征选择方法[J].计算机研究与发展,2018,55(10):2321-2330.
23. 刘蕴韬.离群值判别方法比较[J].科技创新与应用,2016,No.157(09):76.
24. 刘欢,吴介军,苏锦旗.基于分化距离的离群点检测算法[J].计算机应用研究,2010,27(09):3316-3318.
25. 刘叶玲,翟建国.一种改进的检验离群值的方法[J].统计与决策,2007,No.241(13):139-140.
26. 王雪英. 离群点预处理及检测算法研究[D].西南交通大学,2009.
27. Haoru Tan, Sitong Wu et al. “Data Pruning via Moving-one-Sample-out.” arXiv.org (2023).
28. 张立军,谭冰洁.基于迹lasso模型的变量筛选方法[J].系统工程,2018,36(12):127-134.
29. 陈雪娇,任燕.基于决策树与相异度的离群数据挖掘方法[J].微计算机信息,2009,25(21):131-132+124.
30. 史东辉,蔡庆生,倪志伟等.基于规则的分类数据离群挖掘方法研究[J].计算机研究与发展,2000(09):1094-1100.
31. N. Meinshausen and Peter Buhlmann. “High-dimensional graphs and variable selection with the Lasso.” (2006). 1436-1462.
32. Cun-Hui Zhang and Jian Huang. “The sparsity and bias of the Lasso selection in high-dimensional linear regression.” (2008). 1567-1594.
33. Shan Luo and Zehua Chen. “Sequential Lasso Cum EBIC for Feature Selection With Ultra-High Dimensional Feature Space.” (2014). 1229 - 1240.
34. Abdul Wahid, Dost Muhammad Khan et al. “Robust Adaptive Lasso method for parameter’s estimation and variable selection in high-dimensional sparse models.” PLoS ONE (2017).
35. M. Yamada, Wittawat Jitkrittum et al. “High-Dimensional Feature Selection by Feature-Wise Kernelized Lasso.” Neural Computation (2012). 185-207.
36. Abhijeet R. Patil and Sangjin Kim. “Combination of Ensembles of Regularized Regression Models with Resampling-Based Lasso Feature Selection in High Dimensional Data.” Mathematics (2020).
37. Songshan Yang, Jiawei Wen et al. “ET-Lasso: Efficient Tuning of Lasso for High-Dimensional Data.” arXiv.org (2018).
38. R. Tibshirani. “Regression Shrinkage and Selection via the Lasso.” Journal of the royal statistical society series b-methodological(1996).
39. Kasper Brink-Jensen and C. Ekstrøm. “Inference for feature selection using the Lasso with high-dimensional data.” (2014).
40. Shuheng Zhou. “Thresholded Lasso for high dimensional variable selection and statistical estimation.” (2010).
41. 杨福萍,王洪国,董树霞等.基于聚类划分的两阶段离群点检测算法[J].计算机应用研究,2013,30(07):1942-1945.
42. G. Carlsson and Facundo Mémoli. “Characterization, Stability and Convergence of Hierarchical Clustering Methods.” Journal of machine learning research (2010). 1425-1470.
43. A. Serna. “Implementation of Hierarchical Clustering Methods.” (1996). 30-40.
44. F. Murtagh and Pedro Contreras. “Methods of Hierarchical Clustering.” arXiv.org (2011).
45. I. Masser and P. Brown. “Hierarchical Aggregation Procedures for Interaction Data.” (1975). 509 - 523.
46. 段明秀. 层次聚类算法的研究及应用[D].中南大学,2009.
47. K. Cunningham and John C. Ogilvie. “Evaluation of hierarchical grouping techniques; a preliminary study.” Computer/law journal (1972). 209-213.
48. 基于SOFM聚类算法的离群点检测方法的研究与实现 [2017-05-01]
49. L. Hubert. “Approximate Evaluation Techniques for the Single-Link and Complete-Link Hierarchical Clustering Procedures.” (1974). 698-704.
50. 孙启林,方宏彬,张健等.一种基于相似度量的离群点检测方法[J].重庆工商大学学报(自然科学版),2012,29(10):96-100.
51. H. Mandhare and S. Idate. “A comparative study of cluster based outlier detection, distance based outlier detection and density based outlier detection techniques.” International Conference Intelligent Computing and Control Systems (2017). 931-935.
52. Abhishek Kumar, Piyush Rai et al. “Co-regularized Multi-view Spectral Clustering.” Neural Information Processing Systems(2011).
53. Yong Shi. “Detecting Clusters and Outliers for Multi-dimensional Data.” International Conference on Multimedia and Ubiquitous Engineering (2008). 429-432.
54. 古平,刘海波,罗志恒.一种基于多重聚类的离群点检测算法[J].计算机应用研究,2013,30(03):751-753+756.
55. Jianbo Shi, J. Malik. “Normalized cuts and image segmentation.” Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition(1997).
56. Adán José García, J. Handl et al. “Many-view clustering: an illustration using multiple dissimilarity measures.” Annual Conference on Genetic and Evolutionary Computation (2019).
57. 常规挖掘算法在离群数据检测中的应用 [2008-06-01]
58. 邓玉洁. 基于聚类的离群点分析方法研究[D].重庆大学,2012.
59. Yan Yang and Hao Wang. “Multi-view clustering: A survey.” Big Data Mining and Analytics (2018). 83-107.
60. A. Dempster, N. Laird et al. “Maximum likelihood from incomplete data via the EM - algorithm plus discussions on the paper.” (1977).
61. 一种基于多示例学习的局部离群点检测算法 [2016-08-15]
62. 赵战营,成长生.基于聚类分析局部离群点挖掘改进算法的研究与实现[J].计算机应用与软件,2010,27(11):255-258.
63. 张继福,李永红,秦啸等.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(05):1079-1095.
64. 谢兄,唐昱.基于局部估计密度的局部离群点检测算法[J].小型微型计算机系统,2020,41(02):387-392.
65. 张天佑,王小玲.基于空间局部偏离因子的离群点检测算法[J].计算机工程,2011,37(14):282-284.
66. 李永红,张继福,荀亚玲.相关子空间中的局部离群数据挖掘算法研究[J].小型微型计算机系统,2015,36(03):460-465.
67. 张蕾.一种基于核空间局部离群因子的离群点挖掘方法[J].上海电机学院学报,2014,17(03):132-136+143.
68. M. Breunig, H. Kriegel et al. “LOF: identifying density-based local outliers.” ACM SIGMOD Conference(2000).
69. 许琳,赵茂先.基于密度的局部离群数据挖掘算法研究[J].山东理工大学学报(自然科学版),2016,30(06):7-11.
70. 一种改进的局部离群数据检测算法 [2017-08-25]
71. Fei Tony Liu, K. Ting et al. “Isolation Forest.” 2008 Eighth IEEE International Conference on Data Mining(2008).
72. S. Ramaswamy, R. Rastogi et al. “Efficient algorithms for mining outliers from large data sets.” ACM SIGMOD Conference(2000).
73. P. Rousseeuw, A. Leroy. “Robust Regression and Outlier Detection.” Wiley Series in Probability and Statistics(2005).
74. 陈瑜. 离群点检测算法研究[D].兰州大学,2018.
75. Tian Zhang, R. Ramakrishnan et al. “BIRCH: an efficient data clustering method for very large databases.” ACM SIGMOD Conference(1996).
76. F. E. Grubbs. “Procedures for Detecting Outlying Observations in Samples.” Technometrics(1969).
77. Kamal Malik, H. Sadawarti et al. “Comparative Analysis of Outlier Detection Techniques.” (2014). 12-21.
78. Edwin M. Knorr, R. Ng. “Algorithms for Mining Distance-Based Outliers in Large Datasets.” Very Large Data Bases Conference(1998).
79. Victoria J. Hodge, J. Austin. “A Survey of Outlier Detection Methodologies.” Artificial Intelligence Review(2004).
80. Yifan Liu and Tiecheng Song. “Bag of Tricks: Semi-Supervised Cross-domain Crater Detection with Poor Data Quality.” arXiv.org (2023).
—