文档详情

聚类分析驱动的无监督特征选择算法研究.pdf

发布:2025-03-25约10.14万字共60页下载文档
文本预览下载声明

中文摘要

近年来,随着信息新技术的迅猛发展,高维数据在图像处理、视频分析、基因

表达等领域呈现出爆炸式增长。这些领域的高维数据不仅具有复杂的结构,还表现

出多样性和异质性的特点,使其成为当前研究的一个重要挑战。为了有效处理这些

复杂的高维数据,特征选择作为一个强大的工具开始发挥其关键作用。特征选择的

核心目标在于从原始的高维特征空间中提炼出一个最具代表性的特征子集,以降低

数据的维度并提升算法的性能。在许多情况下,数据集中仅有一小部分样本具有标

签,而大部分数据是未标记的。此时,使用传统的有监督学习方法可能会面临困难,

因为它们需要大量标记样本来训练模型。而无监督特征选择方法不需要标签信息,

因此更加实际可行。无监督特征选择方法利用数据本身的内在结构来发现和选择最

相关的特征,从而帮助解决了缺乏标签信息的挑战。现有的无监督特征选择方法存

在两个问题:一是在刻画样本之间关系时,只是通过传统的邻接矩阵来考虑样本之

间的正相似性,这容易导致过拟合;二是现有的无监督特征选择方法在面对大规模

数据集时容易导致运算效率低下的问题。基于上述背景,本文主要研究内容如下:

(1)提出基于对比拉普拉斯的无监督特征选择算法。通过借鉴对比学习的思想,

在特征选择过程中对相似性图的构建进行了优化。采用对比相似性图来构建拉普拉

斯矩阵,以更全面地捕捉不同样本之间特征的对比信息。与传统方法相比,该方法

的区别是在图构建过程中能兼顾样本间的正负相似性,旨在提升算法的鲁棒性。为

了在保留有区分度的特征的同时,能有效抑制数据中的噪声影响,引入了L2,1-范数。

(2)提出基于锚点图重构优化的特征滤波算法,通过联合特征滤波和重构误差

最小化,实现了特征的直接筛选。方法包含两个核心模块:一是负责评价和挑选关

键特征的特征滤波器模块,由一个权重向量和特征相似性矩阵构成;二是使用锚点

图来精确近似原始数据矩阵的锚点图重构模块。这一优化问题的目标是寻找一个最

优权重向量以及相应的投影矩阵和锚点图,使得滤波后的数据和重构数据之间的差

异最小化,进而可由权重向量直接选出最优特征。此外,通过引入正则化约束,来

让该方法选择出的特征具有较高的稳定性和泛化能力。

最后,本文通过迭代更新算法来对两种方法进行优化求解。并在多个公共数据

集上进行了广泛的实验,验证了方法的有效性。

I

关键词:聚类;无监督特征选择;拉普拉斯;锚点图

II

ABSTRACT

Inrecentyears,withtherapiddevelopmentofnewinformationtechnologies,

high-dimensionaldatahasshownexplosivegrowthinthefieldsofimageprocessing,

videoanalysis,andgeneexpression.Thehigh-dimensionaldatainthesefieldsnotonly

hasacomplexstructure,butalsoexhibitsthecharacteristicsofdiversityandheterogeneity,

makingitanimportantchallengeforcurrentresearch.Inordertoeffectivelyhandlethese

complexhigh-dimensionaldata,featureselectionasapowerfultoolstartstoplayitskey

role.Thecoregoaloffeatureselectionistodistillasubsetoft

显示全部
相似文档