基于自编码器及超图学习的多标签特征提取研究
多标签学习是数据挖掘和信息检索中很重要的主题. 多标签数据中的每个样本都会对应一个标签集合, 这在实际应用中非常普遍, 比如蛋白质功能分类、图像标注以及图像情景分类等. 多标签学习面临两个重要的挑战. 首先, 传统的单标签学习中样本的分类是互斥的, 而多标签学习中的分类类型相互依赖、相互关联. 比如图像标注应用中, 一个图像可能同时具有树、雨水、彩虹以及湖水 等标签, 而另一个图则具有树、太阳、彩虹 以及沙漠 等标签, 即不同的样本可能具有部分相同的标签. 其次, 多标签数据通常具有较高维度的特征向量. 比如一张图像数据的维度可能是几兆, 一个文本的维度通常可以10 k 以上,而高维度的数据很容易导致维度灾难. 为了解决这个问题, 研究者们已经提出了一些多标签降维算法, 虽然这些算法可以在一定程度上有效地融合多个标签之间关系以实现高维多标签数据的降维, 但这些算法忽略了多标签数据内含的噪声以及样本间几何关系对于多标签数据特征空间降维的影响, 而这对于提高多标签特征提取算法的性能至关重要.
为了有效提取高维多标签数据的低维表达性能,本