基于自编码器及超图学习的多标签特征提取研究
多标签学习是数据挖掘和信息检索中很重要的主题. 多标签数据中的每个样本都会对应一个标签集合, 这在实际应用中非常普遍, 比如蛋白质功能分类、图像标注以及图像情景分类等. 多标签学习面临两个重要的挑战. 首先, 传统的单标签学习中样本的分类是互斥的, 而多标签学习中的分类类型相互依赖、相互关联. 比如图像标注应用中, 一个图像可能同时具有树、雨水、彩虹以及湖水 等标签, 而另一个图则具有树、太阳、彩虹 以及沙漠 等标签, 即不同的样本可能具有部分相同的标签. 其次, 多标签数据通常具有较高维度的特征向量. 比如一张图像数据的维度可能是几兆, 一个文本的维度通常可以10 k 以上,而高维度的数据很容易导致维度灾难. 为了解决这个问题, 研究者们已经提出了一些多标签降维算法, 虽然这些算法可以在一定程度上有效地融合多个标签之间关系以实现高维多标签数据的降维, 但这些算法忽略了多标签数据内含的噪声以及样本间几何关系对于多标签数据特征空间降维的影响, 而这对于提高多标签特征提取算法的性能至关重要.
为了有效提取高维多标签数据的低维表达性能,本文首先利用去噪自编器对原始特征空间进行多层次抗干扰处理, 以便提取出比原始特征空间更鲁棒的表达; 其次, 利用超图理论来挖掘多标签特征空间样本之间的几何关系, 并有效融合多个标签对样本间几何关系的影响, 构建出完备的Laplacian 矩阵并通过矩阵的标准特征值分解获得低维特征空间.
1 相关工作
1.1 多标签学习
本文多标签学习算法中, X 表示特征空间, C与Y 表示标签空间, 并且它们都是非空有限集.传统学习机L = (X;C; T) 的目标是通过学习获得一个特征空间X 与标签空间C 的映射, 其中jCj = 1, 即单标签分类器. 大量的学者对单标签分类器进行了深入研究, 也取得了良好的分类性能, 但单标签分类器基于一个分类样本只有一个特定的标签的假设, 而这个假设在很多实际应用场景中并不成立. 因此越来越多的学者通过构建多标签学习机来处理实际应用中越来越多的多标签数据.
1.2 超图学习
传统采用图与子空间的机器学习理论通常基于流形假设. 首先, 假设存在一个低维流形空间, 在该空间上的一个较小的局部邻域内样本具有相似的性质, 建立在此流形空间上的决策函数也具有局部平滑性; 其次, 在传统图模型中, 样本之间的关系是成对的, 没有考虑多个样本之间存在一致的关联. 但在多标签数据中多个样本具有相同的性质, 即包含相同的标签, 则需要构建多条边来表达.
在超图中, 具有相同性质的多个顶点共享一条边, 因而可以使用超图来提高样本间几何关系表达的效率和可靠性. 基于超图的样本几何关系表达已经用于多种应用, 比如分类、图像分割以及信息检索.
2 基于自编码器与超图学习的多标签特征提取
2.1 自编码器
深度学习在挖掘图像潜在表达上非常