摘要:针对科学数据集的规模和复杂性的迅速增长, 现有的降维方法存在“拥挤问题”以及不能嵌入新样本的问题, 提出了一种变分自编码器均匀流形近似与投影的数据降维方法. 首先, 为减小高维数据之间的耦合性, 利用变分自编码器将数据预处理变换成潜在变量; 然后, 运用均匀流形近似与投影进一步将潜在变量降维, 使低维嵌入更好地保持原始高维数据之间的相似性关系; 最后, 将所提方法用训练集进行拟合, 并嵌入一个样本外测试集来评估对新数据的泛化能力. 实验结果表明, 在MNIST和Fashion-MNIST数据集上, 与UMAP、DensMAP、VAE和AE这4个优秀降维方法相比, 所提方法的可信度得分分别达到0.994 4和0.993 9, 超越了当前最好方法UMAP 0.031 6和0.014 1, 同时在可视化、Kendall秩相关系数以及分类精度评价指标上也有显著的改进效果.
文章目录
1 相关理论
1.1 UMAP
1.2 VAE-UMAP
2 实验结果与分析
2.1 参数设置
2.2 可视化分析
2.3 Kendall秩相关系数
2.4 可信度
2.5 kNN分类
3 结 语