摘要:尽管深度学习强大的学习能力已经在单一模态应用领域取得了优异成果,但研究发现单一模态的特征表示很难完整包含某个现象的完整信息,为了突破在单一模态上特征表示的阻碍,更大化利用多种模态所蕴含的价值,学者们开始提出利用多模态融合的方式去提高模型学习性能。多模态融合技术是让机器能从文本、语音、图像和视频中利用模态之间的相关性和互补性融合成更好的特征表示为模型训练提供基础。目前多模态融合的研究仍处在发展初期阶段,本文从近几年多模态融合的热门研究领域为出发点,阐述多模态融合方法和融合过程中的多模态对齐技术。首先,重点分析多模态融合方法中的联合融合方法、协同融合方法、编码器融合方法和分裂融合方法在多模态融合中的应用情况与优缺点,阐述在融合过程中的多模态对齐的问题,包括显式对齐和隐式对齐以及应用情况与优缺点。其次,阐述近几年多模态融合领域中热门数据集在不同领域应用。最后,阐述多模态融合所面临的挑战以及研究展望,以进一步推动多模态融合的发展与应用。
文章目录
1 多模态信息融合
1.1 联合融合方法
1.1.1 特征级融合
1.1.2 模型级融合
1.1.3 决策级融合
1.1.4 混合级融合
1.2 协同融合方法
1.2.1 交叉模态相似方法
1.2.2 层级空间融合方法
1.3 其他融合方法
1.3.1 编码器融合方法
1.3.2 分裂融合方法
2 多模态信息对齐
2.1 显式对齐
2.1.1 无监督方法
2.1.2 监督方法
2.2 隐式对齐
3 公开数据集
4 面临的挑战及未来展望
5 结束语