图文匹配以及图像的QA是图像与文本多模态融合的前沿领域。前者需要将图像与文本都映射到一个相同的语义空间,然后通过距离对他们的相似度进行判断;后者则要解决的是在所有的候选集中寻找到合适的答案,其核心思想是让图像的Attention的位置随着问题进行变化。