IJCAI 2018|浙江大学:基于多通道层级聚焦网络的多轮视频问答
作者:赵洲
IJCAI 2018
基于多通道层级聚焦网络的多轮视频问答
Multi-Turn Video Question Answering via Multi-Stream Hierarchical Attention Context Network
浙江大学
Zhejiang University
开放式的视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。开放式视频问答是视觉问答的根本问题,根据给定的问题从引用的视频内容中自动生成自然语言答案。
目前大多数视频问答方法主要集中在短视频问答的问题,前人的方法大多是从LSTM网络层学习视频的语义表征,然后生成答案。虽然目前的技术针对于短视频问答房方面取得了很好的效果,但是由于缺少长视频内容的语义表征的建模,这些方法仍可能无法有效地应用在长视频问答上。
长视频内容通常包含在多个帧之间的复杂对象交互,这些帧具有长期的语义依赖性。因此根据给定的问题,现有的基于帧级别的LSTM网络的简单扩展对于长视频内容的语义表示难以建模。另一方面,虽然视频帧是局部一致的,但是他们有不同的语义内容。针对这两个问题,本方法提出根据给定问题将视频内容自适应分割,然后把问题和视频的语义信息联合的学习框架。
论文中提出利用2维卷积神经网络进行帧级别的特征提取。之后根据问题信息利用具有二进制门函数的LSTM网络将视频进行分段,并把每一段视频分段针对问题进行注意力网络机制学习,得到分段针对问题级别的视频表达。之后利用针对问题级别的分段的视频表达,通过LSTM层得到问题级别的分段的视频时序表达,并用这个作为输入输入到解码器中。解码器则是在每一步利用问题级别的注意力网络机制,学习针对所问问题的问题级别分段的视频时序表达的注意力表达,作为LSTM的输入。然后在训练过程中结合强化学习的策略梯度的思想,指导整个模型的梯度,让整个模型收敛到更好的状态。
模型结构图
TACoS-MultiLevel数据集上的结果
YoutubeClip数据集上的结果
利用分层编码解码器网络机制来解决开放式长视频问答问题,具体步骤如下:
1、对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络;
2、对于步骤1所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的得分来修正整个解码神经网络,从而获得更优的解码神经网络;
3、对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
上述步骤可具体采用如下实现方式: