IJCAI 2018｜浙江大学：基于多通道层级聚焦网络的多轮视频问答

格式化中

2018-06-11

关注关注

作者：赵洲

IJCAI 2018

基于多通道层级聚焦网络的多轮视频问答

Multi-Turn Video Question Answering via Multi-Stream Hierarchical Attention Context Network

浙江大学

Zhejiang University

IJCAI 2018｜浙江大学：基于多通道层级聚焦网络的多轮视频问答

开放式的视频问答问题是视频信息检索领域中的一个重要问题，该问题的目标是针对于相关的视频及对应的问题，自动生成答案。开放式视频问答是视觉问答的根本问题，根据给定的问题从引用的视频内容中自动生成自然语言答案。

目前大多数视频问答方法主要集中在短视频问答的问题，前人的方法大多是从LSTM网络层学习视频的语义表征，然后生成答案。虽然目前的技术针对于短视频问答房方面取得了很好的效果，但是由于缺少长视频内容的语义表征的建模，这些方法仍可能无法有效地应用在长视频问答上。

长视频内容通常包含在多个帧之间的复杂对象交互，这些帧具有长期的语义依赖性。因此根据给定的问题，现有的基于帧级别的LSTM网络的简单扩展对于长视频内容的语义表示难以建模。另一方面，虽然视频帧是局部一致的，但是他们有不同的语义内容。针对这两个问题，本方法提出根据给定问题将视频内容自适应分割，然后把问题和视频的语义信息联合的学习框架。

论文中提出利用2维卷积神经网络进行帧级别的特征提取。之后根据问题信息利用具有二进制门函数的LSTM网络将视频进行分段，并把每一段视频分段针对问题进行注意力网络机制学习，得到分段针对问题级别的视频表达。之后利用针对问题级别的分段的视频表达，通过LSTM层得到问题级别的分段的视频时序表达，并用这个作为输入输入到解码器中。解码器则是在每一步利用问题级别的注意力网络机制，学习针对所问问题的问题级别分段的视频时序表达的注意力表达，作为LSTM的输入。然后在训练过程中结合强化学习的策略梯度的思想，指导整个模型的梯度，让整个模型收敛到更好的状态。

IJCAI 2018｜浙江大学：基于多通道层级聚焦网络的多轮视频问答