type
status
date
slug
summary
tags
category
icon
password
2023.3.1 Learning to Locate Visual Answer in Video Corpus Using Question
分别提取文本和视觉特征,然后利用上下文注意力进行跨模态建模与信息融合。融合之后构建全局跨度矩阵来联合建模视频检索和视觉答案定位,统一优化。
- 特征提取:对于视频部分,使用在Kinetics数据集上预训练好的3D ConvNet(I3D)网络进行特征提取。对于文本部分,将标题和问题连接起来,然后使用预训练好的语言模型进行特征提取。
- 跨模态融合:使用Context Query Attention,通过上下文到查询和查询到上下文的过程利用跨模式建模。
- 全局跨度矩阵:使用global-span matrix来联合建模视频检索和视觉答案定位。定义跨度点[y,x]来表示目标视频答案跨度区间,使用交叉熵损失来优化[y,x]
- 端到端训练:将基于全局跨度矩阵的视频检索和视觉答案定位相结合,联合训练。
Experiment
使用DeBERTa-v3-base作为文本特征提取的模型。
模型取得显著效果主要是由于其在不同视频间构建了统一的全局跨度矩阵。矩阵中每个logits表示其答案区间的概率分布。
2022.10.28 Visual Answer Localization with Cross-model Mutual Knowledge Transfer
跨模态相互知识转移跨度定位(MutualSL)
本文的主要贡献:
- 提出了跨模态知识转移时间跨度定位方法,第一次在VAL任务中同时使用两种不同的预测器,并使用Look-up表来实现知识转移
- 设计了单项动态损失函数ODL来动态调整知识迁移,可以减轻不同变量之间知识转移的差异
- 实验验证
Method
- 特征提取:使用预训练模型I3D和预训练语言模型来分别提取视频和文本特征。
- 跨模态融合:上下文查询注意力CQA来捕获视觉和文本之间的跨膜交互。
- 视觉预测器:使用两个单向LSTM和两个前馈层FFN来构建视觉跨度预测器。
- 文本预测器:Follow QANet
整体方法和上一篇很相近
Towards Visual-Prompt Temporal Answering Grounding in Meical Instructional Video
主要模型包含四部分:
- 跨模态建模:提取到的视觉和文本特征通过跨模态交互进行处理。
- 视频文本突出显示:在highlight真值的监督下,文本问题被用来查询查询视频帧,从而获取highlight特征。
- 视觉提示:采用highlight特征来提示预训练的语言模型,其中文本特征可以在共同学习的同时捕获视觉特征。
- 文本跨度预测器:通过预先训练的语言模型对highlight文本标记进行编码,以预测字幕时间戳跨度。
- 作者:JsingMog
- 链接:https://jsingmog.top/article/MMIVQA
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章