浙大蔡登团队携手微软亚洲研究院,提出了一个新的对比动作表征学习,CARL,框架,以自监督的方式学习逐帧动作表征,尤其是针对长视频;它考虑了时空上下文来提取逐帧表征,是一种基于Transformer的简单而高效的视频编码器,他们提出了一种新的序列对比损失,SCL,,应用于通过一系列时空数据增强获得的两个相关的视图,在FineGym、Pe...。
更新时间:2024-12-09 14:05:28