目标分割1万帧视频,视频内存占用不足1.4GB,代码为开源-ECCV2022-量子比特,
咦,怎么能好好的变成藤原千花,突然变成了【高温红色版】呢?
这些奇怪的颜色其实是视频对象分割的显示。
但是,u1s1,这个效果真的是一瞬间难以分辨。
萌子飞舞的头发:
AI对目标的分割都被称为严密的接缝,就像“焊接”了颜色一样。
它不仅可以处理高精度的分割目标,还可以处理超过10000帧的视频。
此外,分割效果始终保持在同一水平,视频后半部分保持平滑细腻。
更令人意外的是,该方法对于GPU不高。
研究人员表示,在实验过程中,该方法消耗的GPU内存从未超过1.4GB。
要知道,基于当前注意力机制的同类方法甚至无法用普通消费者级显卡处理超过一分钟的视频。
这就是埃瓦纳香槟分校的学者最近提出的长视频目标分割方法XMem。
现在由ECCV2022接收,代码也被开源。
这种滑动的效果,在Reddit吸引了众多网友,热度达到800+。
网友在开玩笑。
模仿人类存储方法的当前视频对象分割方法非常多,但要么处理速度慢,要么GPU高,要么精度不足。
本文提出的方法可以说是兼顾了以上三点。
不仅可以快速对长视频进行对象分割,而且屏幕帧数可以达到20FPS,可以在普通GPU上同时完成。
其特别之处在于,它受到人类记忆模式的启发。
1968年,心理学家阿特金森和希夫林提出了多重记忆模型(Atkinson-Shiffrin memory model)
在该模型中,人们认为人的记忆可以分为瞬时记忆、短期记忆和长期记忆三种模式。
参考这样的模型,研究人员将AI框架也分为三种内存方式。分别:
及时更新的瞬时内存高分辨率工作内存密集了长期内存。这里,对每帧更新瞬时存储器,记录画面中的图像信息。
工作存储器从瞬时存储器收集画面信息,更新频率为每r帧1次。
工作内存饱和后,将压缩并转移到长期内存。
如果长期内存也饱和了,你会随着时间的推移忘记过时的特征。通常,这是在处理数千帧之后才饱和的。
这样,GPU内存也不会因时间而不足。
通常,分割视频目标会提供第一帧的图像和目标对象遮罩,模型会跟踪相关目标并生成下一帧的遮罩。
具体而言,XMem处理单帧画面的过程如下:
整个AI框架由三个端到端卷积网络构成。
查询编码器用于跟踪和提取特定于查询的图像特征。
解码器负责获取存储器读取步骤的输出以生成对象掩码。
值编码器可将图像和目标遮罩结合在一起,以提取新的内存特征值。
最终值编码器提取的特征值将添加到工作内存中。
实验结果表明,该方法实现了短视频和长视频SOTA。
在处理长视频时,随着帧数的增加,XMem的性能也没有降低。
研究小组的作者之一是华人Ho Kei(Rex)Chen。
他的研究生毕业于香港科技大学,目前在伊利诺伊大学伊万娜香槟分校读博。
研究方向是计算机视觉。
CVPR、NeurIPS、ECCV等多篇论文被接受。
另一位作者是Alexander G.Schwing。
他现在是伊万娜香槟分校的副教授,博士毕业于苏黎世联邦理工学院。
研究方向是机器学习和计算机视觉。
论文地址:https://arxiv.org/abs/2207.07115
GitHub:https://github.com/hkchengrex/XMem