即插即用的视频深度预测框架是什么-电子工程世界

(1) 我们提出了第一个即插即用的learning-based的视频深度框架NVDS。可以用于任意的单目图像深度预测模型，去除时域抖动增强帧间一致性。

(2) 我们提出的Video Depth in the Wild(VDW) 数据集，是当前体量最大场景最丰富的自然场景视频深度数据集。

如下图，与之前的视频深度预测方法相比，本文方法NVDS在空间精度，时域平滑性，和推理效率上，均有提升显著。同时，本文提出的Video Depth in the Wild(VDW) 数据集，是当前体量最大场景最丰富的自然场景视频深度数据集。

1. 任务背景与动机

视频深度预测对许多下游任务(例如视频散景渲染，3D视频合成，视频特效生成等)具有重要的影响。理想的视频深度预测模型需要解决两个问题：(1) 深度的空间准确; (2) 帧间的时域一致。近些年来，单目图像深度预测算法已经显著提升了空间准确性，但如何去除抖动提升帧间时域的一致性仍是一个困难的问题。

主流的视频深度预测方法依赖于Test-time Training。他们在推理时，通过几何约束和相机参数，迫使一个单目图像深度预测模型过拟合当前特定测试视频的时域关系。这样做有两个明显的缺点：(1)鲁棒性差。相机参数在许多视频中往往难以做到准确可靠，而导致CVD，Robust-CVD等方法，产生明显的artifact和完全错误的预测结果; (2)效率很低。以CVD为例，其在四张Tesla M40 GPU上处理一段244帧的视频，需要超过四十分钟的时间。

因此，很自然的一个想法是，我们能否建立learning-based的视频深度预测方法，能够直接在数据集上学习到时域一致性的能力和先验，直接预测得到较好的结果，而不需要Test-time Training。那与所有的深度学习算法一样，设计和实现这样的learning-based的视频深度方法，就需要处理两个核心问题：(1)合理的模型设计，能够建模帧间依赖关系，提升预测结果的一致性; (2) 充足的训练数据，训练和激发模型的最佳性能。遗憾的是，之前的learning-based视频深度方法，其性能仍不如Test-time Training的方法，结果设计的有效性仍需要继续研究和探索。由于标注代价很大，已有的视频深度数据集在数据体量和场景丰富度上仍然较为有限。

2. 方法与贡献

为了解决上述的两个核心挑战，我们做出了两点贡献：

(1) 我们提出了第一个即插即用的learning-based的视频深度框架NVDS。NVDS包含一个depth predictor和一个stabilization network。其中，stabilization network可以直接被用到任意的单目图像深度预测模型上，去除时域抖动帧间一致性。之前所有的learning-based的视频深度预测模型都是独立的(stand-alone)模型，其空间性能无法受益于sota的单目图像模型，反之无法对大量已有的单目图像模型进行平滑稳定。而NVDS的方法，打破了单目图像深度预测和单目视频深度预测的壁垒，一方面能够受益于各种高精度的单图模型，反之能对任意的单图模型进行平滑稳定，实现了互相的促进和双赢。对于stabilization network ，我们采用了cross-attention建模关键帧(key frame)和参考帧(target frame)的帧间关系。同时，我们设计了双向预测的机制来扩大时域感受野，进一步提升一致性。

(2) 我们提出了Video Depth in the Wild(VDW) 数据集，是当前体量最大场景最丰富的自然场景视频深度数据集。由于巨大的标注代价，当前已有的视频深度数据集大多数都是封闭场景的。而少数的几个自然场景的视频深度数据集，其体量和丰富度还远远不足。例如Sintel只包含23段动画视频。我们的VDW数据集，采集自电影、动画、纪录片、网络视频等多种数据源，包含超过200小时的14203段视频，总计223万帧。我们还设计了天空分割投票等机制，以及严格的数据筛选和标注流程，来保证我们数据的精度。下图包含数据集的部分示例，分别来自网络视频、纪录片、动画、电影。

3.实验概述：方法部分

在实验方面，我们在VDW数据集，以及公开的Sintel和NYUDV2数据集上，均取得了SOTA的空间精度和时域一致性。其中VDW和Sintel为自然场景数据集。对于封闭场景数据例如NYUDV2，不使用我们的VDW数据集而只用统一的NYUDV2训练集进行训练，已经能取得SOTA的性能；而用我们的VDW数据集预训练，再在封闭场景的NYUDV2进行finetune，则能够进一步提升模型的性能表现。

同时为了证明我们即插即用的有效性，我们采用了三个不同的depth predictor进行实验，我们的NVDS均取得了显著的提升。

我们还通过ablation证明了双向inference的有效性。单向的(Forward或backward)预测已经能够得到令人满意的一致性，而双向inference能够进一步扩大时域感受野，提升一致性。

部分定性结果如下图所示，我们NVDS的方法取得了显著的提升。每组例子左侧为RGB帧，右侧为视频时域切片。切片中更少的条纹表征了更好的一致性和稳定性。更多可视化结果请参考我们的论文、补充材料、成果视频。

4. 实验概述：数据集部分

对于VDW数据集，我们比较了当前已有的视频深度数据集。我们的VDW数据集是目前体量最大、场景最丰富的自然场景视频深度数据集。

我们还探究了使用不同数据对模型进行训练的效果，由于我们的VDW数据集具有最佳的体量和场景丰富度，因此对于相同的模型，使用VDW数据集进行训练取得了最优性能。

而对于数据集的统计实验，我们绘制了数据集的物体类别词云，以及语义类别统计图等。更多的数据集统计结果和示例请见论文和补充材料。

5. 代码与数据集开源

我们的代码已经开源：

https://github.com/RaymondWang987/NVDS

数据集正在搭建VDW的官方网站，并拟定相应的开源协议，准备好后会马上进行发布。我们的数据集体量较大，因此网站搭建和数据传输仍需要一定的时间，我们会对数据进行分割并逐步上传。VDW数据集可以被用于学术和研究用途，但不能用于商业用途。

关键字：即插即用引用地址：即插即用的视频深度预测框架是什么

上一篇：多向麦克风放大器电路原理图讲解
下一篇：什么是甲类功放和乙类功放甲类功放和甲乙类功放哪个好

推荐阅读最新更新时间：2024-11-12 13:53

Silicon Labs推出即插即用的隔离电源解决方案

集成片上dc-dc转换器的Si88xx隔离器特别针对包括工厂自动化、太阳能逆变器和电池管理在内的工业应用而设计。中国，北京-2015年4月-工业自动化领域中数字隔离器和电源产品的领先供应商Silicon Labs（芯科科技有限公司，NASDAQ：SLAB）今日宣布推出新型高速、多通道数字隔离器系列产品，设计旨在为信号和电源隔离提供完整的高集成度解决方案。Silicon Labs新型的Si88xx隔离器集成了具有78%的高效dc-dc转换器，并可提供高达2W的功率输出、极低电磁干扰（EMI）和高噪声抑制能力。Si88xx系列产品为那些工作在恶劣、嘈杂环境下的应用降低了系统成本、缩短了产品上市时间、增强了

[电源管理]

Silicon Labs推出<font color='red'>即插即用</font>的隔离电源解决方案

Zortrax公司3D打印会跳舞的工业机器人可即插即用

　　近日，波兰3D打印机厂商Zortrax为了推广自己的旗舰产品ZortraxM2003D打印机，用它仿制了一台功能完整的工业机器人，仿制的对象是德国著名的工业机器人品牌KUKA，不过尺寸上小得多，以此来展示ZortraxM2003D打印机的强大功能，并向KUKA机器人致敬。　　Zortrax公司强调，这台三轴的Zortrax机器人功能齐全，由18个不同的零部件组成，整个制造过程使用的是ZortraxM200和专门的Z-ULTRAT线材。　　Zortrax公司为这台小KUKA机器人装上了：一个独立的机械系统，开源固件以及、G代码（CNC上的自然编程语言，通常用于数字机床和3D打印机上）。　　这台3D打印的Zortrax机器

[机器人]

费斯托为机器人的使用推出了即插即用设备

随着机器人行业应用场景的不断拓宽，尤其是机器人开始逐渐进入到生活领域后，灵活性越来越成为未来机器人发展的重要因素。费斯托在3月27日正式推出了即插即用原则，认为符合即插即用原则的机器人才是未来的主流。费斯托表示，即插即用这一原则的推出背景在于很多行业的机器人从业者能够体会到，在目前编程、配置和联网上，生产线或机器的调试过程可能会花费大量时间和成本，员工必须掌握专业和知识，尤其是针对电气应用。但对于在未来更多元化的生活场景中，执行简单运动的应用来说这未免过于麻烦和专业，但是，某些产品并不需要自带软件，这使得所谓的“即插即用”原理使其成为可能。费斯托文章中称，最明显的特征在于通过“即插即用”原则设计的设备、机

[机器人]

热门资源推荐
热门放大器推荐

小广播