原创文章,转载、引用请注明出处!
Real-world Video Super-resolution: A Benchmark Dataset and A Decomposition based Learning Scheme
ICCV 2021
立意
针对的问题是视频超分在下采样、退化时候产生的误差问题,认为使用简单的退化方法所得到的模型并不能很好的在实际应用中发挥作用。以及所使用的VSR数据集大多都是合成的(与SISR是一样的痛点)
为了解决上述问题,本文首先使用iPhone 11 Pro Max的多摄像头系统捕获成对的LR-HR视频序列,构建了一个真实世界的视频超分辨率(RealVSR)数据集。
接下来分析指出,由于LR-HR视频对由两个单独的摄像头捕获,因此它们之间不可避免地存在一定的错位和亮度/颜色差异。为了更稳健地训练VSR模型并从LR输入中恢复更多细节,将LR-HR视频转换为YCbCr空间,并将亮度通道分解为拉普拉斯金字塔,然后对不同的分量应用不同的损失函数。
相关工作
因为做的是比较有意义的新数据集,所以这部分有必要介绍一下。
常用的VSR数据集:Vimeo-90k[31]、REDS[23]、一些私有数据集[25]。
真实世界的SISR数据集:[6][33][4][30]。
在这篇文章之前,没有公开的真实世界VSR数据集。
[31] Video enhancement with task-oriented flow
[23] Ntire 2019 challenge on video deblurring and super-resolution: Dataset and study
[25] Detail-revealing deep video super-resolution
[6] Camera lens super-resolution
[33] Zoom to learn, learn to zoom
[4] Toward real-world single image super-resolution: A new benchmark and a new mode
[30] Component divide-and-conquer for real-world image super-resolution
上述文章中,33是之前读过的一篇;30是本文章的SISR的工作,ICCV 2019,后面可能会读。
The Real-world VSR Dataset
使用iPhoen 11 Pro Max + DoubleTake
制作该数据集。其中,ip11pm有3个摄像头,分别是13mm超宽摄像头、26mm宽摄像头和52mm长焦摄像头,每个摄像头都可以拍1200万像素的照片。DoubleTake可以通过具有不同焦距的两个摄像机以不同的比例捕获两个近似同步的视频。
所构建数据集的一些主要信息:
考虑到13mm镜头(也就是广角)有较为严重的失真,采用26mm镜头和52mm镜头构建数据集;
使用52mm镜头拍摄的视频作为GT,也就是HR;使用26mm镜头拍摄的视频作为LR,从而生成×2的数据集,文中提到2倍就是VSR的主要需求;
前期制作总共
做了700个
视频对,每对是两个帧速率30fps
和分辨率1080P
的近似同步
视频成,场景包括室内外、白天黑夜、静止场景和运动场景(包括摄像机运动和对象运动)等,文中提到具有丰富纹理的场景是首选场景;数据收集后进行后处理,首先筛掉约200个质量较差的视频,例如严重模糊、噪声、过度曝光或曝光不足、严重对齐错误等,最终
保留500个
序列对。后处理第二步是对齐,对齐算法来自[4],考虑到相邻帧之间可能存在一些小的配准漂移,扩展了[4]中的配准算法,使用五个相邻帧作为输入来计算中心帧的配准矩阵。
后处理第三步是切割,对齐后在
1024×512
大小的中心区域裁剪对齐每一对序列,并将所有序列切割为50帧
长度。
综上,最终的数据集结果为多场景/500个序列对/每个序列对有HR和LR2个序列/每个序列50帧/帧大小1024×512
。
[4] Jianrui Cai, Hui Zeng, Hongwei Yong, Zisheng Cao, and Lei Zhang. Toward real-world single image super-resolution: A new benchmark and a new model. In Proceedings of the IEEE International Conference on Computer Vision, pages 3086–3095, 2019. 2, 3, 4
App Store内的DoubleTake软件页面: