使用双解码器技术,DDColor能够同时考虑色彩分布和像素级详细信息,能实现高度真实的图像上色效果。
不仅能给历史黑白照片上色,还能对动漫或游戏中的风景进行真实风格的上色。
将动画场景转化为现实生活风格。
DDColor使用了双解码器来处理图片:一个是恢复图片的结构,另一个是决定图片每个部分的颜色。
这项技术的创新之处在于它不需要像以前的方法那样依赖于人工设置的规则,而是能够自己学习图片的内容并决定合适的颜色。
通过这种方式,DDColor可以更准确地给复杂场景的图片上色,减少颜色错误涂抹的问题,并且使得最终的图片看起来色彩更丰富、更自然。
工作原理:
1、特征提取:DDColor首先使用一个编码器(例如深度神经网络)来分析输入的黑白图像,并从中提取重要的视觉特征。这些特征包括图像的不同层次的信息,从大致的轮廓到细节的纹理。
2、多尺度处理:提取的特征被处理成不同尺度的表示,这意味着图像的不同部分(如近处和远处的对象)会被以不同的细节级别进行分析。这样可以更好地理解图像中每个部分的内容和上下文。
多尺度视觉特征:DDColor首先会在不同的分辨率层次上分析这张照片。比如,它可能先大致识别出远处的建筑物轮廓(低分辨率),然后识别出更多细节,如建筑物的窗户、汽车的形状和行人的服装(高分辨率)。
颜色标记优化:接下来,DDColor会根据这些不同层次的特征来决定如何上色。例如,它可能识别出远处建筑物应该是灰色或白色,汽车可能是红色或蓝色,行人的衣服可能是多种不同的颜色。
综合应用:最后,DDColor将这些颜色信息综合起来,对整张照片进行上色。因为它在不同的视觉层面上理解了图片,所以能够更准确和自然地给图片的每个部分上色。例如,远处的建筑会有合适的颜色和阴影,汽车和行人的颜色则会更加鲜明和详细。
3、双解码器结构:
像素解码器:负责恢复图像的空间结构,即将图像的每个像素点的位置和形状信息转换成更加清晰和详细的形式。
颜色解码器:使用所谓的“颜色查询”来优化颜色分配。这些颜色查询是基于提取的多尺度视觉特征来学习的,它们帮助模型决定每个区域的最合适颜色。
4、颜色应用:最后,通过将像素解码器和颜色解码器的输出结合起来,DDColor生成具有丰富色彩和逼真细节的彩色图像。在这一过程中,它通过交叉注意力机制,有效地将色彩信息与图像的语义和空间信息相结合,确保颜色的正确应用和自然过渡。
5、色彩丰富度优化:DDColor还引入了一个专门的损失函数,即色彩丰富度损失,用于增强生成图像的色彩饱和度和视觉吸引力,使最终的彩色图像更加生动和真实。
项目及演示:https://modelscope.cn/models/damo/cv_ddcolor_image-colorization/summary
论文:https://arxiv.org/abs/2212.11613
GitHub:https://github.com/piddnad/DDColor
Colab在线体验:https://github.com/camenduru/DDColor-colab