[CVPR 2024]Transfer CLIP for Generalizable Image Denoising

概括：作者发现 CLIP 里冻结的 ResNet 图像编码器，其前 4 层多尺度密集特征对噪声相对不敏感同时保持内容判别性。于是通过训练一个编码器，将带噪声的图像还原为干净图像。

CLIP 提供了两种图像编码器，ResNet 和 ViT。ResNet 通过连续的 Conv-block 和 Pooling 操作提取多尺度特征图，ViT 则是将图像分解为更小的 16$\times$16 块，然后使用标准的 Transformer进行操作。因为 ViT 方法抛弃了许多细节，所以采用 ResNet。

然后作者测试了在 RN50 的情况下添加不同强度的噪声以及添加 std=0.1 的噪声时不同的网络的结果（其与干净图像通过网络后的余弦相似度），可以发现通过 RN50 的前四层效果是最好的。

然后作者又测试了基础的监督学习 RN50 网络以及 Restormer，可以发现并不具有普适性，这种效果源自 CLIP。

使用了 t-SNE 来对数据进行降维可视化，可以发现图像内容和 CLIP RN50 的多尺度特征具有强相关性。即使加了噪声，前四尺度特征依然显著区分不同图像内容。

因为这种特性，所以作者选用 CLIP 的 RN50 Encoder 前四层作为去噪网络的第一部分，然后再通过一个可学习的 Decoder 以及 3$\times$3 的 Conv block 来还原干净图像。

没有使用全局残差从而利用 CLIP 的特性提升去噪泛化能力。

因为第四层以后保存最多的语义信息，但是空间分辨率低，所以和带噪声但是有完整细节和纹理的图像 $I_n$ cat 到一起。

损失函数：$\mathcal{L} = \mathbb{E}_{p(\mathcal{I}_c)} |\mathcal{I}_d – \mathcal{I}_c|_1$

发送评论 编辑评论

发送评论编辑评论