[CVPR 2024]Transfer CLIP for Generalizable Image Denoising

概括:作者发现 CLIP 里冻结的 ResNet 图像编码器,其前 4 层多尺度密集特征对噪声相对不敏感同时保持内容判别性。于是通过训练一个编码器,将带噪声的图像还原为干净图像。

CLIP 提供了两种图像编码器,ResNet 和 ViT。ResNet 通过连续的 Conv-block 和 Pooling 操作提取多尺度特征图,ViT 则是将图像分解为更小的 16$\times$16 块,然后使用标准的 Transformer进行操作。因为 ViT 方法抛弃了许多细节,所以采用 ResNet。

然后作者测试了在 RN50 的情况下添加不同强度的噪声以及添加 std=0.1 的噪声时不同的网络的结果(其与干净图像通过网络后的余弦相似度),可以发现通过 RN50 的前四层效果是最好的。

然后作者又测试了基础的监督学习 RN50 网络以及 Restormer,可以发现并不具有普适性,这种效果源自 CLIP。

使用了 t-SNE 来对数据进行降维可视化,可以发现图像内容和 CLIP RN50 的多尺度特征具有强相关性。即使加了噪声,前四尺度特征依然显著区分不同图像内容。

因为这种特性,所以作者选用 CLIP 的 RN50 Encoder 前四层作为去噪网络的第一部分,然后再通过一个可学习的 Decoder 以及 3$\times$3 的 Conv block 来还原干净图像。

没有使用全局残差从而利用 CLIP 的特性提升去噪泛化能力。

因为第四层以后保存最多的语义信息,但是空间分辨率低,所以和带噪声但是有完整细节和纹理的图像 $I_n$ cat 到一起。

损失函数:$\mathcal{L} = \mathbb{E}_{p(\mathcal{I}_c)} |\mathcal{I}_d – \mathcal{I}_c|_1$

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇