[CVPR 2024]Transfer CLIP for Generalizable Image Denoising
概括:作者发现 CLIP 里冻结的 ResNet 图像编码器,其前 4 层多尺度密集特征对噪声相对不敏感同时保持内容判别性。于是通过训练一个编码器,将带噪声的图像还原为干净图像。 CLIP 提供了两种图像编码器,ResNet 和 ViT。ResNet 通过连续的 Conv-block 和 Pooling 操作提取多尺度特征图,ViT 则是将图像分解…
|
144
|
|
526 字
|
3 分钟
RadarNet: Efficient Gesture Recognition Technique Utilizing a Miniature Radar Sensor
本文采用一种 60 GHz 雷达传感器并配合其开发的 RadarNet 来识别四个方向以及全方位的滑动手势。这个小型识别器主要是要满足以下几个条件:保持在线,可靠,隐私,体积小以及日常不可见。 RadarNet 算法: 如图所示,其处理流程为:先处理雷达信号,通过 FFT 算法输出为距离-多普勒图。然后将距离-多普勒图转换为一个 32 个值组成的摘…
|
139
|
|
234 字
|
1 分钟内
LSS: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting
正常自动驾驶融合摄像机图案时,会先对每个摄像头的图像预测一个距离,单目直接算深度很难且容易出错,如果先做2D检测再拼就无法端到端优化。本文尝试不用 LiDAR 的同时不显式预测深度的情况得到 BEV 特征图,分为三步:Lift Splat Shoot。 Lift:对每个图像进行单独处理,将每个图片从二维升维到三维坐标系。在单目目标检测中,一般需要先…
|
163
|
|
328 字
|
2 分钟