您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:浅析ISP流程:从传统到AI的演进与展望 - 发现报告

浅析ISP流程:从传统到AI的演进与展望

电子设备2025-04-03--睿***
AI智能总结
查看更多
浅析ISP流程:从传统到AI的演进与展望

1.背景 ISP(ImageSignalProcessor)指的是对图像或视频信号进⾏实时处理和优化的专⽤处理器或专⽤硬件模块。它通常集成在⼿机、摄像机、⽆⼈机、监控设备、⻋载系统等影像采集系统中,为图像/视频信号提供⾼质量、低延迟的处理能⼒。核⼼⽬的:对传感器采集的原始图像(RAW)数据进⾏处理,输出质量更⾼、细节更丰富的可⽤图像或视频流(如YUV、RGB等格式)。 传统ISP的发展历程 在20世纪末⾄21世纪初,ISP主要依赖于固定算法和硬件流⽔线处理。这些算法包括⽩平衡校正、⾊彩插值、降噪、锐化等,⼴泛应⽤于数码相机和早期⼿机中。传统ISP的优势在于其稳定性和⾼效性,但其固定的处理流程难以适应复杂场景和多样化需求。 AIISP的崛起 近年来,随着AI的爆发和新兴智能终端的崛起和需求,AIISP逐渐成为⾏业热点。通过将神经⽹络与传统ISP相结合,AIISP不仅继承了传统ISP的稳定性,还具备了神经⽹络的⾃适应性和智能化能⼒。AIISP的出现标志着ISP技术进⼊了⼀个全新的阶段。 2. ISP的基础介绍 2.1传统ISP 传统ISP的软件部分依赖于经典算法,其处理流程通常分为以下⼏个步骤: 1.⿊电平矫正(BlackLevelCorrection) ⿊电平形成的原因有多种,主要的形成原因如下⾯两点: (1)CMOS传感器采集的信息经过⼀系列转换⽣成原始RAW格式数据。以8bit数据为例,单个pixel的有效值是0~255,但是实际AD芯⽚(模数转换芯⽚)的精度可能⽆法将电压值很⼩的⼀部分转换出来,因此,sensor⼚家⼀般会在AD的输⼊之前加上⼀个固定的偏移量,使输出的pixelvalue在5(⾮固定)~255之间,⽬的是为了让暗部的细节完全保留,当然同时也会损失⼀些亮部细节,由于对于图像来说,我们的关注度更倾向于暗部区域,ISP后⾯会有很多增益模块(LSC、AWB、Gamma等),因此亮区的⼀点点损失是可以接受的。 (2)sensor的电路本⾝会存在暗电流,导致在没有光线照射的时候,像素单位也有⼀定的输出电压,暗电流这个东西跟曝光时间和gain都有关系,不同的位置也是不⼀样的。因此在gain增⼤的时候,电路的增益增⼤,暗电流也会增强,因此很多ISP会选择在不同gain下减去不同的bl的值。 如多sensor输出raw数据中附加的⿊电平值,需要在ISP最前端去⼲净。如果不去⼲净,⼲扰信息会影响后端ISP各模块的处理,尤其会导致AWB容易不准,出现画⾯整体偏绿或者整体偏红现象。 2.去坏点(DefectPixelCorrection) 由于传感器是⾼精密⼀起,⾥⾯包含的像素点⾮常多,难免会出现做⼯问题导致局部像素产⽣坏点。 去坏点前去坏点后。 3.镜头阴影校正(LensShadingCorrection) 由于镜头天然的缺陷导致成像会出现暗⻆,⼀般分为lumashading和colorshading。 Lumashading的主要原因是镜头中⼼到边缘的能量衰减导致的,如图所⽰,蓝⾊和绿⾊⽤相同的数量线条表⽰能量,中⼼位置的蓝⾊⼏乎所有能量都能达到最右侧的的成像单元,但是边缘的绿⾊由于有⼀定⻆度射⼊,经过镜头的折射,有⼀部分光(最上⽅的⼏条绿⾊线条)就没法达到成像单元,因此成像单元中⼼的能量就会⽐边缘的⼤,表现在亮度上就是亮度向边缘衰减变暗。 colorshading主要是因为不同颜⾊的光的折射率不同,导致⽩光经过镜头后达到成像⾯时不同颜⾊的光的位置不同导致偏⾊。当然偏⾊还会和CRA有关,但是⼀般镜头选型的时候都会注意和sensor的CRA进⾏匹配,⼀般两者不会相差太⼤,所以CRA导致的偏⾊不做重点讨论。 4.解⻢赛克(Demosaicing) 如今⼏乎所有彩⾊sensor输出的都是bayerpattern的数据,即每个像素点仅有⼀种颜⾊分量数据。demosaic(解⻢赛克)就是为每个像素点找回另外2个缺失的颜⾊分量,使每个像素点都具备r,g,b三个通道的数据,最终将拜⽿阵列中恢复全彩图像。 5.⽩平衡校正(WhiteBalance) ⼈眼具有颜⾊恒常性,可以避免光源变化带来的颜⾊变化,但是图像传感器不具备这种特性,从⽽造成⾊偏,⽩平衡就是需要校正这个颜⾊的偏差 6.降噪(NoiseReduction) 空域降噪:空域降噪是⼀种2D降噪⽅法,它只处理⼀帧图像内部的噪声。降噪算法根据实现原理不同可以分成很多种类型,⽐如线性/⾮线性、空域/频域,频域⼜包括⼩波变换、傅⾥叶变换或其他变换。在cameraISP中使⽤的降噪算法需要⾜够简单、快速、节省内存、适合硬件实现。经典的低通滤波器如中值滤波或⾼斯滤波虽然⾜够简单但是容易破坏图像中的边缘,所以主流ISP产品⼀般会使⽤某个加强了边缘保持特性的改进版本,如引导滤波(guidedfilter),双边滤波(bilateralfilter)等。 时域降噪:时域降噪是⼀种3D降噪⽅法,它的主要思想是利⽤多帧图像在时间上的相关性实现降噪。⼀种最简单的实现⽅法是时域均值滤波,即将相邻⼏帧图像做加权平均。由于累加后噪声的增⻓速度(根号关系)⼩于信号的增⻓速度(线性关系),所以图像的信噪⽐会提⾼。这种⽅法的主要问题在于只适合处理静态图像,如果画⾯中存在运动的物体则会出现伪影(ghosteffect)。 STNR是⼀种2D+3D降噪⽅法,它通过⼀套算法判别⼀个像素是属于前景还是背景,被判决为背景的像素将会参与时域平滑,被判决为前景的像素将会参与空域平滑,⽽判决条件则每⼀帧都在动态更新,以尽可能保证判决准确性。 7.Gamma: 传感器接收到的光信号往往是线性的,这实际上与⼈眼感觉并不相同,⼈眼感知到的不同亮度和⾃然界的亮度并⾮线性对应,⽽是如上图曲线所⽰,在暗的时候感知到的亮度⽐实际的亮度要⾼,因此为了让最终图⽚更符合⼈眼所⻅,会对图⽚进⾏gamma矫正。 Gamma矫正前后结果如下图所⽰,左图为矫正前,右图为矫正后。 8.⾊彩校正矩阵(CCM) 由于相机的颜⾊匹配特性通常不满⾜卢瑟条件(也就是说sensor的RGB响应通常不是线性⽆关的),即相机的颜⾊匹配特性与CIE标准观察者之间并不存在线性关系。因此,我们需要某种⽅法来校正相机的特性,使其接近标准观察者。在实际的ISP处理中,这种⽅法通常以3x3矩阵的形式出现,称为⾊彩校正矩阵(colourcorrectionmatrix) 下图是⾊彩矫正前后的结果,左图是矫正前,右图是矫正后 9.锐化(Sharpening) 锐化(sharpen)就是使⽤⼀定的算法对图像进⾏处理以检测图像中存在的边缘,然后对符合条件的边缘采取⼀定的滤波措施以达到提⾼边缘锐度的⽬的。 那么,⼀幅图像是不是锐度越⾼越好呢?当然不是。从信息的⻆度看,通过滤波算法提⾼图像的锐度并不会增加图像中所包含的信息,它只是对原有信息进⾏⼀些加⼯处理,使画⾯更符合⼈类视觉的响应特性,可以减轻⼈类⼤脑的负担。但是如果算法处理不当,则会将⼀些原本并不重要甚⾄并不存在的细节(包括图像噪声)也⼀起放⼤,这反⽽会违背⼈类的正常认知,会加重⼤脑的负担,起到反作⽤。 因此,锐化的主要⽬标应该是弥补成像过程中图像的锐度损失,从⽽恢复场景本应具有的⾃然锐度,同时需要注意避免过度锐化。下⾯将讨论造成图像锐度损失的⼀些原因。 2.2AIISP AIISP是这两年才出来的⼀个新的技术概念。传统的ISP有三种组织形式,整个pipeline中有不同的模块负责不同的功能。AIISP已经有很多公司进⾏研究,⽐如英特尔实验室的《Learningtoseeinthedark》论⽂中提出,可以通过整个神经⽹络来实现ISP的全部功能。在这篇论⽂中,通过⼀个raw图进⼊,然后输出RGB或者YUV图像。但是在之前的研究中,没有⼀家公司能够真正把它进⾏产品化,现在能实际落地的仅有⼏个模块: •超分辨率•⽩平衡•解⻢赛克•暗光降噪•HDR。 这其中讲⼀下降噪和HDR,因为这两者是传统ISP中难以进⼀步优化的点。 降噪 AI降噪并⾮是预想中的给定噪声图和⼲净图进⾏训练,然后可以输⼊噪声图得到⼲净图。⽬前更成熟更稳定的做法是⽤⽹络预测噪声,然后把噪声减掉从⽽实现降噪。如果要取得⽐较好的效果,则这⼀步需要在raw上去做,rgb图像的噪声建模很复杂,没有清晰的分布,就不太好造训练数据;尤其在有sensor数据的情况下,对sensor采集基准帧,计算均值⽅差等数据属性来拟合噪声分布,从⽽得到⽬标camera噪声模型的参数。这样预测全场景的噪声效果会更好。 最终效果如下,左图是降噪前,右图是降噪后 再进⼀步的,在暗光情况下最常⽤的⽅法是通过多帧进⾏降噪。其实靠提⾼ISO本⾝就可以放⼤采集到的信号,只不过噪声也会随之增⼤,如果解决了这个过程中的噪声,就能解决传统ISP降噪中最为头疼的夜景问题。 使⽤的⽅法是先对多帧图⽚对⻬后进⾏融合,然后再经过ISP,多帧融合效果相当于⻓曝光,既得到了更多的光信号,⼜不会产⽣通过⻓曝光拍摄单帧时出现的抖动模糊现象。 ⼤名⿍⿍的Googlepixel,同样也针对Raw格式图像,结合多帧图像超分 同时通过分析抖动数据,可以恢复拜尔阵列,也就是demosaic HDR 在利⽤多帧进⾏降噪的同时,通过多帧不同曝光的照⽚同样也能进⾏融合,恢复更多⾼光和暗部的信息,给图⽚更⾼的动态范围。 得到不同曝光图像的拉普拉斯⾦字塔,然后以对⽐度和饱和度作为指导信息去确定融合的权重,因为在过曝和死⿊的区域的像素值接近0和255,梯度很⼩⽐较平滑,⽽饱和度同样是接近于0的。 3.总结与展望 传统ISP在图像处理领域奠定了坚实的基础,但其固定算法和分步处理模式已难以满⾜⽇益复杂的图像处理需求。AIISP通过引⼊深度学习和神经⽹络技术,不仅提升了图像质量,还赋予了设备更强的智能化能⼒。从数码相机到智能⼿机,再到AI眼镜等新型终端,AIISP的应⽤正在不断扩展。 随着AI智能眼镜中视觉理解模型的进步,对图像处理的要求也⽇益严格,将会进⼀步驱动ISP向⾼端迭代,⾼端ISP将朝着⾼精度、⾼性能及多功能的⽅向发展。具体来看,包括更⾼要求的图像处理性能、实时性与低延迟、⽀持边缘计算、适应多样化光照条件等。 ISP向⾼端迭代主要有以下两⼤需求,⼀是能⾼效地处理原始数据,⼆是内置⾜够的计算资源。 在⾼效地处理原始数据⽅⾯,随着视觉理解模型的能⼒不断增强,要求ISP芯⽚⾼效地处理来⾃摄像头传感器的原始数据,通过⾊彩校正、⾃动曝光控制等技术,为视觉理解模型提供准确的图像;同时,还要⽀持更⾼的像素密度和更快的数据吞吐量,以确保提供给AI模型的输⼊是准确且详细的。 在内置⾜够的计算资源⽅⾯,具备拍摄功能的要求ISP需要内置⾜够的计算资源来运⾏轻量级的AI算法或者预处理任务。当前,有不少AI眼镜的AI任务在边缘侧(设备端)进⾏,特别是⼀些语⾳交互功能,⽽不是依赖于云端服务器。这样的设计可以减少延迟、提⾼隐私保护,并且能够在没有稳定互联⽹连接的情况下⼯作。例如百度推出的⼩度AI眼镜具有拍照录像功能,⽀持基于百度⽂⼼⼤模型构建的语⾳交互功能,这意味着它可以在本地完成语⾳识别和响应。 最终AI眼镜要实际把带有ISP的芯⽚放进去必然离不开⼩型化,⽽ISP在往⾼效处理原始数据的过程中,也需要去不断减少中间过程同时不断优化其中的功耗,从⽽为硬件减负,减少需要的体积。最理想的⽅法莫过于⼀个模型完成端到端的ISP,即ISP的过程都可以⽤⼀个模型包揽,raw经过模型后直接得到jpg,