点击并关闭灯! Google使用扩散模型来播放电影级
发布时间:2025-05-17 10:16编辑:bet356在线官方网站浏览(173)
最近,Google启动了一个项目,该项目可以准确地控制图片灯泡中的光影。这使用户可以从单个图像中实现细性的光资源控制参数,该参数可以改变可见光资源的强度和颜色,环境光的强度,并在场景中输入虚拟光源。 Lightlab: Controlling Light Sources in pictures with models explosion of paper models: https://arxiv.org/abs/2505.09608 Project Homepage: https://nadmag.github.io/lightlab/huggingface: https://huggingface.co/papers/22505.09608 in image or film and television, the lights soul, which指图片的焦点,深度,颜色甚至情感。以电影为例,在一部伟大的电影中,《光》可以明智地塑造角色的感受,使故事的不服从,引导观众的眼睛,并揭示角色的内心世界。但是,如果是传统的p数字渲染,准确的光控制和阴影方向,颜色和强度始终是时间不足和密集的劳动,并且充分依赖于挑战的时间,颜色和强度始终是挑战。现有的轻编辑技术需要许多图片工作(不适合单张图片),或者即使可以编辑它,也无法确切说出它的变化(因为它发光以及它的颜色是什么)。 Google的研究团队学习了如何通过使用专门构造的数据集微调扩散模型来准确控制图像中的照明。为了开发用于培训的数据集,研究团队结合了两个资源:一个是真正的原始照片对,并具有受控照明更改;其他是使用物理渲染器生成的大规模合成渲染图像。进一步,研究人员明智地利用“光线性”将目标光资源和环境光与此图像数据分开。基于此,他们设法融合了大小大量的图像,描述了不同的灯光和颜色变化,将受控的灯光和阴影变化倍增。扩散模型通过研究高质量的配对示例在之前获得了强烈的“逼真主义”。这使模型可以直接和明确模拟复杂的照明效应,例如间接照明,阴影和精致等。最终,使用这些数据和适当的微调方案,受过训练的LightLAB模型可以准确控制照明变化,并对参数(例如光强度和颜色)提供明确的控制。 LightLab提供了一组丰富的光控制功能,可以在订单中使用以创建复杂的影响效果。您可以通过移动滑块来调整每个光资源的强度和颜色。该方法的研究技术的方法是使用配对图像在用于训练扩散模型的图像空间中明确控制的光变化。 p实际(原始)照片对的OST处理过程,研究团队首先将变更分开了目标光资源。对于紧急数据,研究团队分别呈现每个资源组件。然后将这些单独的组件缩放并组合,以创建图像的参数 - 遵循线性颜色空间。研究团队对以下方法采用了类似的方法,并且还用于为每个图像进行映射,从而将其转换为标准的动态范围(SDR)。条件信号研究团队使用各种条件方案来用于本地空间信号和全球控制信号。空间条件包括输入图像,输入图像的深度和两个空间段掩模,分别用于更改目标光资源的强度和颜色。期望全球控制(环境光强度和音调映射策略)具有文本至今的维度,并在十字架上插入调节机制。数据集照片研究团队使用现成的三脚架和触发设备捕获了一组600对原始照片。每对图片描述了同一场景,唯一的物理变化是 - 可见光资源。为了确保捕获的图像得到充分暴露,研究团队使用了每个设备的默认自动曝光设置,并在捕获后的原始图像的元数据中进行了校准。该数据集提供了有关几何形状,材料外观和复杂的光现象的详细信息,这些信息可能在合成渲染数据中找不到。研究团队将先前的研究视为环境光,I_AMB:= I_OFF,并从目标光资源中获取了光:I_CHANGE = I_ON -I_OFF。由于捕获的噪声,发布过程中的误差或两个图像之间照明条件的轻度差异,这种差异可能具有负值。为了防止UNEXpected Lighting已出现,研究团队已经在非阴性值中种植了差异:伴随着真实数据有助于确定合成传感器渲染风格的预期照明变化,该渲染的风格不包括由真实摄像机传感器引入的可视化伪影,例如镜头扭曲或透镜或色差和彩色异常和bp。发布帖子后,完整的数据集包含大约36k的图像。实验1。实施详细的模型和练习:研究团队通过具有与稳定的爆炸-XL相同的架构布局和隐藏的尺寸的文本对象潜在扩散模型来适当调整。研究小组以1024×1024分辨率训练了每个型号,研究率为10-5,批次大小为128。培训持续约12小时,使用64 V4 TPU。在培训期间,研究小组的时间占10%的时间和颜色条件,以使情况不当。解散分析:用于Ablati的体积在和比较上,研究小组描述了以该程序标记的配对数据集中训练有素的模型。真实的照片数据集包含200张不同场景和灯光的图片,这些图片在发布过程中延长了60次。合成评估数据集包括两个保留场景中提供的图像,其中包含独特的光资源,对象和材料。对于定性评估,不需要真正的目标,研究团队收集了100张图像。对于这些图片,研究团队将操纵每个图像的目标资源,并计算其细分市场和深度面具。在整个评估过程中以及在论文中开发所有结果时,音调映射的条件被设置为“一起”。分析指标:研究团队使用两个共同指标:峰值到噪声比率(PSNR)和结构统一指数指标(SSIM)来测量成对图像中的模型性能。此外,研究小组进行了用户研究修改这些结果是否与用户偏好与其他方法进行比较一致。 2。不同领域跨域概括的影响:研究团队注意到,在合成给定数据中训练的模型不能在真实图像中概括。该团队与整体差异不同的差异中的错误有关,例如缺乏复杂的几何形状,纹理和物质忠诚度,以及在合成数据集(例如Glare)中不存在的相机伪像。使用多个领域:研究团队使用相同的程序在三个数据域的组合中训练三个模型:仅实际获取,仅合成渲染及其重量混合。结果表1显示,使用来自两个域的数据混合物可以实现最佳结果。值得注意的是,研究团队已经观察到混合数据集和实际获取之间的相对差异很小,尽管它们的大小差异很大。例如,添加合成器ETEC数据仅带来平均PSNR的2.2%。这可能是由于图像掩盖中的低频细节引起了当地照明的变化,例如小阴影和镜面反射。研究小组通过比较技能证实了这种效果,这表明添加合成数据已鼓励该模型产生复杂的局部阴影,而这些阴影不仅存在于真实模型中。 3。比较Bow TeamResearch的方法是第一个提供对光资源的细粒度控制与真实单图像的方法。因此,为了进行公平的比较,与其他工作相比,研究团队只检查二进制活动。作为基准,研究团队已安排了四种基于骗局的编辑方法:Omnigen,RGB↔X,Scribblelight和IC-Light。这些方法使用文本信号,描述了输入图像中其他场景的位置以及其他场景的性质。 RGB↔X模型的条件是许多预算的海关,反照率,rouGHNESS和输入图像的金属图。 Scribblelight接收反照率和一层掩模,指示光资源开关的位置(点亮研究组方法源掩码是相反的)。最后,为了使IC光线控制光资源,研究团队将整个图像作为前景输入,并为研究团队的光线细分面罩作为环境光资源条件的来源。从表2可以看出,研究团队的方法明显优于以前的方法。值得注意的是,综合剂未能在目标光中进行/关闭目标,并引入了局部几何变化。 RGB X,Scribblelight和IC-Light可以成功改变输入照明条件,但通常会导致其他不需要的照明变化或颜色失真。与以前的工作相比,研究团队的方法是诚实地控制目标光源并产生物理照明。应用研究团队Intr此方法在不同设置中的ODSOME可能应用,主要应用程序是捕获光源后源控制图片的能力。光强度Lightswitch提供了对光源强度的参数化控制。请注意,不同强度的光现象保持恒定,从而允许交互式编辑。颜色的颜色方法可以根据用户输入创建着色。使用滑块颜色调节光源的颜色。通过从合成3D渲染中传递知识的虚拟点灯,LightLab可以将灯插入场景上的虚拟点(无几何)。单击圆点点点点点。 NEX环境光将目标光资源与周围的光线分开,这是pamped the Research团队控制进入窗户的光线,这很难控制。留给身体合理的照明:通过拍摄杀死的台灯腐烂的照片来创建输入的粘附在多边形的狗周围出现。中间,右:推断研究团队方法的结果,并扩大了狗的形象。请注意,在不同的表面上的自咬合,狗的阴影对应于灯的位置和角度。有关更多详细信息,请参阅原始论文。