首页 > 科技周边 > 人工智能

「四合一物体传送门」，向场景中可控传送物体

来源：51CTO.COM

时间：2023-08-28 22:34:30 501浏览收藏

今日不肯埋头，明日何以抬头！每日一句努力自己的话哈哈~哈喽，今天我将给大家带来一篇《「四合一物体传送门」，向场景中可控传送物体》，主要内容是讲解等等，感兴趣的朋友可以收藏或者有更好的建议在评论提出，我都会认真看的！大家一起进步，一起学习！

在常见的图像编辑操作中，图像合成是指将一张图片的前景物体与另一张背景图片融合在一起，生成一张合成图。这样的合成图在视觉效果上类似于将一张图片的前景物体移植到另一张背景图片上，如下图所示

图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域广泛应用

通过简单的剪切粘贴得到的合成图可能会存在很多问题。在之前的研究工作中，图像合成衍生出不同的子任务，分别解决不同的子问题。举例来说，图像混合旨在解决前景和背景之间不自然的边界。图像和谐化旨在调整前景的光照使其与背景和谐。视角调整旨在调整前景的姿态，使其与背景匹配。物体放置旨在为前景物体预测合适的位置、大小、透视角度。阴影生成旨在为前景物体在背景上生成合理的阴影

根据下图所示，以前的研究工作以串行或并行的方式执行了上述子任务，从而实现了逼真自然的合成图像。在串行框架中，我们可以根据实际需求有选择地执行部分子任务

在并行框架下，目前流行的方法是使用扩散模型。该方法通过输入一张带有前景边界框的背景图片和一张前景物体图片，直接生成最终的合成图。这样可以使得前景物体无缝融入背景图片，光照和阴影合理，姿态与背景适配

这个并行框架相当于同时执行多个子任务，无法有选择性地执行部分子任务，缺乏可控性，可能会对前景物体的姿态或颜色带来不必要或不合理的改变

「四合一物体传送门」，向场景中可控传送物体

为了增强并行框架的可控性并有选择性地执行部分子任务，我们提出了可控图像合成模型 Controllable Image Composition (ControlCom)。如下图所示，我们使用一个指示向量作为扩散模型的条件信息，以控制合成图中前景物体的属性。指示向量是一个二维的二值向量，其中每个维度分别控制是否调整前景物体的光照属性和姿态属性，其中1表示调整，0表示保留

具体来说，(0,0) 表示不改变前景光照和姿态，只是将物体无缝融入背景图片，相当于图像混合。 (1,0) 表示只改变前景光照，使其与背景和谐，保留前景姿态，相当于图像和谐化。 (0,1) 表示只改变前景姿态，使其与背景匹配，保留前景光照，相当于视角调整。 (1,1) 表示同时改变前景的光照和姿态，相当于现在的不可控并行图像合成

我们将四种任务纳入同一个框架，通过指示向量实现四合一物体传送门的功能，可以将物体传送到场景中。这项工作是上海交通大学和蚂蚁集团合作完成的，代码和模型即将开源

「四合一物体传送门」，向场景中可控传送物体

请点击以下链接查看论文：https://arxiv.org/abs/2308.10040

代码模型链接：请点击此处查看控制通信图像合成的代码模型：https://github.com/bcmi/ControlCom-Image-Composition

在下面的图中，我们展示了可控图像合成的功能

「四合一物体传送门」，向场景中可控传送物体

左边一列，前景物体的姿态原本就和背景图片适配，用户可能希望保留前景物体的姿态。以前的方法 PbE [1]、ObjectStitch [2] 会对前景物体的姿态做出不必要且不可控的改变。我们的方法的 (1,0) 版本能够保留前景物体的姿态，将前景物体无缝融入背景图片且光照和谐

需要重新写的内容是：右边一列，前景物体的光照原本就和背景光照一致，之前的方法可能会对前景物体的颜色产生不符合预期的改变，比如车的颜色和衣服的颜色，我们方法的 (0,1) 版本能够保留前景物体的颜色，同时调整前景物体的姿态使其合理地融入背景图片

「四合一物体传送门」，向场景中可控传送物体

接下来，我们展示更多我们方法四个版本 (0,0),(1,0),(0,1),(1,1) 的结果。可以看出在使用不同指示向量的情况下，我们的方法能够有选择性地调整前景物体的部分属性，有效控制合成图的效果，满足用户不同的需求。

「四合一物体传送门」，向场景中可控传送物体

能够实现四种功能的模型结构是什么样的呢？我们方法的模型结构如下图所示，模型输入带有前景边界框的背景图片和前景物体图片，将前景物体的特征和指示向量结合到扩散模型中

我们将提取前景物体的全局特征和局部特征，首先合并全局特征，然后合并局部特征。在局部合并过程中，我们使用对齐的前景特征图进行特征调整，以实现更好的细节保留。指示向量在全局和局部合并中都得到应用，以更充分地控制前景物体的属性

我们使用了预训练的稳定扩散算法，并利用了OpenImage的190万张图片来训练模型。为了同时训练四个子任务，我们设计了一套数据处理和增广的流程。有关数据细节和训练细节，请参考论文

「四合一物体传送门」，向场景中可控传送物体

我们对COCOEE数据集和我们自己构建的数据集进行了测试。由于之前的方法只能进行不可控的图像合成，所以我们将其与(1,1)版本进行了比较。对比结果如下图所示，PCTNet是一种图像和谐化方法，能够保留物体的细节，但无法调整前景的姿态，也无法补全前景物体。其他方法能够生成相同种类的物体，但在细节保留方面效果较差，比如衣服的款式、杯子的纹理、鸟的羽毛颜色等等

我们的方法相较之下能够更好地保留前景物体的细节，填补不完整的前景物体，调整前景物体的光照、姿势与背景的适配

「四合一物体传送门」，向场景中可控传送物体

这项工作是对可控图像合成的首次尝试，任务非常困难，仍然存在许多不足之处，模型的表现不够稳定和鲁棒。此外，除了光照和姿态之外，前景物体的属性还可以进一步细化，如何实现更精细的可控图像合成是一个更具挑战性的任务

今天关于《「四合一物体传送门」，向场景中可控传送物体》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于场景,图像的内容请关注golang学习网公众号！

场景图像

声明：本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除