全球快资讯：基于深度学习的图像抠图领域应用及挑战

2023-04-20 22:17:12 来源：3D视觉工坊

<图像抠图是一个计算机视觉领域内的基础任务，旨在获取任意图像中的精细前景。对于需要精细细节的前景类别尤为关键，例如人像，动物，或者植物。图像抠图在很多的下游任务中充当着不可或缺的角色，包括电商网站的广告宣传，日常生活娱乐中的图像编辑，视频会议中的替换背景，或者虚拟现实，游戏等一些元宇宙应用。传统的研究方法因局限于底层色彩结构，且对人类辅助输入信息非常敏感，从而在复杂背景中无法得到优秀的抠图结果。近年来，基于深度学习的解决方案涌现，利用神经网络优秀的特征提取能力取得了非常优秀的抠图结果，随之诞生的还有多种新方向，诸如全自动抠图，人机交互式抠图，语言引导抠图等等。本综述首次系统性的概述了深度学习驱动下的图像抠图研究进展，涵盖了自深度学习时代以来（8年时间跨度）各类图像抠图算法及应用的研究进展。我们将主流的算法划分为两类，即基于人工辅助信息的抠图和全自动图像抠图研究。

在每个类别中，我们对相关的任务设定，网络模型，突出贡献，优势和局限性都进行了充分的论述。另外，本文还整合了包括合成图像和真实图像在内的诸多图像抠图数据集，并在典型的数据集上对具有代表性的诸多方法进行了系统的实验和主客观结果评估。最后，我们介绍了整个基于深度学习的图像抠图领域的相关应用，讨论了目前存在的挑战以及未来可能的研究方向。

【资料图】

一、图像抠图介绍

作为一个自从电影制作产业初期就出现的问题，图像抠图已经被学者们用传统方法研究了几十年，主流的方法有两种，基于色彩采样和相似度矩阵。然而，传统方法局限于底层色彩特征，且对人类辅助输入信息非常敏感，从而在复杂背景中无法得到优秀的抠图结果。自深度学习出现之后，研究者设计出了多种多样的基于卷积神经网络的解决方案。和传统方法一样，早期的深度学习方法依然需要依赖一定量的人工辅助信息，例如三分图（trimap），涂抹（scribble），背景图像等等，粗糙的初始分割等等。近年来，更多灵活多样的人工辅助信息被探索，例如用户点击和语言引导。在下图中，我们展现了一些常见的人工辅助信息的样例。

图1. 图像

抠图输入，预测结果和一些人工辅助信息的展示，例如三分图，背景，粗糙分割，用户点击，用户涂抹等等。该图中的语言输入可以为：图像中间的可爱的微笑的小狗。同时，为了使得图像抠图能被快速应用于工业场景，全自动抠图也在近年内被提出。这些方法可以直接从图像中预测出最终的结果，不需要任何额外的人工辅助信息。但是，因为受训练数据集的数据分布的影响，它们倾向于得到图中全部显著性的前景。

为了促进深度学习方法的研究，近年来被研究者构建了大量的相关数据集，包括合成数据集和真实数据集。本文对相关的研究算法和训练与测试数据集做了详尽的介绍。同时，我们总结了深度学习时代相关算法的时间轴，列图如下，可以看出近年来该领域的研究热度不断增加。

图2. 基于深度学习的图像抠图方法时间轴

图3. 基于深度学习的图像抠图方法总结表，包括出版刊物，输入模态，是否自动化，抠图目标，网络结构，训练数据集和测试数据集等。

二、具体研究进展及讨论

鉴于图像抠图任务是一个未知参数很多的病态问题，使用用户辅助信息作为输入是非常常见的解决方法。从传统时代开始，一张定义了指定前景，背景，和未知区域的三分图（trimap）就被广泛使用，随之一起出现的是指定前景背景的用户涂抹图像（scribble）。到了深度学习时代，多种多样的下游任务催生出了更多类型的用户辅助信息，诸如背景图，粗糙的二元分割图，用户交互式点击，语言引导等等。这些方法的网络结构设计大致可分为三类，如图4所示：1）单阶段网络；2）单阶段网络，附加边缘模块用以提取辅助信息中更多的图像特征；3）双分支或多分支网络，用以分别处理图像和辅助信息，并一起经过融合网络以得到最终输出。

这些方法每一项都弥补了前序方法的不足，对辅助信息进行了更输入的挖掘和信息提炼，以得到更优秀的抠图结果。然而，此类方法依然存在两个问题。首先他们依然依赖于不同程度的人力，使得在实用场景的自动化应用有些困难。第二点是这些方法很多依然对辅助信息非常敏感，比如三分图的未知区域大小，用户交互点击的密度等等。因此研发更鲁棒的方法既是一个挑战也是一个非常有前景的研究方向。更多详情可见文章第三章。

图4. 基于深度学习和辅助信息的图像抠图方法框架分类图。（a）单阶段网络。（b）带有边缘模块的单阶段网络。

（3）双分支或者多分支网络。

为了克服基于辅助信息的图像抠图方法的局限性，近年来，全自动抠图也成为了研究热点。这些方法旨在不经过任何人工参与的情况下，直接预测出图中的细致前景。根据网络结构的设计也可以大体分为三类，如图5所示：1）单阶段网络并利用旁支的全局模块引导图像高层的语意信息；2）两阶段网络来首先预测辅助信息，再设计基于辅助信息的第二阶段网络；3）用共享的编码网络获取不同层次的图像信息，通过多分支的解码网络分别预测高层语意和低层细节，并通过硬融合得到最终的结果。这一类方法由于没有任何额外信息的引导，非常容易受到训练数据集的影响。因此大部分方法局限于某些特定的抠图目标，比如人像，动物，透明物体等等。

近年来，也有方法探索通过将通用物体分为三类，即显著性闭合前景，显著性透明或细致前景，以及非显著前景，并用同一个网络进行全种类抠图。全自动抠图方法因为不需要任何人工的干预，在工业界得到了广泛的实用。然而，此类研究依然存在一些挑战，例如如何提高方法的泛化性，尤其在训练数据集中未见到的图像上得到很好的效果，或者如何在保有高质量抠图结果的同时提高运算效率，减小模型大小。更多详情可见文章第四章。

图5. 基于深度学习的全自动图像抠图方法框架分类图。（a）基于全局引导信息的单阶段网络。（b）两阶段网络。（c）共享编码器的双分支网络。作为深度学习方法不可或缺的驱动力，构建大型数据集非常关键。因此，本文对于抠图领域内近年来涌现的数据集做了统一的介绍和比较，包括早期的合成图像数据集和最近的真实图像数据集。如图6所示，我们对现有数据集按照输入模态，标签类型，抠图目标，平均尺寸，标注方法，训练集和测试集的数目，是否公开，进行了归类整理和对比。详情可参见文章第五章。

图6. 图像抠图数据集比较，包括出版刊物，模态，标签类型，是否是自然图像，抠图目标，平均尺寸，标注方式，训练数据量，测试数据量，是否公开等等。

三、评测基准

在这一节里，我们详细介绍了整个抠图领域内深度学习算法常用的损失函数，评价标准，预处理方式和训练技巧。对于基于辅助信息的方法和全自动方法，我们分别在两类常用的数据集上对具有代表性的算法进行了详尽的比较。包括主观客观结果比较，方法的模型惨数量，复杂度，以及处理512x512分辨率的图像的推理时间。我们在同种设定下进行了大量的实验以公正的评测目前的深度学习方法与早先的传统算法。相关客观指标结果如图7所示。为了给读者一个对于目前主流方法结果直观的感受，我们在图8展示了一些实际结果例子。

图7. 图像抠图算法的客观指标结果

图8. 图像抠图算法主观对比图

四、挑战与展望

图像抠图，作为一个基础的图像底层算法，在诸多的下游任务中都有非常广泛的应用，包括视觉感知能力例如物体检测，语义分割，障碍物去除，图像编辑应用例如图像合成，图像补全，图像风格转换，视频处理应用例如视频特效关联，浅景深合成，视频抠图，多模态和3D应用例如遥感，3D图像渲染等等。这些年来，图像抠图领域迅速的崛起与发展也带来了很多挑战与新的研究机会。我们在这里做一个简要的讨论，更多详情请见文章第八章。

1、更精确的评价指标

现有的评价指标可以从客观上表示预测结果和标签之间的相似度，然而如何更加精确的反应人类对于预测结果的主观评价是一个困难的问题。例如SAD可以评价出全图或者未知区域的相似度，但是对于人类主观关注的区域，比如头发，耳环，或者眼镜框等等却无法进行精确的评估。一个可能的解决方案是利用基于结构相似性的度量，例如SSIM，来对细节信息进行更精确的评估。

2、更轻量级的模型设计

鉴于图像抠图会在实时的全自动化工业领域内有广泛的应用，如何设计一个轻量级的模型并保有精确的预测结果是一个长久而充满潜力的研究方向。一些有效的策略包括降维处理，特征复用，剪枝操作，或者混合分辨率结构。

3、多模态抠图

将图像抠图领域与多模态领域进行融合可以进一步扩展图像抠图的适用范围。已经有的研究将抠图和人类语言输入进行结合，预测出符合人类描述的指定前景。更多的输入模态可以包括，语音指令，目光注视点，以及3D的可渲染光线神经场模型。

4、扩散模型

近期，扩散模型已经在图像生成领域表现出了优秀的潜力。大语言模型和跨模态预训练的显著进展为扩散模型的多模态应用提供了极速发展的动力，使得从空白画板生成并编辑高质量的图像成为了可能性。这也为图像抠图领域带来了一个开放性的问题：在扩散模型的新时代里，图像抠图领域会有怎样的走向，会是一个方向的终结，还是一个崭新的开端。

五、总结

我们提供了一份深度学习驱动的图像抠图领域的综述，涵盖了该领域详尽的背景介绍，基于辅助信息的方法概述，全自动化的方法概述，数据集的整理和比较，公开的基准测试以及未来的研究方向。为了展示图像抠图领域内清晰的发展脉络和未来趋势，我们对现有方法做了精细的分类和深入的探讨。此外，我们将长期维护一个开放的github仓库来定期更新最新的工作进展和数据集

全球快资讯：基于深度学习的图像抠图领域应用及挑战

全球快资讯：基于深度学习的图像抠图领域应用及挑战

基于深度学习的图像抠图领域应用及挑战-本文还整合了包括合成图像和真实图像在内的诸多图像抠图数据集，...

天天观热点：电饭蒸煮菱角多长时间才能熟?

1 菱角平时蒸十五分钟就能熟透，不过菱角的品种不一样，它的大小也不一样，蒸熟需要的时间也不相同，其...

微信朋友圈可以置顶了！

微信朋友圈可以置顶了!就是你可以把自己某一条朋友圈内容设置为置顶，以后用户进入到你的朋友圈主页，就...

只看AI，不看其它！

都说A股有一个“4 19”魔咒，说这一天股市会跌，今天真的应验了，大盘几乎全天水下运行，上证综指午后...

宝宝树陷“罗生门”：首席财务官为何与大股东“持剑相向”？

宝宝树陷“罗生门”：首席财务官为何与大股东“持剑相向”？,徐翀,电商,宝宝树,罗生门,复星集团,首席财务官

马斯克：将开发“不会消灭人类”的人工智能TruthGPT

中新网4月18日电综合外媒报道，亿万富翁、科技大亨埃隆·马斯克当地时间17日表示，他将开发一个新版本的...

公安专案组与银保监工作组同步进行调查雪松信托 天天微资讯

雪松控股曾通过旗下销售团队、线上APP等渠道，向超过8000名投资人发行超过350余只理财产品，总规模超过2...

李易鑫：黄金震荡上下行怎么看？黄金原油今日最新行情分析_精选

李易鑫：黄金震荡上下行怎么看？黄金原油今日最新行情分析交易如同攀爬，只有登上绝顶，才能享受奇观胜...

世界要闻：保险金额怎么算

由CIF换算成CFR价：CFR=CIFx[1-保险费率x（1+加成率） 由CFR换算成CIF价：CIF=CFR [1-保

教育部公布2022年教育部“基础教育精品课”名单-滚动

各省、自治区、直辖市教育厅(教委)，新疆生产建设兵团教育局：经过各地逐级遴选、省级教育行政部门认真...

每日视讯：持续探索提升交通系统运行效率新方式 嘀嗒出行工程师聊顺风车“顺路匹配”创新背后初心

经历近十年发展，顺风车日益成为大众个性化出行的重要选择，在应答率和即时性方面也得到越来越多青睐。...

品牌焕新发展质量稳步提升 北汽集团登陆2023上海车展

4月18日，第二十届上海国际车展正式拉开帷幕。北汽集团以“向新向上向未来”为参展主题，携极狐、北京、...

《合金弹头觉醒》武器效果及强度介绍:全球百事通

很多小伙伴们在入坑合金弹头觉醒的时候就发现了，手上有一把强力武器和没有一把强力武器的区别是非常大...

如何制作西北印度纽扣毯

你需要的东西羊毛或厚羊毛粉笔或粉笔剪刀别针针和线300到500个鲍鱼壳纽扣纽扣毯子传统上由美国西北部的...

全指医药很接近击球区了

人厌狗嫌的医药今天又下跌了，由于个人对医药行业一窍不通，所以只关注了覆盖面比较广的300医药、中证医...

争抢项目工地 河北廊坊“理想城”建设乱象-播资讯

廊坊“鸿坤·理想城”（下称：廊坊理想城）虽然地处河北省廊坊市境内，但到北京天安门的直线距离只有50...

环球热点评！当当发布阅读报告：阅读时长与工作满意度成正比

当当网易观发布《中国年轻人阅读洞察2023》，调查显示阅读与工作生活满意度正相关，阅读可提升学习能力...

南靖县领导带队赴港开展经贸交流活动_最新资讯

闽南网4月19日讯（通讯员马嘉伦余芷芊闽南网见习记者陶诗薇文 图）4月16日-17日，南靖县委书记李志勇带队在

环球信息:一拳超人：战力崩坏，杰诺斯瞬秒12个龙级怪人，而龙卷则更夸张

而战力最崩坏的代表绝对就是龙珠了，从早期一个冲击波就算绝招的时代，到最后说毁灭一个宇宙就毁灭一个...

【崩坏三同人】终有一天，我要让整个剧院都座无虚席。|天天新资讯

钢琴房传出栩栩动人的乐声。被辗转悠扬吸引过去的舰长走到门边，目光往里面看去，只见一位酒红色头发的...

苏州短期天气不错 明起气温明显下降

今明天气今天多云，17℃～26℃；明天多云到阴，16℃～20℃。昨天苏城云系增多，天气阴沉，同时风向由南...

上海：到2025年全面完成中心城区零星二级旧里以下房屋改造 基本完成小梁薄板房屋改造|天天讯息

【上海：到2025年全面完成中心城区零星二级旧里以下房屋改造基本完成小梁薄板房屋改造】财联社4月19日电...

嫩芙AR-129_环球快播

1、嫩芙AR-129是一款嫩芙旗下的产品。文章到此就分享结束，希望对大家有所帮助。

海贼王1081话情报：蜂巢岛大战爆发，卡普激战青雉，烧伤男是龙

蜂巢岛是黑胡子的老巢，黑胡子本人不在蜂巢岛，岛上有五个干部，除了雨之希留，恶政王，大酒桶和巨大战...

长春金融法庭智慧庭审跑出执法办案“加速度”:环球今日报

长春金融法庭智慧庭审跑出执法办案“加速度”

复盘总结 4.19

沪指跌0 68%，深证成指跌0 84%，创业板指跌0 63%。成交额维持在一万亿上方，装修建材、光伏设备、证...

贵州大学录取分数线文科 贵州大学录取分数线 天天精选

今天来聊聊关于贵州大学录取分数线文科，贵州大学录取分数线的文章，现在就为大家来简单介绍下贵州大学...

牡丹江：跨境铁海联运助力企业“借港出海”

牡丹江是全国对俄经贸合作的“桥头堡”，在对外贸易、跨境运输方面优势明显。随着今年1月“哈绥俄亚”班...

视源股份：截至2023年4月10日，公司股东总户数为17,963户，感谢您的持续关注！ 今日报

视源股份(002841)04月20日在投资者关系平台上答复了投资者关心的问题。

终极三国2017全集爱奇艺

1、《终极三国2017》是合一集团、可米传媒出品和上海恩乔依联合出品的科幻偶像剧，第一季共69集，于2016年12月14

郎情妾意的诗句_郎情妾意|世界球精选

1、全称郎有情，妾有意。2、指两人对彼此都怀有好感，心意相通，特指情人之间。3、通俗讲是你情我愿的意...

【全球速看料】煤炭行业：需求端持续改善，预期二季度更上层楼－2023年3月煤炭行业数据点评

煤炭行业：需求端持续改善，预期二季度更上层楼－2023年3月煤炭行业数据点评。新闻资讯提供最新、最及时...

SpaceX公布星舰首飞新日期4月20日升空

SpaceX公布星舰首飞新日期4月20日升空：美国太空探索技术公司(SpaceX)周一在推特上称，将会在当地时间4...

生肖属虎今年多少岁（属虎今年多少岁）:天天观焦点

1、属虎人今年2015年多大公历纪元2010年农历庚寅年【虎年】，是5周岁，是6虚岁。2、公历纪元1998年农历...

世界今热点：科德教育4月20日快速反弹

以下是科德教育在北京时间4月20日09:51分盘口异动快照：4月20日，科德教育盘中快速反弹，5分钟内涨幅超...

开普检测：2023年第一季度净利润约1606万元 同比增加19.15%|每日观察

开普检测（SZ003008，收盘价：26 55元）4月19日晚间发布一季度业绩公告称，2023年第一季度营收约3887万...

环球资讯：减肥茶配方荷叶山楂决明子绿茶_减肥茶配方今日更新

1、减肥是每个夏天的热词，减肥茶的配方也是朋友们非常关心的话题。越胖的朋友们总是在思考如何更好更快...

4399弹弹堂新手大礼包卡密 4399弹弹堂新手大礼包

今天来聊聊关于4399弹弹堂新手大礼包卡密，4399弹弹堂新手大礼包的文章，现在就为大家来简单介绍下4399...

十大复古传奇手游176版本推荐 176版本传奇手游合集|微资讯

，传奇类的游戏可以说是一大堆人的童年回忆了，那个时候还有很多人都是去网吧里面玩的，拉上三五个好友一起

我国成功发射首颗“中国造”降水星——风云三号G星_天天微资讯

公安专案组与银保监工作组同步进行调查雪松信托天天微资讯

由CIF换算成CFR价：CFR=CIFx[1-保险费率x（1+加成率）由CFR换算成CIF价：CIF=CFR [1-保

每日视讯：持续探索提升交通系统运行效率新方式嘀嗒出行工程师聊顺风车“顺路匹配”创新背后初心

品牌焕新发展质量稳步提升北汽集团登陆2023上海车展

争抢项目工地河北廊坊“理想城”建设乱象-播资讯

闽南网4月19日讯（通讯员马嘉伦余芷芊闽南网见习记者陶诗薇文图）4月16日-17日，南靖县委书记李志勇带队在

苏州短期天气不错明起气温明显下降

上海：到2025年全面完成中心城区零星二级旧里以下房屋改造基本完成小梁薄板房屋改造|天天讯息

贵州大学录取分数线文科贵州大学录取分数线天天精选

视源股份：截至2023年4月10日，公司股东总户数为17,963户，感谢您的持续关注！今日报

开普检测：2023年第一季度净利润约1606万元同比增加19.15%|每日观察

可以贷款20万的平台有哪些高额度贷款平台推荐:全球独家

强冷空气又来!降温横扫30省_体验由夏返春最新天气预报当前焦点

1、　　最近几天，我国大部雨雪稀少气温飙升，特别是江南一带恍若盛夏，杭州、长沙等地的高温提前近两个...

卫星影像看人气深圳罗湖口岸恢复通关百日重现热闹景象_世界动态

《异度神剑3》第四弹DLC“新的未来”公布4月26日发售介绍了　　《异度神剑3》宣布第四弹DLC“新的未来”...

　　福州博爱男科骗子医院吗-福州博爱男科好不好_医生尽责技术过硬,尿道炎给患者带来很大的痛苦，尤其是...

“五一”返程火车票今起开售这些线路车票或紧张|世界时快讯

微软拟推出 AI 芯片代号雅典娜

当前快播：福原爱搬离豪宅将其出租用于偿还房贷

SpaceX“星舰”首次发射出状况发射将推迟至少48小时:当前焦点