post on 17 Feb 2025 about 4405words require 15min
CC BY 4.0 (除特别声明或转载文章外)
如果这篇博客帮助到你,可以请我喝一杯咖啡~
语义分割、实例分割和全景分割是计算机视觉中三种重要的图像分割技术,各自有不同的任务目标、技术难点和应用场景。语义分割的目标是为图像中的每个像素分配一个类别标签,但不区分同一类别中的不同实例。它的技术难点在于需要精确的像素级分类,而对同一类别中的不同实例不进行区分。语义分割的主流方法包括 FCN、DeepLab 系列和 PSPNet,性能通常通过平均交并比(mIoU)来衡量。语义分割模型结构相对简单,适合大规模像素级分类任务,广泛应用于自动驾驶、医学影像分析和卫星图像处理等领域。
实例分割则进一步要求为图像中的每个目标实例生成独立的分割掩码,并区分同一类别中的不同实例。它的技术难点在于需要同时处理目标检测和像素级分割,尤其是在处理小目标和密集目标时,对分割精度的要求更高。实例分割的主流方法包括 Mask R-CNN、SOLO 系列和 BlendMask,性能指标通常包括掩码平均精度(mask AP)和实例分割精度。实例分割能够精确区分同一类别中的不同实例,适用于复杂场景,如自动驾驶和医学影像分析。
全景分割结合了语义分割和实例分割的优点,旨在同时处理“Things”(可数目标)和“Stuff”(不可数目标),为每个像素分配类别和实例 ID。全景分割的技术难点在于需要统一处理前景目标和背景区域,避免分割结果的重叠和遗漏。其主流方法包括 Mask2Former 和 Panoptic-DeepLab,性能通过全景质量(PQ)、分割质量(SQ)和识别质量(RQ)来衡量。全景分割提供了一种更全面的场景理解方式,适用于自动驾驶、机器人视觉和视频监控等需要完整场景理解的应用场景。
随着技术的发展,Transformer 架构逐渐被引入到这些分割任务中,显著提升了模型的多尺度特征学习能力和整体性能。语义分割、实例分割和全景分割各有其独特的优势和应用场景,但在实际应用中,全景分割因其能够提供更完整的场景理解,逐渐成为研究和应用的热点方向。
技术 | 方法简介 | 关注点 |
语义分割 | 为图像中的每个像素分配特定类别标签。 | 关注“stuff”部分 |
实例分割 | 在图像中检测并区分不同的物体实例。 | 关注“things”部分 |
全景分割 | 结合语义分割和实例分割,为每个像素分配语义标签和实例标识符。 | 同时关注“things”和“stuff”部分 |
分割类型 | 评估指标 | 描述 |
语义分割 | 像素准确率(Pixel Accuracy) | 计算所有像素中被正确分类的比例 |
平均交并比(MIoU) | 衡量预测分割与真实标注之间的重叠程度,是语义分割的核心指标 | |
Dice 系数(Dice Coefficient) | 衡量预测和真实分割的相似度,类似于 IoU | |
召回率(Recall)和精确率(Precision) | 分别衡量模型对正样本的召回能力和预测正样本的准确性 | |
实例分割 | 平均精度均值(mAP) | 通过不同交并比(IoU)阈值下的平均精度来评估模型性能,是实例分割的核心指标 |
平均交并比(MIoU) | 衡量预测实例与真实实例之间的重叠程度 | |
目标级别的精确率和召回率 | 基于实例的 IoU 判断预测实例是否正确匹配真实实例 | |
全景分割 | 平均交并比(mIoU) | 用于评估语义分割部分的性能 |
平均精度均值(mAP) | 用于评估实例分割部分的性能 | |
全景质量(Panoptic Quality, PQ) | 综合考虑语义分割的准确性和实例分割的完整性,是全景分割特有的评估指标 |
这些指标各有侧重点,具体选择取决于任务需求和数据集特性。
MIoU 是一种常用的语义分割模型评价指标,它通过计算预测结果和真实标签的交集与并集之间的比值来衡量模型性能。MIoU 的计算公式为:
\[\mathrm{MIoU}=\frac1N\sum_{i=1}^N\frac{\mathrm{TP}_i}{\mathrm{TP}_i+\mathrm{FP}_i+\mathrm{FN}_i}\]其中 TP 表示真正例(True Positives),FP 表示假正例(False Positives),FN 表示假反例(False Negatives)。MIoU 能够综合考虑模型的像素级别预测准确度,对模型在处理不同类别、不同大小的目标时进行公平的评价。
IoU 指标即交并比,是语义分割中常用的标准度量。它衡量的是预测结果与真实标签之间的交集与并集之比。IoU 的计算公式为:
\[\mathrm{IoU}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}+\mathrm{FN}}\]准确率是指预测正确的样本数量占全部样本的百分比。然而,当数据类别分布不平衡时,准确率可能无法准确评价模型的好坏。因此,在语义分割任务中,准确率通常与其他指标结合使用。
查准率表示模型预测为正例的所有样本中,预测正确(真实标签为正)样本的占比。在语义分割中,查准率反映了模型对正样本的识别能力。
查全率表示所有真实标签为正的样本中,有多大百分比被模型预测出来。在语义分割任务中,查全率衡量了模型对正样本的覆盖程度。
F1-Score 是查准率和查全率的调和平均数,用于综合评估模型的性能。它的计算公式为:
\[\text{F1-Score}=2\cdot\frac{\text{Precision}\cdot\text{Recall}}{\text{Precision}+\text{Recall}}\]F1-Score 的优点在于它综合考虑了精确度和召回率,使得模型在不平衡分类问题中的性能评估更为准确。在语义分割任务中,F1-Score 能够帮助我们了解模型在各类别上的综合表现。
像素准确率是指模型预测正确的像素数量占总像素数量的比例。它是一个简单的指标,用于衡量模型在像素级别上的整体分类准确性。然而,像素准确率对类别不平衡的数据集不够敏感,因此通常与其他指标结合使用。
mAP(Mean Average Precision)是一种广泛用于目标检测和实例分割任务的评价指标,也适用于全景分割。它通过计算不同类别上的平均精度(AP),并取这些值的平均值得到。mAP 综合考虑了模型的精确度(Precision)和召回率(Recall),能够更全面地评估模型在不同类别上的性能。
全景质量(PQ)是专门为全景分割任务设计的评价指标,用于综合评估模型在处理“Things”(可数目标)和“Stuff”(不可数背景)时的性能。PQ 指标结合了分割质量(Segmentation Quality, SQ)和识别质量(Recognition Quality, RQ),并通过以下公式计算:
其中,SQ 衡量分割掩码的准确性,RQ 衡量实例识别的准确性。
PQ 指标还分为单类别 PQ 和多类别 PQ(mPQ)。在某些竞赛中,还会使用 mPQ+,即对所有图像和类别进行加权平均的 PQ,以避免因某些类别在某些图像中缺失而导致的统计偏差。
\[\mathrm{SQ}=\frac{\sum_{(g_k,p_l)\in\mathrm{TP}}\mathrm{IoU}(g_k,p_l)}{|\mathrm{TP}|}\]
- 分割质量(Segmentation Quality, SQ) SQ 衡量的是预测分割掩码与真实分割掩码之间的平均交并比(IoU)。具体来说,它反映了匹配成功的预测实例与真实实例之间的重叠程度。SQ 的计算公式为:
其中,$gk$表示真实实例, $p_l$ 表示预测实例,TP 表示真正例(True Positives),即预测与真实实例匹配成功的对。
\[\mathrm{RQ}=\frac{|\mathrm{TP}|}{|\mathrm{TP}|+\frac12|\mathrm{FP}|+\frac12|\mathrm{FP}|+\frac12|\mathrm{FN}|}\]
- 识别质量(Recognition Quality, RQ) RQ 衡量的是模型对目标实例的识别能力,类似于目标检测中的 F1 分数。它通过平衡精确率(Precision)和召回率(Recall)来评估模型对实例的识别效果。RQ 的计算公式为:
其中,FP 表示假正例(False Positives),FN 表示假反例(False Negatives)。
语义分割、实例分割和全景分割是深度学习在图像分割领域的三大重要技术。语义分割专注于像素级分类,能够识别图像中不同类别的物体,但无法区分同一类别中的不同实例,因此在某些场景中需要结合实例分割来进一步划分同类别的不同实例。实例分割则专注于目标实例的区分,能够将同一类别中的不同物体单独识别出来。全景分割则结合了语义分割和实例分割的优点,能够同时提供像素级分类和实例区分,从而实现更全面的场景理解。
希望这对你有帮助!
Related posts