基本定义
图像分割是指根据图像的特征相似性(如颜色、纹理、灰度、形状等)将图像划分为若干个互不重叠的区域,使每个区域内部特征一致,而不同区域间特征差异明显。

核心目标
主要分割类型
语义分割(Semantic Segmentation)
- 为每个像素分配一个类别标签(如人、车、树),不区分同一类别的不同实例。
- 示例:街景图中所有“汽车”像素被标记为同一类别。
实例分割(Instance Segmentation)
全景分割(Panoptic Segmentation)
- 结合语义分割与实例分割,同时识别可数对象(如车辆)和不可数区域(如天空、道路)。
传统分割方法
基于阈值的分割
- 根据像素灰度值设置阈值,将图像分为前景和背景。
- 缺点:对噪声敏感,适用于简单场景。
基于边缘的分割
- 检测图像中灰度/颜色突变的边界(如Canny、Sobel算子)。
- 缺点:边缘不连续时难以形成闭合区域。
基于区域的分割
- 区域生长:从种子点出发合并相似像素。
- 分裂合并:递归分裂图像再合并相似区域。
基于聚类的分割
- 将像素特征(颜色、位置)聚类成区域,如K-means、Mean-Shift。
- 示例:将颜色相似的像素归为一类。
基于图论的分割
深度学习分割方法
全卷积网络(FCN,2015)
- 首次用卷积层替换全连接层,实现端到端的像素级预测。
- 通过反卷积层上采样恢复空间分辨率。
U-Net(2015)
SegNet(2015)
- 编码器使用池化索引,解码器根据索引进行上采样,减少参数。
DeepLab系列
- 空洞卷积:扩大感受野而不增加参数。
- ASPP:多尺度空洞卷积捕获上下文信息。
- CRF后处理:优化边界细节。
Mask R-CNN(2017)
- 在Faster R-CNN基础上增加分割分支,实现实例分割。
Transformer分割模型
- ViT:将图像分块输入Transformer进行全局建模。
- Swin Transformer:引入层次化结构和滑动窗口,提升效率。
关键评价指标
- 像素精度:正确分类像素比例。
- 平均像素精度:每类精度平均值。
- 平均交并比:预测区域与真实区域交集与并集之比。
- Dice系数:衡量重叠度,常用于医学图像。
应用领域
- 医学影像:肿瘤分割、器官定位。
- 自动驾驶:道路、行人、车辆分割。
- 遥感图像:地物分类、变化检测。
- 工业检测:缺陷识别。
- 增强现实:背景替换、虚拟道具添加。
当前挑战
学习建议
- 基础理论:掌握数字图像处理、卷积神经网络原理。
- 代码实践:从U-Net、DeepLab等经典模型复现开始。
- 数据集:尝试PASCAL VOC、COCO、Cityscapes等公开数据集。
- 工具框架:熟悉PyTorch、TensorFlow及MMSegmentation等开源库。
图像分割技术正从单一模态向多模态融合(如RGB-D图像、文本引导分割)发展,结合自监督学习与大模型(如SAM分割基础模型)的方法成为新趋势。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。