少样本学习是机器学习的一个子领域,其目标是让模型在仅使用极少量标注样本(每个类别只有1-5个样本)的情况下,就能学习到一个有效的分类或回归模型。

- 核心矛盾:现代深度学习模型(如深度神经网络)通常是“数据饥渴”的,需要大量标注数据才能避免过拟合、学到泛化能力,少样本学习旨在解决标注数据稀缺、获取成本高昂的现实问题。
- 类比:就像人类看到一种新动物(鸭嘴兽”)的几张照片后,就能在野外认出它,FSL希望AI具备类似的快速学习能力。
- 相关概念区分:
关键方法
少样本学习的实现策略主要分为以下几类:
基于度量的方法
核心思想:学习一个优质的嵌入空间,在这个空间里,同类样本彼此靠近,异类样本彼此远离,预测时,计算新样本(查询集)与少量支持集样本之间的距离,进行最近邻分类。
- 经典模型:
基于优化的方法(元学习的核心)
核心思想:让模型学会快速适应,在“元训练”阶段,模型不是在学一个具体的分类任务,而是在学习一个良好的模型初始参数,或者一个高效的优化算法,使得在面对新任务时,只需几步梯度更新就能达到好性能。
- 经典模型:
基于模型的方法
核心思想:设计一个能够内部存储或快速参数化的模型架构。
- 经典思路:
- 记忆增强网络:引入外部记忆模块(如神经图灵机),存储和快速读取过去经验的表征。
- 快速参数化:设计一个网络(如超网络),能够根据少量支持集样本,动态生成目标任务模型的权重。
基于数据增强与正则化的方法
核心思想:在数据或特征层面“创造”更多的多样性,以缓解过拟合。
基于预训练与微调的方法
核心思想:这是当前(尤其是大语言模型时代)最强大、最实用的范式,它分两步:
- 大规模预训练:在海量的无标签或通用有标签数据上,训练一个基础模型(如ResNet、ViT、BERT、GPT),这个模型学到了非常通用和丰富的世界知识和特征表示。
- 小样本适应:将预训练模型应用到下游少样本任务。
- 线性探测:冻结预训练模型的所有参数,只训练新添加的一个线性分类器头部,简单有效,是强基线。
- 提示微调:尤其对于大语言模型/VLM,设计合适的文本提示,引导模型输出所需答案,将图像和“这是一张{猫/狗}的照片”的提示输入CLIP模型。
- 适配器微调:在预训练模型中插入少量可训练的“适配器”模块,而冻结绝大部分原始参数,高效且避免灾难性遗忘。
应用场景
少样本学习在数据获取困难或类别繁多的领域极具价值:
主要挑战与未来方向
- 领域差距:如果少样本目标任务与元训练/预训练数据的领域差异过大,性能会急剧下降,如何实现跨域少样本学习是关键。
- 任务复杂性:目前FSL在相对简单的图像分类上很成功,但对于更复杂的任务(如检测、分割、推理),挑战更大。
- 理论理解:对元学习为何有效的理论解释尚不充分。
- 与基线的比较:一个强大的“预训练模型 + 简单线性探测”基线常常很难被超越,这使得新方法的创新和评估需要更加严谨。
- 未来方向:
少样本学习是让AI迈向“通用人工智能”和“高效学习”的关键一步,其核心范式已经从早期的纯元学习,演变为今天的 “大规模预训练 + 高效微调/提示”,预训练模型提供了一个丰富的先验知识库,而少样本学习技术则为我们提供了从这座知识宝库中快速、精准地提取所需信息的“钥匙”。