小样本学习的核心目标是让机器学习模型在只看到极少数（例如，每个类别1-5个）样本的情况下，就能快速识别和学习一个新的类别或任务

星博讯 AI基础认知 2026-04-09 19

核心问题 与挑战

传统深度学习（如监督学习）之所以强大，是因为它依赖海量标注数据来“暴力拟合”复杂的函数，当数据量极少时，模型会面临两大根本挑战：

小样本学习的核心目标是让机器学习模型在只看到极少数（例如，每个类别1-5个）样本的情况下，就能快速识别和学习一个新的类别或任务-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

小样本学习的原理就是 “如何利用先验知识来弥补数据的极度匮乏”，这个“先验知识”不是凭空产生的，而是模型从一个包含大量类别和任务的大规模基础数据集（例如ImageNet、Omniglot）中学到的。

传统模型：直接学习从数据到标签的映射。小样本模型：学习一个“可快速适应”的模型框架，它分为两个阶段：

主要有三大技术路线：

核心思想：学一个好的特征空间（嵌入空间），在这个空间里，同类样本靠近，异类样本远离，预测时，只需比较新样本（查询集）与少数样本（支持集）在这个空间中的距离。

代表模型：孪生网络、匹配网络、原型网络、关系网络。
关键步骤：
1. 特征嵌入：使用一个神经网络（编码器）将所有样本（包括支持集和查询集）映射到一个低维特征空间。
2. 计算原型：对于每个新类别，计算其支持集样本在特征空间中的均值向量，作为该类别的“原型”。
3. 度量与分类：对于查询样本，计算它与每个类别原型的距离（如欧氏距离、余弦相似度），距离最近的类别即为预测结果。
原理类比：就像一个见过无数动物的人（模型），虽然没见过“柯基犬”（新类），但给他看几张柯基照片（支持集），他能立刻总结出“短腿、大耳朵、胖身子”是柯基的关键特征（原型），再看到一张新的狗狗照片（查询集），他能判断“这张照片的特征更接近我之前总结的柯基原型，而不是吉娃娃原型”。

核心思想：直接优化模型，使其能够通过极少的梯度更新步骤就适应新任务，即学习一个优秀的模型初始化参数，或学习一个快速优化器。

代表模型：MAML， Reptile。
关键步骤（以MAML为例）：
1. 元目标：目标是找到一组初始参数 θ，使得对于从任务分布中采样的任何一个新任务，从这个 θ 出发，只需一到几步的梯度下降，就能得到在该任务上表现很好的参数。
2. 元训练：
- 采样一个任务（如一个5-way 1-shot分类任务）。
- 用当前参数 θ 在任务的支持集上计算损失，并进行一步或多步梯度更新，得到针对该任务的适应后参数 θ‘。
- 关键：更新不是朝着 θ‘ 最优的方向，而是朝着使得 θ‘ 在查询集上损失最小的方向，即用查询集的损失对原始参数 θ 求梯度，并更新 θ。
1. 元测试：对于新任务，从训练好的优秀初始参数 θ* 开始，用其支持集进行几步梯度更新，得到适应新任务的模型，然后对查询集进行预测。
原理类比：就像一个掌握多种解题“通法”（初始参数θ）的学霸，遇到一道从没见过的题型（新任务），他先看几道例题（支持集），用“通法”稍作调整（几步梯度更新），就能形成针对这道题的解法（θ‘），并成功解出测试题（查询集）。

核心思想：既然数据少是根本问题，那就“无中生有”或约束模型不要过拟合。

核心思想：将知识存储在外部记忆模块中，或通过设计好的文本提示，唤醒预训练大模型（如CLIP）中已存在的知识。

外部记忆：模型有一个可读写的记忆库，在基础训练阶段将经验存储起来，遇到新任务时，根据少数样本去检索和读取相关记忆来帮助预测。
提示学习：对于视觉-语言大模型（如“图像-文本”对训练的CLIP），新类别可能没有图像样本，但我们可以设计其文本名称（如“一张柯基犬的照片”）作为提示，模型通过对比图像特征和文本特征，实现零样本或小样本分类，提供少数样本可以进一步校准文本提示。

假设一个 5-way 1-shot 任务（识别5个新类，每类只给1个样本）：

输入：
- 支持集：5张图，每类1张。
- 查询集：一些需要分类的新图。
过程：
- 模型调用在基础数据集中学到的“先验知识”（一个好的特征提取器、一个优秀的初始点、或一个相似度度量标准）。
- 基于支持集的少数样本,模型快速构建一个针对这5个新类的分类器（如计算5个原型、微调最后一层、或调整注意力）。
输出：对查询集的图像进行分类。

优点：模仿了人类快速学习的能力，降低了对海量标注数据的依赖，适用于数据稀缺或获取成本高的领域（医疗、故障检测、个性化推荐）。
局限性：
- 严重依赖基础数据集的质量和广度,如果新任务与基础任务差异巨大（域差异），性能会急剧下降。
- K（shot数）非常小（如1）时，性能仍不稳定。
- 评估协议和基准仍在发展中,与实际复杂应用场景有差距。