一句话核心

星博讯 AI基础认知 2026-04-09 48

零样本学习 是指让机器学习模型能够识别或处理它在训练阶段从未见过的类别或任务。

一句话核心-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

这与我们人类的学习能力类似，一个从未见过“斑马”的孩子，如果被告知“它是一种有黑白条纹、像马的动物”，那么当他在动物园第一次看到斑马时,很有可能就能认出来。

为什么需要零样本学习？

传统的监督学习有一个根本性局限：它只能识别训练数据中出现的类别，要增加新类别，就必须重新收集、标注数据并重新训练模型，这在现实世界中成本高昂且不灵活,尤其是在以下场景：

类别数量庞大或动态增长：如识别所有动植物物种、互联网上的新商品、层出不穷的新概念。
数据难以获取或标注：如医疗罕见病图像、工业故障检测、某些语言翻译对。
需要快速适应新任务：如对话系统理解新指令、机器人执行新命令。

ZSL的目标就是让模型具备这种泛化到未知的能力。

关键思想与实现原理

ZSL的核心在于利用先验知识或语义描述，在“所见类别”和“未见类别”之间建立桥梁。

两个空间：
- 视觉/特征空间：模型从图像、文本等原始数据中提取的特征（通过CNN提取的图像特征向量）。
- 语义/属性空间：用于描述类别的中间信息，这是连接“已知”与“未知”的关键桥梁。
语义/属性空间的形式：
- 人工定义属性：对于动物类别，可以定义“有皮毛”、“有尾巴”、“是肉食的”、“体型大”、“生活在水中”等二元或连续属性,每个类别都可以用一个属性向量表示。
- 词向量：使用像Word2Vec、GloVe或BERT等语言模型，将类别的名称或文本描述转换为语义向量，在向量空间中，语义相近的类别（如“猫”和“老虎”）距离也更近。
- 知识图谱嵌入：利用像Wikipedia或专业知识图谱的结构化信息,将类别嵌入到关系图谱中。
核心方法：模型在训练阶段学习一个映射函数，这个函数能将视觉特征映射到语义空间,或者反过来。
- 训练：使用大量“可见类”数据，学习如何将图像特征与其对应的类别语义向量（如属性向量或词向量）关联起来。
- 预测（推理）：
  1. 当出现一个“未见类”的样本时,模型首先提取其视觉特征。
  2. 然后将该视觉特征映射到语义空间,得到一个预测的语义向量。
  3. 在所有类别（包括未见类） 的语义向量集合中，寻找与预测语义向量最接近的那个，这个最接近的语义向量所对应的类别,就是模型的预测结果。

简单比喻：

想象一个学语言的学生。

传统监督学习：只教了“苹果 - apple”、“香蕉 - banana”，遇到“橘子”就不认识。

零样本学习：教了“苹果 - 一种圆形、红色的水果”，“香蕉 - 一种长条形、黄色的水果”，然后给学生看“橘子”（未见过的类别），并问“这是什么水果？”，学生通过观察“圆形、橙色的水果”这个特征，映射到“水果的属性空间”，推断出它最接近“橘子”的描述，从而猜出这是“橘子”。