利用无标签数据中蕴含的数据分布、结构信息,来辅助和提升仅用少量有标签数据训练出的模型性能。

一个生动的比喻
想象你要学习识别不同品种的狗:
- 监督学习:你有一本带详细图片和名称的《世界名犬图鉴》(全部有标签),你通过反复看这些标注好的图片来学习。
- 无监督学习:你被扔进一个满是狗的大公园,没人告诉你它们叫什么,你只能自己观察,发现有些狗长得像,可以分成几堆(聚类),但你不知道每一堆具体是什么品种。
- 半监督学习:你只有一本很薄的《常见犬种介绍》(少量有标签),但同时你可以随时去那个满是狗的大公园观察(大量无标签),你可以先通过图鉴认识几种基础特征,然后去公园里观察无数只狗,发现“哦,原来具有这种毛色、体型的狗有这么多,它们很可能属于同一个品种”,公园里大量的观察(无标签数据)帮助你更好地理解和泛化了从薄图鉴里学到的知识。
为什么需要半监督学习?
- 现实世界的常态:在绝大多数实际应用中(如网页分类、图像识别、医疗影像分析),获取大量有标签数据的成本极其高昂(需要专家人工标注,耗时耗力),而无标签数据却很容易大量获取(互联网上的图片、文本、传感器数据等)。
- 性价比高:它试图用相对低廉的成本(少量标注)结合丰富的未标注信息,达到接近全监督学习的性能,是一种非常实用的技术路线。
- 利用数据的内在结构:无标签数据中蕴含着关于数据总体分布、流形结构、类别边界等重要信息,半监督学习通过利用这些信息,可以学习到更健壮、泛化能力更强的模型。
核心假设
半监督学习之所以有效,通常基于以下一个或几个基本假设:
- 平滑性假设:在特征空间中距离相近的样本,其标签很可能相同。
- 聚类假设:数据会形成天然的簇(cluster),同一个簇内的样本更可能共享相同的标签,这意味着决策边界应该穿过低密度区域,而不是高密度区域。
- 流形假设:高维数据实际上分布在一个低维的流形上,在这个低维结构上,相似性更容易定义和判断。
主要方法分类
半监督学习方法多种多样,主要可以分为以下几类:
-
自训练
-
协同训练
- 流程:假设数据可以从两个不同的“视角”描述,训练两个不同的模型,每个模型基于自己的视角对有标签数据进行学习,然后分别挑选各自预测置信度高的无标签样本交给对方模型作为新的训练数据。
- 特点:要求数据具有多视角特征,两个模型可以互相提供信息。
-
基于图的方法
- 流程:将所有数据(有标签和无标签)构建成一个图,节点是样本,边的权重表示样本间的相似度,标签信息通过图上的边在节点间传播(类似“物以类聚,人以群分”)。
- 特点:直观,但对图的质量和计算量敏感。
-
一致性正则化
-
生成式方法
应用场景
- 图像分类与识别:拥有少量标注图片,但可以从网上爬取海量未标注图片。
- 自然语言处理:文本分类、情感分析,标注大量文本费时费力,但未标注语料库很容易获得。
- 语音识别:标注音频转录文本成本高,但原始音频数据丰富。
- 生物信息学与医疗影像:专家标注医学影像(如肿瘤区域)非常昂贵,但医院存有大量未标注的影像数据。
- 分类:互联网上有近乎无限的未分类网页。
优势与挑战
优势:
挑战:
- 其有效性严重依赖于上述的“假设”在真实数据上是否成立,如果假设不成立,性能可能不如纯监督学习。
- 方法复杂多样,需要根据具体任务和数据特性选择合适的方法。
- 对于自训练等方法,存在错误累积和确认偏差的风险。
半监督学习是一种巧妙利用“免费”无标签数据来增强模型性能的实用范式,是连接数据稀缺现实与高性能模型需求之间的重要桥梁。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。