一、什么是高维数据？

星博讯 AI基础认知 2026-04-09 48

高维数据是指每个数据点（或样本）由大量特征（或属性、变量）来描述的数据集。

一、什么是高维数据？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

维度 = 特征的数量。
“高” 通常没有一个绝对的阈值，但当特征数量多到开始出现一些反直觉的数学和计算特性时（> 10 或 20），我们就可以称之为高维数据。
常见例子：
- 一张图片：一张 100x100 像素的灰度图，可以展开成一个有 10,000 个特征（每个像素的亮度值）的数据点。
- 一篇文档：在“词袋”模型中，词汇表有 10,000 个词，那么每篇文档就可以表示为一个 10,000 维的向量（每个维度是该词出现的频率或TF-Idf值）。
- 基因表达数据：一个样本可能测量了 20,000 个基因的表达水平，这就是一个 20,000 维的数据点。
- 用户画像：用户的年龄、性别、成百上千个浏览记录、购买记录、点击行为等，共同构成一个高维向量。

高维数据的核心挑战：“维度灾难”

这是理解高维数据的核心概念,随着维度增加，数据空间会发生一些根本性的、反直觉的变化。

数据极度稀疏：
- 想象一个 10x10 的网格（100个单元格）放在一个单位正方形里，如果均匀撒100个点，每个格子大概有一个点。
- 在一个 100 维的单位“超立方体”中，要同样“稠密”地填充空间，你需要 10^100 个点！这是天文数字。
- 在任何有限的数据集下,高维空间几乎是空空如也的，数据点彼此相距非常遥远，导致许多基于“邻近性”的算法（如KNN）失效。
距离度量失效：
- 在高维空间中,任意两点间的欧氏距离会趋于相似。
- 研究发现,从某个点到其最近邻居的距离，和到其最远邻居的距离的比值会趋近于1，也就是说，“和“最远”区别不大了。
- 后果：基于距离的聚类、分类、异常检测变得异常困难。
过拟合风险剧增：
- 特征数量远大于样本数量时,模型有无限多种方式来完美拟合你的训练数据（包括噪声），但在未见过的数据上表现会极差。
- 这就像用一把有1000个旋钮的锁,去锁一扇门，你总能调出刚好打开这扇门的密码，但换一扇门就完全打不开了。
可视化几乎不可能：

人类很难直观理解三维以上的空间,如何将成百上千个维度信息压缩到2D/3D屏幕上，并保持其结构，本身就是一大挑战（这正是“降维”技术的用武之地）。

目标是在尽可能保留原始数据重要信息（如方差、结构）的前提下，将数据投影到低维空间。

线性降维：
- 主成分分析：最经典的方法，找到数据方差最大的几个互相垂直的新方向（主成分），用它们来代表数据，擅长处理线性关系。
- 线性判别分析：在降维时，同时考虑让不同类别的数据尽可能分开。
非线性降维：
- t-SNE：擅长在低维空间保持高维数据的局部结构，常用于可视化聚类效果。
- UMAP：比t-SNE更快，既能保持局部也能一定程度上保持全局结构。
- 自编码器：一种神经网络，通过“编码器”压缩数据，再通过“解码器”重构，学习到数据的紧凑表示。