AI基础认知 特征缩放基础 特征缩放是机器学习数据预处理中的关键步骤,用于将不同特征的数值范围调整到相似的尺度,以提高模型性能和训练效率,为什么要进行特征缩放?主要目的:加速收敛:梯度下降等优化算法在特征尺度相近时收敛更快避免数... 星博讯 2026-04-09 23 #特征缩放 #标准化
AI基础认知 示例数据 一句话核心定义独热编码是一种将分类数据(特别是名义分类数据)转换为数值格式的方法,以便计算机和机器学习算法能够处理,它的核心是为每个类别创建一个新的二进制特征(列),对于每个样本,只有属于该类别对应的... 星博讯 2026-04-09 31 #示例 #数据
AI基础认知 什么是标签编码? 标签编码是一种将分类特征(或称类别特征)转换为数值形式的预处理技术,它的核心操作很简单:为每一个唯一的类别分配一个唯一的整数,原始类别数据: ["北京", "上海", "广州", "深圳", "上海"... 星博讯 2026-04-09 21 #标签编码 #概念
AI基础认知 序列编码是将序列数据(如文本、时间序列等)转换为数值形式的过程,以便机器学习模型能够处理。下面介绍其基础概念、常用方法及应用 为什么需要序列编码?机器学习模型通常输入数值向量,但原始序列(尤其是文本)是符号化的(如单词、字符),序列编码旨在将这些符号映射为数值表示,同时尽可能保留语义和结构信息,常见编码方法1 独热编码(On... 星博讯 2026-04-09 34 #序列编码 #机器学习
AI基础认知 一句话核心定义 词嵌入是一种将文本中的词(或短语)转换为计算机可以处理的稠密、低维数值向量的技术,这个向量能够捕捉词的语义和语法信息,为什么要词嵌入?—— 从问题出发在计算机看来,文字只是一串符号,为了让计算机“理解... 星博讯 2026-04-09 40 #核心 #定义
AI基础认知 下面我将为你系统地梳理关于句向量的基础认知 核心定义与类比句向量 指的是将一个句子(无论长短)通过某种模型或算法,映射成一个固定长度、稠密的实数向量(即一列数字,[0.23, -0.45, 1.2, ..., 0.89],维度通常是几百到几千)... 星博讯 2026-04-09 20 #句向量基础 #语义表示
AI基础认知 一、核心定义 数据噪声 是指在数据收集、传输或记录过程中,混入的非本质的、随机的、无意义的扰动或误差,它不是数据所代表的真实信号或模式的一部分,而是会干扰、模糊甚至扭曲真实信息的一种“杂质”,一个核心的比喻是:信号... 星博讯 2026-04-09 22 #核心 #定义
AI基础认知 一、是什么?重新定义异常值 异常值不是“错误值”,它是一个“不寻常的值”,其定义高度依赖于业务背景和建模目标,统计定义:在数据分布中,远离其他大部分数据的观测点,常用识别方法有:标准差法:平均值 ± 3倍标准差之外的数据,四分位... 星博讯 2026-04-09 20 #异常值 #重新定义
AI基础认知 假设 df 是你的DataFrame 这是一份清晰的缺失值填充基础指南,涵盖了核心概念、常用方法和实践流程, 为什么要处理缺失值?算法限制:大多数机器学习算法和统计模型(如逻辑回归、SVM、神经网络)无法直接处理包含缺失值的数据,会直接报... 星博讯 2026-04-09 21 #df #DataFrame
AI基础认知 数据标准化是一个多维度概念,核心目标是将数据转化为统一、可比、规范的格式,以提升数据质量、可用性和分析效率。主要分为以下两个层面 统计与机器学习中的数值标准化(核心方法)这是最常用的含义,指通过数学变换消除数据量纲和数量级差异,使不同特征具有可比性,常见方法:Z-Score标准化公式:(x - μ / σ结果:数据均值为0,标... 星博讯 2026-04-09 24 #数据标准化 #数据质量