一、核心概念，什么是情绪？

星博讯 AI基础认知 2026-04-09 56

在进行识别之前,首先要理解情绪是什么，学术界主要有两种模型：

一、核心概念，什么是情绪？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

离散情绪理论：
- 认为存在几种基本的、普适的、跨文化的情感。
- 艾克曼的六种基本情绪：快乐、悲伤、愤怒、恐惧、厌恶、惊讶，这是目前大多数计算模型的基础。
- 优点：简单直观，易于分类。
维度情绪理论：
- 认为情绪可以由几个连续的维度空间来描述。
- 常见的二维模型：
  - 效价：从负面（不愉快）到正面（愉快）。
  - 唤醒度：从平静（低能量）到兴奋（高能量）。
- 有时会加入第三个维度支配感（从被控制到掌控）。
- 优点：能描述更复杂、微妙的情感状态。

情绪识别的信号来源（多模态）

情绪会通过多种渠道表达出来,因此识别也对应不同的数据模态：

文本模态：
- 分析对象：书面文字、对话记录、社交媒体帖子。
- 线索：词汇选择、表情符号、标点符号、句法结构、主题。
- 技术：情感词典、机器学习（如SVM）、深度学习（如LSTM, Transformer/BERT）。
语音模态：
- 分析对象：语音的声学特征。
- 线索：
  - 韵律特征：音高（语调）、音强（响度）、语速、停顿。
  - 音质特征：声音的颤抖、呼吸声、频谱特征。
- 技术：提取MFCC、韵律特征，使用CNN、RNN等模型进行分类。
视觉模态（面部表情）：
- 分析对象：人脸图像或视频。
- 线索：面部动作单元（如挑眉、皱眉、嘴角上扬）。
- 技术：
  - 传统方法：基于特征点（如眼睛、嘴巴的位置变化）。
  - 深度学习方法：使用CNN直接对图像进行端到端学习。
- 重要标准：面部动作编码系统（FACS），将面部肌肉运动分解为“动作单元”，是科学分析面部表情的黄金标准。
生理信号模态：
- 分析对象：身体直接产生的电信号或物理信号。
- 线索：
  - 脑电图：大脑电活动。
  - 心电图/心率：心跳节奏和变化。
  - 皮电反应：皮肤导电性（与唤醒度密切相关）。
  - 肌电图：肌肉电活动。
  - 呼吸：呼吸频率和深度。
- 优点：难以主观掩饰，更能反映真实情绪。
- 缺点：需要佩戴设备，侵入性强，不便于日常应用。

核心技术 流程

无论基于哪种模态,情绪识别系统通常遵循以下流程：

数据收集与标注：
- 收集带有情感标签的数据集（如“快乐”的语音、“愤怒”的文本）。
- 标注是最大挑战之一,需通过多人标注、专家标注来提高信度。
预处理：
- 文本：分词、去除停用词、词干提取。
- 语音：降噪、分帧、归一化。
- 视觉：人脸检测与对齐、归一化、数据增强。
- 生理信号：滤波去噪、分段。
特征提取：
- 从原始数据中提取与情绪相关的代表性特征。
- 这是传统方法的核心,深度学习可以自动学习特征。
模型训练与分类/回归：
- 分类：如果是离散情绪，则训练分类器（如SVM，随机森林，神经网络）将输入归到某一情绪类别。
- 回归：如果是维度情绪，则训练模型预测效价和唤醒度的连续值。
融合与决策（针对多模态系统）：
- 早期融合：在特征层面将不同模态的特征拼接，再输入模型。
- 晚期融合：每个模态单独训练模型，最后在决策层面（如概率）进行融合。
- 混合融合：结合以上两种方式的优点。

主要应用场景

人机交互：让机器人、虚拟助手更贴心。
智能客服：实时识别客户情绪，及时升级服务或安抚。
心理健康：辅助抑郁症、焦虑症等疾病的筛查和干预。
教育科技：分析学生在线上课时的专注度和困惑感。
市场研究：测试用户对广告、产品的即时情感反应。
内容推荐：根据用户当前情绪推荐音乐、电影等。
安防与驾驶：监测司机的疲劳、愤怒状态，及时预警。

关键挑战与伦理考量

挑战：
- 标注主观性：情绪是主观体验，标注不一致。
- 文化差异：表情和情感表达规则因文化而异。
- 个体差异：不同人表达情绪的方式不同。
- 情境依赖性：脱离语境容易误判（流泪可能是喜悦或悲伤）。
- 掩饰与伪装：人们可能隐藏真实情绪。
伦理考量：
- 隐私侵犯：无感、持续的情绪监测可能严重侵犯个人隐私。
- 滥用风险：用于审讯、雇佣歧视、政治操纵等。
- 准确性偏见：模型在不同种族、性别群体上性能不均，可能导致系统性的不公。
- 决定论风险：技术可能被用来“定义”一个人的情绪，忽视了情绪的复杂性和流动性。
- 知情同意：用户往往不知道自己的情绪正在被分析和利用。