主要分类
-

-
闲聊系统
- 目标:开放领域对话,提供情感陪伴或娱乐。
- 特点:无需执行任务,侧重语言流畅性和趣味性。
- 示例:微软小冰、Replika。
-
- 目标:融合文本、语音、图像等多模态输入/输出。
- 示例:车载助手(结合语音和视觉)。
基本架构(以任务型为例)
关键技术
- NLU模型:传统方法(SVM、CRF) → 深度学习(RNN、Transformer)。
- 状态跟踪:常用框架如BERT-DST、TRADE。
- 策略学习:强化学习与用户模拟器结合训练。
- 端到端系统:基于大模型(如GPT-4)直接生成回复,简化流水线。
评估方法
主要挑战
- 上下文理解:处理指代、省略(如“它”、“那个”)。
- 个性化与一致性:保持人设、记忆历史偏好。
- 知识整合:动态接入外部知识(如数据库、网页)。
- 低资源场景:小数据下有效学习。
- 安全与伦理:避免偏见、有害内容生成。
未来方向
- 大模型驱动:GPT、ChatGPT等提升对话能力。
- 多模态融合:结合视觉、语音实现更自然交互。
- 情感智能:识别并适应用户情绪。
- 持续学习:在线适应新领域、新用户。
- 人机协作:系统作为助手与人类共同完成任务。
学习资源
- 经典教材:《Speech and Language Processing》(Jurafsky & Martin)。
- 开源工具:Rasa(任务型)、Hugging Face Transformers(生成式)。
- 数据集:MultiWOZ(任务型)、DAIlyDialog(闲聊)。
希望这份梳理能帮助您快速入门,如需深入某个方向,可进一步探讨!
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。