AI基础认知 多轮对话是指人与机器之间进行连续、有上下文的交互过程,与单轮问答(一次提问一次回答)不同,它需要系统理解历史对话内容,并基于上下文给出连贯的回应。以下是其基本认知要点 核心特点上下文感知:能记住之前的对话内容(如用户偏好、已提及信息),避免重复提问或矛盾回答,状态维持:对话有“状态”(如购物流程中的订单信息),系统需跟踪状态变化,目标导向:多轮对话通常有明确目标(如... 星博讯 2026-04-09 18 #多轮对话 #上下文理解
AI基础认知 一、什么是图像分类? 图像分类是计算机视觉中最基础、最核心的任务之一,其目标是:给一张输入图像,分配一个预先定义好的类别标签,输入:一张图像(一张图片文件),输出:一个或多个类别标签(“猫”、“狗”、“汽车”),通常还会附... 星博讯 2026-04-09 17 #图像分类
AI基础认知 一、核心定义与目标 目标检测 的任务是:识别出图像中有什么物体(分类问题),定位出每个物体在图像中的具体位置(回归问题),输出通常是一个列表,每个物体包含:边界框:一个矩形框,常用 (x_min, y_min, x_ma... 星博讯 2026-04-09 18 #核心定义 #目标
AI基础认知 图像分割是计算机视觉中的核心任务,旨在将图像划分为多个具有特定意义的区域或对象。以下是其基础原理的详细解析 基本定义图像分割是指根据图像的特征相似性(如颜色、纹理、灰度、形状等)将图像划分为若干个互不重叠的区域,使每个区域内部特征一致,而不同区域间特征差异明显,核心目标定位与识别:确定每个对象在图像中的位置... 星博讯 2026-04-09 16 #图像分割 #计算机视觉
AI基础认知 一、人脸识别基本概念 人脸识别 是指利用计算机视觉和生物特征识别技术,从图像或视频中自动检测、定位、分析和识别人脸的过程,它通常包含三个层次的任务:人脸检测:判断图像中是否有人脸,并确定其位置(输出边框),人脸对齐/配准:... 星博讯 2026-04-09 19 #基本概念
AI基础认知 一、核心定义 行为识别 是指从一段视频序列中自动识别、分类出其中主体(通常是人,也可以是物体或动物)正在执行的动作或行为的过程,动作 vs. 行为:在学术和工业界,这两个词有时混用,但可以稍作区分:动作:相对简单、... 星博讯 2026-04-09 16 #核心 #定义
AI基础认知 一、什么是姿态估计? 核心定义:姿态估计是指从图像或视频中自动检测并定位人体(或物体)关键部位(如关节、面部特征点)的技术,进而推断出其身体各部分在空间中的几何构型,就是让计算机“看懂”图中人或物体的姿势, 主要任务类型姿... 星博讯 2026-04-09 18 #关键点检测 #姿态重建
AI基础认知 1.眼睛看到页面 计算机获取图像 找到文字区域 -> 计算机文字检测,认出每个字 -> 计算机文字识别,理解句子意思 -> 计算机后处理与纠错,现代OCR技术,尤其是深度学习兴起之后,已经变得高度自动化且准确,其核心... 星博讯 2026-04-09 16 #视觉感知 #图像获取
AI基础认知 这是一份全面的文档分析基础知识指南 核心定义与目标文档: 不仅仅是文本文档(如.txt, .docx),还包括PDF、演示文稿、电子邮件、网页、扫描图像、表格、合同、研究报告等任何承载信息的载体,文档分析: 指对文档内容进行系统性的检查... 星博讯 2026-04-09 17 #文档分析 #基础知识
AI基础认知 你可以把视频理解看作是图像理解在时间维度上的扩展和深化 核心定义与挑战基本定义: 视频理解是指利用计算机视觉、模式识别和机器学习技术,自动分析视频数据,以识别其中的物体、场景、动作、事件及其相互关系,并最终生成对视频内容的高层次语义描述,与图像识别的核心区... 星博讯 2026-04-09 15 #视频理解 #时间维度