我们可以将其分解为以下几个核心层次来理解

星博讯 AI基础认知 2026-04-09 45

从感知到行动的闭环

智能决策不是一个静态动作，而是一个动态循环系统，通常遵循 “感知 -> 建模 -> 推理 -> 决策 -> 行动 -> 反馈” 的闭环。

我们可以将其分解为以下几个核心层次来理解-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

感知：收集内部状态和外部环境的信息与数据。
建模：将问题抽象为可计算的模型（状态、行动、目标、约束、不确定性）。
推理/优化：基于模型和当前信息,计算或推演出不同行动的可能后果。
决策：根据推理结果,选择当前最优或最满意的行动方案。
行动：执行决策。
反馈：观察行动带来的结果和新状态,用于更新模型和后续决策。

三大支柱

智能决策系统的构建依赖于三大支柱：

问题建模与表示
- 这是将现实世界模糊、复杂的问题转化为计算机可以处理的形式的关键一步。
- 核心要素：
  - 状态：描述系统在某一时刻的情况（如棋盘上的棋子位置、库存量）。
  - 行动：在某个状态下可以采取的操作（如移动棋子、下订单）。
  - 转移模型：采取行动后，状态如何变化（确定性或概率性）。
  - 奖励/效用函数：定量评价状态或行动好坏的标尺（如获胜得1分，失败得-1分，平局得0分）。
  - 目标：最大化累计奖励或最终效用。
- 常用模型：决策树、影响图、马尔可夫决策过程、博弈论模型等。
算法与求解技术
- 根据模型的类型和规模,采用不同的算法进行求解。
- 经典优化与搜索：
  - 数学规划：线性/非线性规划，整数规划，适用于有明确数学表达式和约束的静态优化问题（如资源分配、排产）。
  - 组合优化与搜索算法：动态规划、分支定界、启发式搜索（A*），适用于离散空间的最优路径、调度等问题。
- 不确定性下的决策：
  - 贝叶斯网络与概率推理：基于概率图模型处理不确定信息和因果关系,进行风险评估和诊断。
  - 随机规划/鲁棒优化：考虑参数的不确定性,寻求平均最优或最坏情况下表现最好的方案。
- 序贯决策与交互：
  - 强化学习：这是现代智能决策的核心范式，智能体通过与环境的试错交互，学习一个“策略”（从状态到行动的映射），以最大化长期回报，它特别适用于模型未知或过于复杂的动态环境（如游戏AI、机器人控制）。
  - 博弈论：研究多个理性决策者之间交互的数学模型，用于竞争或合作场景（如定价策略、自动驾驶车辆博弈）。
- 数据驱动与学习：
  - 监督学习：用于学习预测模型（如需求预测、故障预测）,为决策提供输入。
  - 模仿学习：通过观察专家行为（人类示范）来学习决策策略。
数据与知识
- 数据和知识是驱动决策的燃料和规则。
- 数据：历史数据、实时传感器数据、交互数据，用于学习模型参数、训练学习算法、进行仿真验证。
- 知识：领域专家的规则、常识、物理定律，可以嵌入到模型或约束中，使决策更合理、可解释、更高效（减少搜索空间）。