1.2.3 任务环境_智能无线机器人：人工智能算法与应用-QQ阅读中文轻小说网

上QQ阅读APP看书，第一时间看更新

1.2.3　任务环境

智能体要采取正确的动作，与传感器对环境状态的检测有关。如果传感器可以检测到与选择动作相关的所有方面，那么任务环境是有效的完全可观测的（fully observable），相关性依赖于性能度量。完全可观察环境的优点意味着在学习和决策过程中，不需要智能体来保持环境的内部状态。然而，由于环境中的目标过程可能是隐含的，或者传感器有噪声或不准确，因此环境是部分可观测的。在某些情况下，环境可能是不可观测的，但仍然有可能实现智能体的目标。

在一系列独立事件组成的任务环境中，智能体的体验由独立事件原子组成。在每一个事件中，智能体接收感知，然后执行动作。至关重要的是，下一事件并不取决于前一事件中所采取的动作。例如，装配线上的机器人以偶发的方式工作。然而，在连续环境中，当前的决策可能会影响未来的决策。例如，国际象棋智能体在连续环境中下棋。在这两种情况下，短期动作都可能产生长期后果。智能体在独立事件或实例中的决策集合称为它的策略。

为了使智能体能够制订智能动作并有效地进行计算，引入了状态空间的概念。状态中的信息允许对动作有用的预测描述。一个适当的动作可以通过搜索整个状态空间来获得，或者通过下述假设下的任何计算有效的方法来达到类似的目的：

●智能体对状态空间有完全的了解，并且有观察状态的计划（即完全可观测性）。

●智能体知道动作的后果。

●存在对智能体的性能度量，以确定一个状态是否满足其目标。

解或解决方案是一个动作序列，这些动作允许智能体从当前状态到达满足其目标的状态。

例：假设一个送货机器人将包裹从ENB 118房间送到目的地ENB 245房间。当前和启动（或初始）状态是ENB 118，ENB 245是其完成任务时的状态。状态sn可以被定义为ENB楼中某个房间（编号为n）前面的位置，初始状态为s118，目标状态为s245。动作a1表示移动到下一个房间，动作a0表示目标状态的停止。交付任务的评估是实现目标的步骤。

一个状态空间问题一般包括：

●状态集。

●开始状态（或者初始状态）。

●每种状态下智能体可执行的动作集合。

●目标状态，可指定为一个布尔函数，当状态满足目标时为真。

●确定可接受的解决方案（例如，送货机器人完成任务的时间）质量的标准。

状态空间法是许多机器人问题建模的有效方法。

练习：考虑图1.8中所示的平衡杆问题，假设我们仅考虑平面场景，这意味着平台只能按照0，1，2，3，4，5m/s这几种可能的速度左右移动，并且质量均匀的杆也只能顺时针或逆时针移动。假设平台可以精确获取均匀密度（从而重量分布均匀）杆的角度。请设计一个强化学习算法来平衡这根杆。为便于计算，假设重力加速度g=10m/s2，且无摩擦力。请为这个动态系统定义一个适当的状态空间。

图1.8　平衡杆