1.2.3 任务环境
智能体要采取正确的动作,与传感器对环境状态的检测有关。如果传感器可以检测到与选择动作相关的所有方面,那么任务环境是有效的完全可观测的(fully observable),相关性依赖于性能度量。完全可观察环境的优点意味着在学习和决策过程中,不需要智能体来保持环境的内部状态。然而,由于环境中的目标过程可能是隐含的,或者传感器有噪声或不准确,因此环境是部分可观测的。在某些情况下,环境可能是不可观测的,但仍然有可能实现智能体的目标。
在一系列独立事件组成的任务环境中,智能体的体验由独立事件原子组成。在每一个事件中,智能体接收感知,然后执行动作。至关重要的是,下一事件并不取决于前一事件中所采取的动作。例如,装配线上的机器人以偶发的方式工作。然而,在连续环境中,当前的决策可能会影响未来的决策。例如,国际象棋智能体在连续环境中下棋。在这两种情况下,短期动作都可能产生长期后果。智能体在独立事件或实例中的决策集合称为它的策略。
为了使智能体能够制订智能动作并有效地进行计算,引入了状态空间的概念。状态中的信息允许对动作有用的预测描述。一个适当的动作可以通过搜索整个状态空间来获得,或者通过下述假设下的任何计算有效的方法来达到类似的目的:
●智能体对状态空间有完全的了解,并且有观察状态的计划(即完全可观测性)。
●智能体知道动作的后果。
●存在对智能体的性能度量,以确定一个状态是否满足其目标。
解或解决方案是一个动作序列,这些动作允许智能体从当前状态到达满足其目标的状态。
例:假设一个送货机器人将包裹从ENB 118房间送到目的地ENB 245房间。当前和启动(或初始)状态是ENB 118,ENB 245是其完成任务时的状态。状态sn可以被定义为ENB楼中某个房间(编号为n)前面的位置,初始状态为s118,目标状态为s245。动作a1表示移动到下一个房间,动作a0表示目标状态的停止。交付任务的评估是实现目标的步骤。
一个状态空间问题一般包括:
●状态集。
●开始状态(或者初始状态)。
●每种状态下智能体可执行的动作集合。
●目标状态,可指定为一个布尔函数,当状态满足目标时为真。
●确定可接受的解决方案(例如,送货机器人完成任务的时间)质量的标准。
状态空间法是许多机器人问题建模的有效方法。
练习:考虑图1.8中所示的平衡杆问题,假设我们仅考虑平面场景,这意味着平台只能按照0,1,2,3,4,5m/s这几种可能的速度左右移动,并且质量均匀的杆也只能顺时针或逆时针移动。假设平台可以精确获取均匀密度(从而重量分布均匀)杆的角度。请设计一个强化学习算法来平衡这根杆。为便于计算,假设重力加速度g=10m/s2,且无摩擦力。请为这个动态系统定义一个适当的状态空间。
图1.8 平衡杆