1. Introduction: Markov Assumption

  • 对于一组随机变量 ,其最完整的认知是其联合分布 . 然而对于大规模的随机变量集合, 其计算和存储都非常困难.

  • 通过条件概率, 我们可以将联合分布分解为条件分布的乘积:

    • 然而这是一个恒等变换, 说明了联合分布和条件分布之间的关系, 但并没有简化问题. 这里的条件相当于是一组复杂的 constraint, 需要考虑前面所有的随机变量.
  • Markov Assumption: 通过引入 Markov 假设, 我们可以大大简化条件分布的计算. 其假设是当前状态 只依赖于最近的前一个状态 , 而与之前的状态无关.

    则此时联合分布可以简化为:

  • 因此满足 Markov 假设的随机变量序列被称为 Markov Chain.

  • Markov 性质可以抽象地概括为:

    且等价于

    即在给定当前状态的条件下, 过去和未来是条件独立的.

抓住当下, 未来就与过去无关.

2. Basic Definitions

Definition (Discrete-Time Markov Chain) 给定离散时间, 离散过程的随机变量序列 , 若满足

则称 是一个离散时间 Markov Chain.

  • 为了简化符号, 我们将离散 Markov 的状态空间中的每一个状态用一个整数来表示. 因此状态空间可以表示为:

Definition (Transition Probability) 对于 Markov Chain , 定义转移概率为:

在时间 处于状态 的条件下, 在时间 处于状态 的概率.

Definition (Stationary Markov Chain) 若对于任意时刻 , 转移概率 仅依赖于时间差 , 则称 Markov Chain 是平稳的. 即存在一个转移矩阵 使得:

若无特殊说明, 后续的 Markov Chain 均指平稳 Markov Chain.

  • Markov Chain 是一个 chain, 其可以直观地理解成一个 Directed Graph (即有向图), 其中每一个节点代表一个状态, 每一条有向边代表一个转移概率.
  • Stationary Markov Chain 则意味着这个 Directed Graph 是一个 Time-Homogeneous 的图, 即转移概率不随时间变化. 也就是一旦这个 Directed Graph 确定了, 那么和具体到底什么时刻发生转移无关, 只要知道当前状态, 就可以根据这个 Directed Graph 来计算未来的状态分布.

3. -step Transition Probability and Chapman-Kolmogorov Equation

Markov Chain 的一个最基本任务是计算转移概率:

即从状态 出发经过 步转移到状态 的概率.

Theorem (Chapman-Kolmogorov Equation) 对于离散平稳 Markov Chain , 任意 , 有

  • 该定理的 intuition 相当于是将不同的轨迹根据空间进行分解, 进行了分组:

    • 将所有经过 步, 能够从状态 转移到状态 的轨迹分为一组, 其概率为 ;
    • 将所有经过 步, 能够从状态 转移到状态 的轨迹分为一组, 其概率为 .
    • 因此对于每一个中间状态 , 从状态 出发经过 步转移到状态 的概率可以表示为 ,
    • 最后对所有的中间状态进行求和即可得到最终的转移概率.
  • Proof.

    • 根据平稳性及转移概率定义, LHS 相当于在求解:

      • 其中第二个表达式是通过全概率公式得到的, 其将所有可能的中间状态 进行了分组.
    • 根据条件概率的性质, . 故上式可以继续化简为:

    • 再根据 Markov 假设, . 故上式可以继续化简为:

进一步观察到, 上述 C-K 方程组的表达方式与矩阵乘法的表达方式非常相似. 故我们可以将转移概率 以矩阵的形式进行表示:

  • 其中 的第 行第 列的元素即为从状态 出发经过 步转移到状态 的概率 .
  • 表示状态空间的大小, 即 Markov Chain 中状态的数量.

则 C-K 方程组可以简化为矩阵乘法的形式:

故利用这个方程组, 可以得到:

  • 这就完美地给出了对于 的计算方法. 即 步转移概率矩阵 可以通过 步转移概率矩阵 次幂来计算得到.

再仔细观察一下一步转移概率矩阵:

  • . 即矩阵的行和为 . 相当于从状态 出发, 转移到所有可能的状态 的概率之和为 .
  • 其行类似于一个”输入”, 列类似于一个”输出”.

4. Classification of States

我们并没有满足于仅仅知道 步转移概率的计算方法, 还想知道当 趋近于无穷大时, 步转移概率的极限行为. 特别地, 我们想知道当 时, 是否可能和一个与 无关的常数 收敛. 此时, 一个随机过程退化成了一个随机变量 (一个分布). 在渐进意义上, 虽然其本身是一个随机过程, 但其在 “in the long run” 上在每个阶段 (状态) 出现的概率是一个常数, 与时间无关.

首先对 Markov Chain 的状态进行分类. 对于 Markov Chain , 定义状态 和状态 之间的关系如下:

Reachability and Communication

Definition (Reachability): 状态 可以到达状态 (记为 ), 如果存在一个正整数 使得 . 即存在一个正整数 使得从状态 出发经过 步转移到状态 的概率大于零.

  • Reachability 是非对称的关系, 即 不一定意味着 .
  • Reachability 是传递的关系, 即如果 , 则 .

Definition (Communicative): 状态 和状态 相通 (记为 ), 如果 . 即状态 可以到达状态 , 同时状态 也可以到达状态 .

  • Communication 是对称的关系, 即如果 , 则 .
  • Communication 是传递的关系, 即如果 , 则 .

Closed Set and Irreducibility

Definition (Closed State Set): 对于状态集 , 称 是 close 的, 当且仅当 , . 即对于状态集 中的任意状态 , 都无法转移到状态集 外的任意状态 .

  • Closed 的定义意味着, 一旦进入了 closed 集合中的某个状态, 就无法再离开这个 closed 集合.
  • Closed 集合提供了一个 Markov Chain 的子集, 在这个子集中, Markov Chain 的行为是独立于外部状态, 且还是一个完整的 Markov Chain.

Definition (Irreducibility): Markov Chain 是不可约的, 当且仅当 Markov Chain 中没有闭的真子集. 即对于 Markov Chain 中的任意非空真子集 , 都存在 使得 对于某个 成立.

  • Markov Chain 不可约 Markov Chain 中所有状态都是相通的.
  • Proof
    • () 这是显然的.
    • () 其总的证明思路如下: 对于 中的任意状态 , 定义所有从 出发能够到达的状态集合为 . 若能证明 是 closed 的, 则由于已知 是 irreducible 的, 故不存在闭的真子集, 则 必须等于 , 而根据 closed 的定义, 中的任意状态 都可以到达状态 , 则 . 从而证明了 Markov Chain 中所有状态都是相通的.
    • 其 closeness 的证明如下: 对于任意 和任意 , 若 是 closed 的, 则 不成立. 反证法, 假设 成立, 则根据 reachability 的传递性, (由于 ) 且 , 从而 , 矛盾. 故 是 closed 的.

  • 对于一个可约的 Markov Chain, 其一步转移概率矩阵 可以通过适当的行列变换 (其实相当于只是换了一下 中状态的顺序), 则总可以以如下的形式进行分块表示:
  • 左下角的 , 则表示从下面的对应的状态集合出发, 无法转移到上面的对应的状态集合. (Recall 一步转移矩阵的行相当于”起点”, 列相当于”终点”, 因此 的存在意味着从下面的状态集合出发, 无法转移到上面的状态集合.)
  • 若递归地, 仍然是可约的, 则可以继续进行分块, 直到所有的分块都是不可约的. 从而对于一个可约的 Markov Chain, 其一步转移概率矩阵 可以通过适当的行列变换, 呈现出一个阶梯状的分块结构, 其左下角的分块全为 , 其余的分块都是不可约的.

Transient State and Recurrent State

常返性 (Recurrence) 是 Markov Chain 中一个非常重要的概念. 其描述了 Markov Chain 中状态的长期行为. 其在数学上有几个等价命题. 对于其中一种叙述方式, 首先引入首达概率之概念:

Definition (First Passage Probability) 对于 Markov Chain , 定义从状态 出发, 经 步首次到达状态 的概率为:

  • 首达概率满足性质 这是因为首达的限制使得这里的事件是互斥的, 因此其概率之和不超过 . 但与之相对应的, 转移概率则没有首达的限制, 因此其概率之和可以超过 :

Definition (Recurrent State): 状态 是 recurrent 的, 当且仅当从状态 出发, 首次回到状态 的概率之级数和为 . 即

  • 直观来看, 其取到了首达概率之和的上界, 即 asymptotically, 从状态 出发, 首次回到状态 的概率之和为 , 即几乎必然会回到状态 .

  • 定义随机变量 为从状态 出发, 返回 的次数. 则 的期望值可以表示为:

    • 因此, 若状态 是 recurrent 的, 则 , 即从状态 出发, 返回 的次数的期望值为无穷大. 这也是 recurrent 状态的一个重要性质.
  • 另一方面, 的期望还可以计算为:

    • 其中 表示从状态 出发, 经过若干步首次回到状态 的概率. 又根据本身作为 Markov Chain 的无记忆性, 每次回到状态 后, 都相当于重新开始了一个新的 Markov Chain 的过程, 因此每次回到状态 的概率都是 , 每次不回到状态 的概率都是 . 从而 的分布可以表示为一个几何分布 (Geometric Distribution), 其参数为 .
    • 也同样根据 在 recurrent 状态和 transient 状态的定义, 可以得到 的取值为:
  • 再记 为从状态 出发回到 , 至少经过 步的概率. 故

    • 即从状态 出发回到 , 至少经过 步的概率, 可以表示为从状态 出发, somehow ever 第一次回到 之后, 再至少用 步回到 的概率. 因此 满足一个递归关系, 其解为 . 从而可以得到 . 这也说明了 的分布是一个几何分布.
    • 进一步, 令 , 则 . 因此当 时, , 即从状态 出发, 最终回到状态 的概率为 ; 当 时, , 即从状态 出发, 最终回到状态 的概率为 . 从而可以得到如下结论:
  • 为了进一步加深对 recurrent 状态的理解, 考虑如下方程:

    • 直观含义为: 从 出发经过 步转移到 的概率, 相当于在某一中间时刻 首次到达 , 再用剩余的 步从 出发转移到 的概率进行乘积, 最后对所有可能的中间时刻 进行求和. 其相当于对所有可能的轨迹进行了时间的分解.

    • Proof

      • 定义随机变量 为 First Passage Time, 即从状态 出发首次到达状态 所需的步数. 则从 出发经过 步转移到 的事件, 可以表示为 (即在第 步首次到达 ) 且在剩余的 步中从 出发转移到 . 因此可以得到:
      • 再根据条件概率的性质, . 故上式可以继续化简为:
      • 观察 的定义, 这个事件等价于 . 因此

      再根据 Markov 假设, . 故上式可以继续化简为:

      , . 从而得到:

    • 观察这个方程, 发现这是一个卷积 (convolution) 的方程. 根据 变换的性质, 我们得到如下结论:

      因此, 可以总结出如下结论:

      这将 Recurrent State 的判断和转移概率的级数求和的敛散性联系了起来.

Example (One-Dimensional Random Walk) 考虑一个一维的随机游走 (One-Dimensional Random Walk), 其状态空间为 , 即整数集合. 其转移概率如下:

下讨论该随机游走中状态 的常返性.

Solution

考虑 , 即从状态 出发经过 步转移回状态 的概率.

  • 首先若 是奇数, 则 , 因为在奇数步时, 无论如何转移, 都无法回到状态 .

  • 其次若 是偶数, 则

    • 故讨论如下级数的敛散性:

      • 根据 Stirling’s approximation, :

      • 因此当 时, , 则级数收敛; 当 时, , 则级数发散. 从而状态 时是 transient 的, 在 时是 recurrent 的.

Example (Two-Dimensional Random Walk) 考虑一个二维的随机游走 (Two-Dimensional Random Walk), 其状态空间为 , 即二维整数集合. 考虑平衡的随机游走, 即在每一个时刻, 以相同的概率 向四个方向 (上、下、左、右) 转移. 下讨论该随机游走中状态 的常返性.

Solution

  • 相似地, 考虑偶数 步转移回状态 的概率 .

  • 对于 , 其相当于在 步中, 向上转移的步数与向下转移的步数相同, 向左转移的步数与向右转移的步数相同. 因此可以将 步中的 步分为两类: 向上或向下转移的步数 (记为 ), 向左或向右转移的步数 (记为 ). 则

  • 因此讨论如下级数的敛散性:

  • 从而状态 是 recurrent 的.

Example (Three-Dimensional Random Walk) 考虑一个三维的随机游走 (Three-Dimensional Random Walk). 事实上, 即使是一个平衡的三维随机游走, 其状态 也是 transient 的:

故高于二维的随机游走, 其状态 就是 transient 的.


下面对 Recurrent State 和 Transient State 进行一些进一步的讨论.

  1. 若状态 是 transient 的, 则定有 . 从而推出:

    无论起点状态 是什么, transient 状态 在长期上出现的概率都趋近于 . 这也是 transient 状态的一个重要性质.

  2. 若状态 和状态 是相通的, 则 的常返性是相同的 (但反之不必然).

    • Proof: 由于 是相通的, 则存在 使得 . 因此对于任意 ,

      因此

      从而如果 是 recurrent 的, 则 , 则 , 则 也是 recurrent 的. 同理, 如果 是 recurrent 的, 则 也是 recurrent 的.

    • 进而对于一组 irreducible 的状态, 其常返性是相同的.

  3. 对于有限状态 Markov Chain, 其至少存在一个 recurrent 状态.

    • Proof. 用反证法. 假设一个有限状态 的 Markov Chain 中所有状态都是 transient 的. 则对于任意状态 , . 从而 . 对任意步长 , 考虑 . 则定有 对任意状态 成立. 因此

      这与全部状态都是 transient 的假设矛盾. 从而至少存在一个 recurrent 状态.

    • 进一步, 有限状态 Markov Chain 若是 irreducible 的, 则其所有状态都是 recurrent 的.

  4. Recurrent State 只访问 recurrent state, 不访问 transient state. 即: 若 是 recurrent 的, 则对于任意 使得 , 定有 .

    • Proof. 用 表示从状态 出发至少经过无穷多步回到状态 的概率. 根据 的定义, 定有 对于某个 成立. 因此

      由于 是 recurrent 的, 则 . 又由于 , 则

      其等价于

      又因为 , 且 , 则

    • 这事实上是一个更强的结论, 说明 是 almost surely 无穷次回到 的. 从而 也是 recurrent 的.

5. Long-run Properties of Markov Chain

接下来我们想要重点考察 Markov Chain 的长期行为. 也即当 时, 的极限行为. 首先对于其极限值的存在性进行讨论.

Existence of Limiting Distribution

考虑转移概率的 Cesaro Sum:

Theorem (Weak Ergodic Theorem): 对于 Markov Chain , 若其是 irreducible 且 recurrent 的, 则对于任意状态 , 转移概率的 Cesaro Sum 的极限存在, 且与 无关. 即

  • 其中 表示从状态 出发, 首次回到状态 的期望时间.
    • , 则称状态 正常返 (Positive Recurrent)
    • , 则称状态 零返 (Null Recurrent)

Definition (Periodicity): Markov Chain 中的状态 的周期 (period) 定义为 , 即从状态 出发, 转移回状态 的步数的最大公约数.

  • , 则称状态 是 aperiodic 的. 即从状态 出发, 转移回状态 的步数没有周期性.
    • 在 aperiodic 的状态 中, 定存在某 使得对于任意 , . 即从状态 出发, 转移回状态 的步数在某个时刻之后的每一步都大于零.
  • 若两个状态 是相通的, 则 .

Proposition: 对于 Markov Chain , 若其是 irreducible 且 aperiodic 的, 则对于任意状态 , 转移概率的极限存在, 且与 无关.

或者用矩阵的形式表示为


Chapman-Kolmogorov Stationary Equation: 在对上述存在性进行刻画后, 下面试讨论其极限值的具体形式. 考虑 C-K 方程:

在 Forward Equation 中, 对于左右两边同时取极限, 则

其等价于

从而可以得到:

或等价地

从而求解 的值.

对于该方程, 有如下说明:

  1. 这是一个 Left-hand Equation, 即 是一个行向量, 其左乘 得到 本身 (). 这与我们在 Linear Algebra 中常见的 Right-hand Equation 略有差异.
  2. Stationary Distribution 还以为这, 若 , 则对于任意 , . 即如果初始状态 的分布是 , 则在经过任意步转移后, 状态 的分布仍然是 .
  3. 对于有限状态 Markov Chain, 该方程总有非零解, 而和对应的 Markov Chain 的具体性质, 如 recurrence, periodicity 等无关. 甚至对于没有极限的 Markov Chain 也同样适用. 只不过此时求得的是 Markov Chain 的一个 stationary distribution, 而非 limiting distribution. 这也是该方程的一个重要性质.

Definition (Stationary Distribution): 对于 Markov Chain , 定义 为其 stationary distribution, 若其满足 .

  • 直观的看, 其相当于是说给定当前的一个分布 , 则在经过一步转移后, 其分布仍然是 , 即 是一个不变的分布. 因此称其为 stationary distribution. 当然可以递推地得到, 其在经过任意步转移后, 其分布仍然是 .

Proposition (Detailed Balance Condition): 是一个 Markov Chain 的一步转移概率矩阵. 若存在一个概率分布 满足对于任意状态 ,

就是 的一个 stationary distribution, 即定有

这是 stationary distribution 的一个充分条件.

Example 1 考虑一个 Markov Chain , 其状态空间为 , 任意两个状态之间的转移概率相同均为 . 即

立即有

Example 2 (Ehrenfest Model) 考虑 Ehrenfest Model: 有一密闭容器, 内部分为两部分. 初始时刻, 左侧有 个分子, 右侧为真空. 随后将容器内部隔板打开, 分子进行扩散直到达到平衡状态. 这一过程可以建模为一个 Markov Chain .

  • 状态空间: , 其中状态 表示右侧有 个分子, 左侧有 个分子.

  • 假设时间是离散的, 且每个时刻有且仅有一个分子进行转移 (即从左侧转移到右侧, 或者从右侧转移到左侧). 并且每个分子被选中的概率相同均为 .

  • 可以写出其转移概率矩阵 :

    • 对于第 行, 其表示当前右侧有 个分子, 则下一步可能的状态为 (即从右侧转移到左侧) 或 (即从左侧转移到右侧). 且从右侧转移到左侧的概率为 , 从左侧转移到右侧的概率为 .
  • 该 Markov Chain 显然是全部状态相通的, 因此是 irreducible 的. 又由于其状态空间是有限的, 因此所有状态都是 recurrent 的. 另外, 其 periodicity 为 .

    • 可解得
      • 这也是 Ehrenfest Model 的一个重要性质, 即在平衡状态下, 右侧有 个分子的概率服从二项分布 (Binomial Distribution) .
      • 由于其对于任意状态 , , 因此所有状态都是正常返 (Positive Recurrent) 的.
  • 另外, 根据公式 , 故

    而取 , 则 . 即, 若平均观察足够长的时间 (例如 单位时间), 则将回到初始状态 (即右侧没有分子) .

Example 3 (Random Walk on a Finite Graph) 考虑任意无向 finite graph , 其顶点集合为 , 边集合为 , 且不存在孤立点. 定义一个 Markov Chain 在该图上进行随机游走 (Random Walk), 即在每个时刻, 从当前所在的顶点出发, 以相同的概率转移到其邻接的顶点. 下讨论该 Markov Chain 的长期行为.

  • 记节点 的度 (degree, 即与节点 相邻的边的数量) 为 . 则从节点 转移到其邻接节点 的概率为 (如果 是相邻的), 否则为 .

  • 合理猜测, 其 stationary distribution 的第 个分量 与节点 的度 成正比. 即 .

    • Proof: 记节点 的邻接节点集合为 . 则 成立, 从而 是一个 stationary distribution.
  • Markov Chain 在图上的典型应用之一是 PageRank 算法, 其核心思想就是将网页之间的链接关系建模为一个 Graph, 而一个网页的被链接指向数量 (即其度) 就是其重要程度的一个指标. 通过计算该 Graph 上的 stationary distribution, 就可以得到每个网页的重要程度. 这也是 PageRank 算法的一个重要性质.

6. Transient Behavior of Markov Chain

对于 Transient State, 其长期行为是趋近于 的. 对于非常返的状态, 主要关注如下两个问题:

  • Absorption Time: 从状态 出发, 首次被吸收在集合 中的时间. 记为 :

    • 考察其期望值 . 根据空间进行分解, 即从状态 出发首先转移到状态 , 然后从状态 出发吸收到集合 中的期望时间. 从而可以得到如下递推关系:
  • Absorbing Probability: 从状态 出发, 最终被吸收在集合 中的概率. 记为 :

    • 根据空间进行分解, 即从状态 出发吸收到集合 中的概率, 可以分解为从状态 出发首先转移到状态 , 然后从状态 出发吸收到集合 中的概率. 从而可以得到如下递推关系:
    • 若记 , 则 满足: 这恰恰和前面的 forward equation 相对称, 是一个 right-hand equation.

Example (Gambler’s Ruin Problem) 考虑一个赌博者, 其初始资金为 元. 在每一轮赌博中, 其以 的概率赢得 元, 以 的概率输掉 元. 当其资金达到 元时, 赌博者破产; 但资金上不封顶. 下讨论赌博者最终破产的概率 :

因此根据递推关系:

因此当 时, 赌博者最终破产. 注意, 只要赌徒不占优, 即使是公平的赌博 (即 ), 赌博者最终也会 almost surely 破产. 这也是赌博的一个重要性质, 主要是由于赌博者的资金上不封顶, 因此总会几乎必然破产.

不过, 若赌徒本身有一个退出机制, 即当其资金达到某个上限 时就退出赌博, 则其最终破产的概率为

其中 为赌徒的输赢比 (odds ratio). 故, 当有退出上限时, 不管 多大, 最终一定会到达 之一. 而 就代表了先到达 的概率.

上述问题都体现了一个 first-step analysis 的思想, 即对于一个问题, 可以根据其第一步的转移情况进行空间分解, 从而得到一个递推关系. 通过求解该递推关系, 就可以得到问题的答案. 这也是 Markov Chain 的一个重要分析工具.

7. Applications of Markov Chain

PageRank Algorithm (Brin and Page, 1998)

  • PageRank 算法将网站之间的链接关系建模为一个有向图, 其节点表示网站, 边表示链接关系, 通过每个节点的入度 (即被其他网站链接的数量) 来衡量网站的重要性, 以对搜索结果进行排序等.

  • 然而单纯的考虑入度是不够的. 更为合理的思路是考虑其极限分布, 即在该有向图上进行一个随机游走 (在网络上进行充分浏览后) 得到的概率分布, 以此来衡量每个节点的重要性.

  • 在实践中, 这样的 Graph 是非常巨大的, 对于其周期性, 可约性的传统判断是非常困难的. 因此 PageRank 算法引入了一个 damping factor :

    • 其中 是原始的转移概率矩阵, 是一个全 的矩阵, 是为了保证 是一个转移概率矩阵 (即每行的元素之和为 ).
    • 此时 是一个 irreducible 且 aperiodic 的转移概率矩阵. 从而 的极限分布 是存在的.
    • 在实践当中, 这样的加总也是合理的. 也就是其将网页的访问刻画为两个过程: 一个是按照原始的链接关系进行访问 (即 ), 另一个是通过输入网址等方法直接访问 (即 ). 通过加权平均的方式, 就可以得到一个更为合理的访问模型. 这也是 PageRank 算法的一个重要性质.
  • 故通过求解

    即求解 的 left eigenvector 即可求解 的值. 从而得到每个节点的重要程度.

Markov Chain Monte Carlo (MCMC) (Metropolis et al., 1953; Hastings, 1970)

Monte Carlo 方法或统计模拟方法是一种通过随机采样来近似计算复杂分布性质的数值方法. 而 Markov Chain Monte Carlo (MCMC) 方法则是 Monte Carlo 方法的一种重要实现方式, 其中一个最经典的 MCMC 算法是 Metropolis-Hastings 算法, 由 Metropolis 等人在 1953 年提出, 后由 Hastings 在 1970 年推广.

首先简单介绍 Monte Carlo 方法.

  • Monte Carlo 方法常需要应对一个复杂分布 , 其解析性质难以获得. 但是可以通过近似伪随机采样的方式获得足够多的样本 来近似计算 的一些性质 (例如其均值, 方差等). 从而将解析结构转为对样本的统计分析. 因此 MC 的重点变为如何获得服从 的足够样本, 并且我们期望这样的方法是 universal 的, 即对于任意分布 都适用的.

  • 一个经典的方法是 Acceptance-Rejection Sampling.

    • 给定随机变量 , 其概率密度为 , 目标是生成一系列服从该分布的样本, 但直接从 进行采样可能是困难的. 因此引入一个 proposal distribution 其概率密度为 且通常较为简单易采样. 通过引入一个常数 确保 对于所有 都成立, 即

    • 其算法过程如下:

      1. 从 proposal distribution 中采样得到 .
      2. 上均匀采样得到 .
      3. , 则接受 作为一个样本; 否则拒绝 并返回步骤 1.
    • 这是由于, 考虑微小区间 , 则 落在该区间的概率为 , 且接着被接受的概率为 , 从而总的接受某个样本点的概率为 . 因此被接受的样本点的概率密度为 . 即就是 的一个缩放版本, 从而被接受的样本点的分布就是 .

接着考虑 MCMC.

  • MCMC 即提供了一个这样的 Universal Pseudo-random Sampling Method. 对于离散 Markov Chain , 其转移概率矩阵为 , 其 stationary distribution 为 . 并若其满足 irreducible 和 aperiodic 的条件, 则其极限分布 是存在的, 满足:

    • MCMC 假设极限分布 就是我们想要近似的分布 (当然这里处理的是离散分布 ; 对于连续分布, 也同样可以用类似的连续时间 Markov Chain 来进行类似分析). 从而尝试求解 .
    • 一旦真的得到了这样的 , 则就可以通过在 上进行随机游走来获得服从 的样本. 因为 的极限分布, 从而在 上进行随机游走足够长的时间后, 每次进行一次一步转移, 就可以得到一个服从 的样本.
  • 显然, 的求解直观上是欠定的, 其求解的思路如下.

    • 回顾, MC 具有如下 Detailed Balance Condition 作为 的一个充分条件:

    • 下构造一个满足 Detailed Balance Condition 的转移概率矩阵 . 首先任取一个 proposal 的转移概率矩阵 . 对这个 proposal 进行如下修正:

      对称地,

      • 可以立即验证, 满足 Detailed Balance Condition: 从而 的极限分布就是 .
    • 通过不同的 proposal 的选择, 可以得到不同的 MCMC 算法等, 以得到更好的算法收敛等进一步的改进优化.

  • 在实作当中, 当我们求得了一个满足 Detailed Balance Condition 的 , 我们整体的算法过程如下. 其中假设状态空间为 . 则每一步 , 对应的 .

    • 首先任取一个初始状态, 例如 .
    • 随后对于每一步 , 取其前一步的状态 , 根据 的第 行的转移概率进行随机游走 (即以 的第 的概率分布进行随机抽样), 得到 .
    • 通过上述过程, 就可以得到一个样本序列 , 丢弃前面的一部分 (成为 burn-in period), 就可以得到一个服从 的样本序列 .

另外还可以从统计计算的角度来理解 MCMC, 并且扩展到连续时间 Markov Chain 的情形.

  • 考虑目标的概率分布 , 定义连续状态下的转移核 (即状态转移的概率密度) 为 同样, 给定一个 proposal , 即在当前状态 的条件下, 转移到状态 的概率密度. 通常比如可以选择一个对称的 proposal 如 Gaussian 等.
  • 此时类似地, 也有接受概率
  • 从而完整的抽样流程为
    1. 给定当前的状态 , 从 proposal 中采样得到 .
    2. 上均匀采样得到 .
    3. , 则接受 作为下一个状态 ; 否则拒绝 并令 .

Markov Decision Process (MDP)

MDP 是强化学习中的一个重要概念. 其本身的构建是基于 Markov Chain 的. 在正式引入 MDP 之前, 首先介绍一个相关的概念, 即 Markov Reward Process (MRP).

  • 一个 Markov Reward Process (MRP) 是一个四元组

    • 是有限状态集合, 是一个转移概率矩阵, 二者共同定义了一个 Markov Chain.
    • 是一个 reward function, 表示当前处在状态 时, 转移到下一个状态时获得的 reward 的期望值. 其定义为
      • 其中 是一个随机变量, 表示智能体在 处在状态 时 (并进行了一个 action 后), 环境在下一个时刻反馈给智能体的即时 reward. 整体流程为 .
      • 是在当前处于状态 时, 转移到下一个状态时获得的 reward 的期望值, 是一个确定性的函数(条件期望).
    • 是一个 discount factor, 作为对 reward 进行累积时的权重衰减因子. 其强调了 reward 的时间价值,对于远期的 reward 给予更小的权重. 越接近 , 则越重视远期的 reward; 越接近 , 则越重视近期的 reward.
  • 对于所有未来 reward 的累计权重级数和即为 return:

    • 由于 , 因此该级数是收敛的, 从而 是一个 well-defined 的随机变量.
  • 对于一个状态的期望汇报, 即 在给定当前状态 的条件期望, 为 value function:

    且若代入 的定义, 可以整理得到如下的方程, namely Bellman Equation:

  • 上述方程对于所有状态 都成立, 因此可以写成一个矩阵形式的方程:

    展开形式为

    • 该方程本身可以直接给出 closed-form 的解, 即 然而解析计算本身的复杂度为 , 这在往往较大规模的状态空间下是不可行的. 因此在实践中, 通常使用诸如动态规划、蒙特卡洛或时序差分等方法具体求解 Bellman Equation 的数值解.

对 MRP 进一步扩展, 就可以得到 Markov Decision Process (MDP). 在 MRP 中, 状态的转移时随机的, 智能体没有任何的控制权. 而在 MDP 中, 智能体可以通过选择不同的 action 来影响状态的转移. 因此 MDP 是一个五元组 :

  • 是有限状态集合, 是有限 action 集合. 是一个转移概率, 其中 表示在状态 下采取 action 后转移到状态 的概率:

    有时也简记为 . 此时往往不再使用矩阵方式进行表示, 是因为在引入 action 之后, 转移概率本身是一个三维的 tensor 结构.

  • 对于奖励函数 , 其有两种常见的定义方式:

    • : 表示在状态 下采取 action 后获得的 reward 的期望值. 其定义为
    • : 表示在状态 下采取 action 后转移到状态 时获得的 reward 的期望值. 其定义为
    • 二者有关系:
  • 智能体此时的交互流程为, 在时刻 , 其处在状态 , 选择 action , 环境根据转移概率 转移到下一个状态 , 并且根据奖励函数 反馈给智能体一个 reward . 整体流程为

  • 通常通过引入一个 policy 来指导智能体每一步 action 的选择. 其中 表示在状态 下选择 action 的概率. 其定义为

  • 类似地, 可以引入 State-Value Function 来描述当智能体在 指导下, 从状态 出发的期望 return:

    以及 Action-Value Function 来描述当智能体在 指导下, 从状态 出发且给定采取的 action 时的期望 return:

    • 因此状态价值函数可以通过动作价值函数进行表达, 即 即在 policy 下, 从状态 出发的期望就是在状态 下采取 action 的期望的加权平均, 其中权重就是 policy 在状态 下选择 action 的概率.
    • 反过来, 动作价值函数也可以通过状态价值函数进行表达, 即 即在状态 下采取 action 的期望 return 就等于在状态 下采取 action 后立即获得的即时 reward 加上在状态 下采取 action 后所有可能转移到的下一个状态 的期望 return 的加权平均, 其中权重就是在状态 下采取 action 后转移到状态 的概率.
    • 若再分别将 的具体表达代入 , 及反过来将 的具体表达代入 , 就可以得到如下的 Bellman Expectation Equation 的两种不同的递推形式:

事实上, 给定一个 MDP 和一个固定策略 (策略本身可以还是一个随机策略, 依概率选择 action, 但本身的概率分布需要是固定的), 就可以将其转化为一个 MRP, 即通过 marginalize 的方法对所有可能的 action 进行加权平均.

  • 在 MDP 中, reward 依赖状态和动作 , 但若 是一个固定的策略, 则在状态 下采取 action 的概率为 , 从而可以通过加权平均的方式得到在状态 下的 reward 的期望值:

  • 同样地, 在 MDP 中, 转移概率依赖状态和动作 , 也可以通过对所有可能的 action 进行加权平均的方式得到在状态 下转移到状态 的概率:

  • 因此可以看作一个新的 MRP , 且其 Bellman Equation 可以写作:

    其形式上和 MRP 的 Bellman Equation 是完全一样的, 只是其中的 reward 和转移概率都是通过对 action 进行加权平均诱导得到的.

  • 故同样的也可以写作如下的矩阵形式:

    从而可以得到 closed-form 的解为

最后, MDP 的一个重要问题是如何找到一个最优策略 , 使得其对应的 value function 是所有策略中最大的.

  • 首先定义策略的好坏.

    • 对于任意两个策略 , 若对于所有状态 都满足 , 则称 优于 , 记作 .
    • 对应的, 如果存在一个策略 , 使得对于所有策略 , 都满足 , 则称 是一个 optimal policy.
  • 定义 optimal value function 为

    即对于每个状态 , 其 optimal value function 就是所有策略在该状态下的 value function 的最大值. 以及 optimal action-value function 为

    即在状态 下给定已经采取了 action , 在此之后的最优行动的 optimal value function 的最大值.

  • 故二者有关系

    • 即表示在状态 下采取 action 的 optimal action-value function 就等于在状态 下采取 action 后立即获得的 reward 加上在状态 下采取 action 后所有可能转移到的下一个状态 的 optimal value function 的加权平均, 其中权重就是在状态 下采取 action 后转移到状态 的概率.
  • 另一方面, 还有

  • 根据二者的这两重关系, 可以得到如下的 Bellman Optimality Equation:

  • 因此, 最优策略 可以通过 optimal action-value function 来得到, 即