Genius 算法引擎

适用场景：

MDP被用于机器学习中强化学习问题的建模。通过使用动态规划、随机采样等方法，MDP可以求解使回报最大化的智能体策略，并在自动控制、推荐系统等主题中得到应用。

算法思想：

马尔科夫决策过程是马尔科夫链的扩展，在原基础上加入了行动(Action)和奖励/反馈(Reward)。相应的转移矩阵也产生了变化，下一个状态的概率分布不仅取决于上一个状态还取决于采取的行动。而从环境得到的反馈则告诉我们这一步到底是好（正向反馈）还是坏（负向反馈），下次就可以避免在同一状态下采取同样的行动。那么最终在不断最大化奖励的过程中，就获取了最优策略。

MDPs 简单说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）获得奖励（Reward）与环境（Environment）发生交互的循环过程。一个马尔可夫决策过程由一个四元组构成(S, A, Psa, R):

● S: 表示状态集（states）
● A:表示一组动作（actions）
● Psa: 表示状态转移概率。Psa表示的是在当前s∈S状态下，经过a∈A作用后，会转移到的其他状态的概率分布情况。比如，在状态s下执行动作a，转移到s’的概率可以表示为p(s’|s,a)
● R:S×A→ℝ，R是回报函数（reward function），回报函数有时也写作状态S的函数（只与S有关），这样的话，R可以简化为R: S→ℝ。

MDP的动态过程如下：
某个智能体(agent)的初始状态为s0，然后从 A 中挑选一个动作a0执行，执行后，agent 按Psa概率随机转移到了下一个s1状态，s1∈ Ps0a0。然后再执行一个动作a1，就转移到了s2，接下来再执行a2…，我们可以用下面的图表示状态转移的过程。

如果回报r是根据状态s和动作a得到的，则MDP还可以表示成下图：

MDP包含以下三层含义:

● “马尔可夫”表示了状态间的依赖性。当前状态的取值只和前一个状态产生依赖，不和更早的状态产生联系。虽然这个条件在有些问题上有些理想，但是由于它极大地简化了问题，所以人们通常会选择使用它。
● “决策”表示了其中的策略部分将由Agent决定。Agent可以通过自己的行动改变状态序列，和环境中存在的随机性共同决定未来的状态。
● “过程”表示了时间的属性。如果把Agent和环境的交互按时间维度展开，那么Agent行动后，环境的状态将发生改变，同时时间向前推进，新的状态产生，Agent将获得观测值，于是新的行动产生，然后状态再更新”。

案例：

补充说明

算法优点

● 允许在线的解决方案：通过模拟实验(simulated trials)逐步地学习最优策略。
● 允许依据计算资源实现近似解决方案。（在计算资源充足的条件下，给出最优解的方案；反之，则也能给出能让人接受的最优解的近似解）
● 允许对决策理论的策略质量和学习效果进行数值化度量。