徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
自由
比浏览器更快的访问!
 

馬可夫決策過程

指数 馬可夫決策過程

在概率论和统计学中,馬可夫決策過程(Markov Decision Processes,縮寫為 MDPs)提供了一個數學架構模型,用於面對部份隨機,部份可由決策者控制的狀態下,如何進行決策,以俄罗斯数学家安德雷·马尔可夫的名字命名。在經由動態規劃與強化學習以解決最佳化問題的研究領域中,馬可夫決策過程是一個有用的工具。 马尔可夫过程在概率论和统计学方面皆有影响。一个通过不相关的自变量定义的随机过程,并(从数学上)体现出马尔可夫性质,以具有此性质为依据可推断出任何马尔可夫过程。实际应用中更为重要的是,使用具有马尔可夫性质这个假设来建立模型。在建模领域,具有马尔可夫性质的假设是向随机过程模型中引入统计相关性的同时,当分支增多时,允许相关性下降的少有几种简单的方式。.

9 关系: 安德雷·马尔可夫布朗运动决策统计学隨機漫步马尔可夫链马尔可夫性质概率论最佳化問題

安德雷·马尔可夫

安德雷·安德耶维齐·马尔可夫(Андрей Андреевич Марков,),生於俄羅斯帝國梁赞,数学家。 马尔可夫的父亲是一位中级官员,馬可夫出生在梁赞,后来举家迁往圣彼得堡。1874年马尔可夫入圣彼得堡大学,师从切比雪夫,毕业后留校任教。1886年当选为圣彼得堡科学院院士。马尔可夫的主要研究领域在概率和统计方面。他的研究开创了随机过程这个新的领域,以他的名字命名的马尔可夫链在现代工程、自然科学和社会科学各个领域都有很广泛的应用。 马尔可夫1922年逝世于圣彼得堡。 马尔可夫的儿子A·A·小马尔可夫也是一位著名数学家。.

新!!: 馬可夫決策過程和安德雷·马尔可夫 · 查看更多 »

布朗运动

此文是关于布朗运动。对于随机的过程,请参阅 维纳过程。从热力学的角度定义的话,需要参阅热力学温度以及能量均分定理。对于数学模型,请参阅随机游走。 布朗运动(Brownian motion)是微小粒子或者颗粒在流体中做的无规则运动。布朗运动过程是一种正态分布的独立增量连续随机过程。它是随机分析中基本概念之一。其基本性质为:布朗运动W(t)是期望为0、方差为t(时间)的正态随机变量。对于任意的r小于等于s,W(t)-W(s)独立于的W(r),且是期望为0、方差为t-s的正态随机变量。可以证明布朗运动是马尔可夫过程、鞅过程和伊藤过程。 它是在西元1827年英國植物學家罗伯特·布朗利用一般的顯微鏡觀察懸浮於水中由花粉所迸裂出之微粒時,發現微粒會呈現不規則狀的運動,因而稱它布朗運動。布朗運動也能測量原子的大小,因為就是有水中的水分子對微粒的碰撞產生的,而不規則的碰撞越明顯,就是原子越大,因此根據布朗運動,定義原子的直徑為10-8厘米。.

新!!: 馬可夫決策過程和布朗运动 · 查看更多 »

决策

在心理學中,決策(Decision-making)是一種認知過程,經過這個過程之後,個人可以在各种選擇方案中,根據個人信念或是綜合各項因素的推理,決定出行動,或是決定出個人要向外表達的意見。每个决策过程都会以产生最终决定、选取最终选择为目标。而这些选择的形式可以是一种行动或选取的意见。 决策者做决定之前,往往面临不同的方案和选择、以及有关其决定后果的某种程度上的不确定性;决策者需要对各种选择的利弊、风险做出权衡,以期达到最优的决策结果。 決策可被定義為在數個方案中做選擇的心理過程(亦稱為認知過程)。每個決策過程最後都會得到一個決擇,此決擇可以是一個行為,也可以是一個意見。 ----->.

新!!: 馬可夫決策過程和决策 · 查看更多 »

统计学

统计学是在資料分析的基础上,研究测定、收集、整理、归纳和分析反映數據資料,以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来,它廣泛地應用在各門學科,從自然科学、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是資料科學(Data Science)中的重要主軸之一。 譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

新!!: 馬可夫決策過程和统计学 · 查看更多 »

隨機漫步

随机游走(Random Walk,縮寫為 RW),是一种數學統計模型,它是一連串的軌跡所組成,其中每一次都是随机的。它能用來表示不规则的变动形式,如同一个人酒后乱步,所形成的随机过程記錄。1905年,由卡尔·皮尔逊首次提出。 通常,我們可以假設隨機漫步是以马尔可夫链或馬可夫過程的形式出現,但是比較複雜的隨機漫步則不一定以這種形式出現。在某些限制條件下,會出現一些比較特殊的模式,如醉漢走路(drunkard's walk)或萊維飛行(Lévy flight)。 Category:时间序列 Category:随机过程.

新!!: 馬可夫決策過程和隨機漫步 · 查看更多 »

马尔可夫链

尔可夫链(Markov chain),又稱離散時間馬可夫鏈(discrete-time Markov chain,縮寫為DTMC),因俄國數學家安德烈·马尔可夫(Андрей Андреевич Марков)得名,为狀態空間中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作馬可夫性質。马尔科夫链作为实际过程的统计模型具有许多应用。 在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。随机漫步就是马尔可夫链的例子。随机漫步中每一步的状态是在图形中的点,每一步可以移动到任何一个相邻的点,在这里移动到每一个点的概率都是相同的(无论之前漫步路径是如何的)。.

新!!: 馬可夫決策過程和马尔可夫链 · 查看更多 »

马尔可夫性质

-- --性质(Markov property)是概率论中的一个概念,因為俄國數學家安德雷·馬可夫得名。当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过程通常称之为马尔可夫过程。 数学上,如果X(t), t>0为一个随机过程,则马尔可夫性质就是指 马尔可夫过程通常称其为(时间)齐次,如果满足 除此之外则被称为是(时间)非齐次的。齐次马尔可夫过程通常比非齐次的简单,构成了最重要的一类马尔可夫过程。 某些情况下,明显的非马尔可夫过程也可以通过扩展“现在”和“未来”状态的概念来构造一个马尔可夫表示。设X为一个非马尔可夫过程。我们就可以定义一个新的过程Y,使得每一个Y的状态表示X的一个时间区间上的状态,用数学方法来表示,即, 如果Y具有马尔可夫性质,则它就是X的一个马尔可夫表示。 在这个情况下,X也可以被称为是二阶马尔可夫过程。更高阶马尔可夫过程也可类似地来定义。 具有马尔可夫表示的非马尔可夫过程的例子,例如有移动平均时间序列。 最有名的马尔可夫过程为马尔可夫链,但不少其他的过程,包括布朗运动也是马尔可夫过程。.

新!!: 馬可夫決策過程和马尔可夫性质 · 查看更多 »

概率论

概率论(Probability theory)是集中研究概率及随机现象的数学分支,是研究隨機性或不確定性等現象的數學。概率论主要研究对象为随机事件、随机变量以及随机过程。对于随机事件是不可能准确预测其结果的,然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及輪盤等,会呈现出一定的、可以被用于研究及预测的规律,两个用来描述这些规律的最具代表性的数学结论分别是大数定律和中心极限定理。 作为统计学的数学基础,概率论对诸多涉及大量数据定量分析的人类活动极为重要,概率论的方法同样适用于其他方面,例如是对只知道系统部分状态的复杂系统的描述——统计力学,而二十世纪物理学的重大发现是以量子力学所描述的原子尺度上物理现象的概率本质。 數學家和精算師認為概率是在0至1閉區間内的數字,指定給一發生與失敗是隨機的「事件」。概率P(A)根據概率公理來指定給事件A。 一事件A在一事件B確定發生後會發生的概率稱為B給之A的條件概率;其數值為。若B給之A的條件概率和A的概率相同時,則稱A和B為獨立事件。且A和B的此一關係為對稱的,這可以由一同價敘述:「當A和B為獨立事件時,P(A \cap B).

新!!: 馬可夫決策過程和概率论 · 查看更多 »

最佳化問題

最佳化問題(Optimization problem)在數學與電腦科學領域中,是從所有中尋找最優良的解的問題。根據變數是連續的或離散的,最佳化問題可分為兩類:連續最佳化問題與組合優化。 相對於決策問題(Decision problem)、功能性問題(Function problem),最佳化問題是:從問題的多個解中,求出最佳解。例子:背包問題 Category:數理邏輯.

新!!: 馬可夫決策過程和最佳化問題 · 查看更多 »

重定向到这里:

马尔可夫决策过程

传出传入
嘿!我们在Facebook上吧! »