徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
下载
比浏览器更快的访问!
 

過適

指数 過適

在統計學中,過適(overfitting,或稱過度擬合)現象是指在調適一個統計模型時,使用過多參數。對比於可取得的資料總量來說,一個荒謬的模型只要足夠複雜,是可以完美地適應資料。過適一般可以視為違反奥卡姆剃刀原則。當可選擇的參數的自由度超過資料所包含資訊內容時,這會導致最後(調適後)模型使用任意的參數,這會減少或破壞模型一般化的能力更甚於適應資料。過適的可能性不只取決於參數個數和資料,也跟模型架構與資料的一致性有關。此外對比於資料中預期的雜訊或錯誤數量,跟模型錯誤的數量也有關。 過適現象的觀念對機器學習也是很重要的。通常一個學習演算法是藉由訓練範例來訓練的。亦即預期結果的範例是可知的。而學習者則被認為須達到可以預測出其它範例的正確的結果,因此,應適用於一般化的情況而非只是訓練時所使用的現有資料(根據它的歸納偏向)。然而,學習者卻會去適應訓練資料中太特化但又隨機的特徵,特別是在當學習過程太久或範例太少時。在過適的過程中,當預測訓練範例結果的表現增加時,應用在未知資料的表現則變更差。 在統計和機器學習中,為了避免過適現象,須要使用額外的技巧(如交叉驗證、、、赤池信息量準則或),以指出何時會有更多訓練而沒有導致更好的一般化。人工神經網路的過適過程亦被認知為過度訓練(overtraining)。在treatmeant learning中,使用最小最佳支援值(minimum best support value)來避免過適。 相對於過適是指,使用過多參數,以致太適應資料而非一般情況,另一種常見的現象是使用太少參數,以致於不適應資料,這則稱為乏適(underfitting,或稱:擬合不足)現象。.

7 关系: 奥卡姆剃刀交叉驗證現象算法统计学赤池信息量准则歸納偏向

奥卡姆剃刀

奥卡姆剃刀(Occam's Razor, Ockham's Razor),又称“奥坎的剃刀”,拉丁文为lex parsimoniae,意思是简约之法则,是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1287年至1347年,奥卡姆(Ockham)位于英格兰的萨里郡)提出的一个解决问题的法则,他在《箴言书注》2卷15题说“切勿浪费较多东西,去做‘用较少的东西,同样可以做好的事情’。”换一种说法,如果关于同一个问题有许多种理论,每一种都能作出同样准确的预言,那么应该挑选其中使用假定最少的。尽管越复杂的方法通常能做出越好的预言,但是在不考虑预言能力(即結果大致相同)的情况下,假设越少越好。 所罗门诺夫的归纳推理理论是奥卡姆剃刀的数学公式化:Induction: From Kolmogorov and Solomonoff to De Finetti and Back to Kolmogorov JJ McCall - Metroeconomica, 2004 - Wiley Online Library.

新!!: 過適和奥卡姆剃刀 · 查看更多 »

交叉驗證

交叉驗證,有時亦稱循環估計(Morgan Kaufmann, San Mateo) Chang, J., Luo, Y., and Su, K. 1992.

新!!: 過適和交叉驗證 · 查看更多 »

現象

象(φαινόμενoν;phenomenon,複數型:phenomena)是指能被觀察、觀測到的事實。通常是用在較特別的事物上。 「現象」一詞源為「可見的東西」,英文的「phenomenon」是來自希臘文,語源為「可見的東西」(phainomenon),它的動詞形態為phanein,本意為「可觀察到的」(observable)、顯示、可見、能被維持不變、或是能自我維持的。.

新!!: 過適和現象 · 查看更多 »

算法

-- 算法(algorithm),在數學(算學)和電腦科學之中,為任何良定义的具體計算步驟的一个序列,常用於計算、和自動推理。精確而言,算法是一個表示爲有限長列表的。算法應包含清晰定義的指令用於計算函數。 算法中的指令描述的是一個計算,當其時能從一個初始狀態和初始輸入(可能爲空)開始,經過一系列有限而清晰定義的狀態最終產生輸出並停止於一個終態。一個狀態到另一個狀態的轉移不一定是確定的。隨機化算法在内的一些算法,包含了一些隨機輸入。 形式化算法的概念部分源自尝试解决希尔伯特提出的判定问题,並在其后尝试定义或者中成形。这些尝试包括库尔特·哥德尔、雅克·埃尔布朗和斯蒂芬·科尔·克莱尼分别于1930年、1934年和1935年提出的遞歸函數,阿隆佐·邱奇於1936年提出的λ演算,1936年的Formulation 1和艾倫·圖靈1937年提出的圖靈機。即使在當前,依然常有直覺想法難以定義爲形式化算法的情況。.

新!!: 過適和算法 · 查看更多 »

统计学

统计学是在資料分析的基础上,研究测定、收集、整理、归纳和分析反映數據資料,以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来,它廣泛地應用在各門學科,從自然科学、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是資料科學(Data Science)中的重要主軸之一。 譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

新!!: 過適和统计学 · 查看更多 »

赤池信息量准则

赤池信息量准则(,简称AIC)是評估統计模型的复杂度和衡量统计模型「擬合」資料之优良性(,白話:合身的程度)的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在信息熵的概念基础上。.

新!!: 過適和赤池信息量准则 · 查看更多 »

歸納偏向

學習器去預測其未遇到過的輸入的結果時,會做一些假設(Mitchell, 1980)。而學習演算法中的歸納偏置則是這些假設的集合。 機器學習試圖去建造一個可以學習的演算法,用來預測某個目標的結果。要達到此目的,要給於學習演算法一些訓練样本,样本說明輸入與輸出之間的預期關係。然后假设學習器在预测中逼近正确的结果,其中包括在訓練中未出現的样本。既然未知状况可以是任意的結果,若沒有其它額外的假設,這任務就無法解決。這種關於目標函數的必要假設就称为歸納偏置(Mitchell, 1980; desJardins and Gordon, 1995)。 一個典型的歸納偏置例子是奧卡姆剃刀,它假設最簡單而又一致的假设是最佳的。這裡的一致是指學習器的假设會對所有樣本產生正確的結果。 歸納偏置比較正式的定義是基於數學上的邏輯。這裡,歸納偏置是一個與訓練样本一起的邏輯式子,其邏輯上會蘊涵學習器所產生的假设。然而在实际应用中,這種嚴謹形式常常無法適用。在有些情况下,学习器的歸納偏置可能只是一個很粗糙的描述(如在人工神經網路中),甚至更加简单。.

新!!: 過適和歸納偏向 · 查看更多 »

重定向到这里:

过度拟合过拟合过适

传出传入
嘿!我们在Facebook上吧! »