過適

在統計學中，過適（overfitting，或稱過度擬合）現象是指在調適一個統計模型時，使用過多參數。對比於可取得的資料總量來說，一個荒謬的模型只要足夠複雜，是可以完美地適應資料。過適一般可以視為違反奥卡姆剃刀原則。當可選擇的參數的自由度超過資料所包含資訊內容時，這會導致最後（調適後）模型使用任意的參數，這會減少或破壞模型一般化的能力更甚於適應資料。過適的可能性不只取決於參數個數和資料，也跟模型架構與資料的一致性有關。此外對比於資料中預期的雜訊或錯誤數量，跟模型錯誤的數量也有關。過適現象的觀念對機器學習也是很重要的。通常一個學習演算法是藉由訓練範例來訓練的。亦即預期結果的範例是可知的。而學習者則被認為須達到可以預測出其它範例的正確的結果，因此，應適用於一般化的情況而非只是訓練時所使用的現有資料（根據它的歸納偏向）。然而，學習者卻會去適應訓練資料中太特化但又隨機的特徵，特別是在當學習過程太久或範例太少時。在過適的過程中，當預測訓練範例結果的表現增加時，應用在未知資料的表現則變更差。在統計和機器學習中，為了避免過適現象，須要使用額外的技巧（如交叉驗證、、、赤池信息量準則或），以指出何時會有更多訓練而沒有導致更好的一般化。人工神經網路的過適過程亦被認知為過度訓練（overtraining）。在treatmeant learning中，使用最小最佳支援值（minimum best support value）來避免過適。相對於過適是指，使用過多參數，以致太適應資料而非一般情況，另一種常見的現象是使用太少參數，以致於不適應資料，這則稱為乏適（underfitting，或稱：擬合不足）現象。.

7 关系: 奥卡姆剃刀，交叉驗證，現象，算法，统计学，赤池信息量准则，歸納偏向。

奥卡姆剃刀

奥卡姆剃刀（Occam's Razor, Ockham's Razor），又称“奥坎的剃刀”，拉丁文为lex parsimoniae，意思是简约之法则，是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉（William of Occam，约1287年至1347年，奥卡姆（Ockham）位于英格兰的萨里郡）提出的一个解决问题的法则，他在《箴言书注》2卷15题说“切勿浪费较多东西，去做‘用较少的东西，同样可以做好的事情’。”换一种说法，如果关于同一个问题有许多种理论，每一种都能作出同样准确的预言，那么应该挑选其中使用假定最少的。尽管越复杂的方法通常能做出越好的预言，但是在不考虑预言能力（即結果大致相同）的情况下，假设越少越好。所罗门诺夫的归纳推理理论是奥卡姆剃刀的数学公式化：Induction: From Kolmogorov and Solomonoff to De Finetti and Back to Kolmogorov JJ McCall - Metroeconomica, 2004 - Wiley Online Library.

新！!: 過適和奥卡姆剃刀 · 查看更多 »

交叉驗證

交叉驗證，有時亦稱循環估計(Morgan Kaufmann, San Mateo) Chang, J., Luo, Y., and Su, K. 1992.

新！!: 過適和交叉驗證 · 查看更多 »

現象

象（φαινόμενoν；phenomenon，複數型：phenomena）是指能被觀察、觀測到的事實。通常是用在較特別的事物上。「現象」一詞源為「可見的東西」，英文的「phenomenon」是來自希臘文，語源為「可見的東西」（phainomenon），它的動詞形態為phanein，本意為「可觀察到的」（observable）、顯示、可見、能被維持不變、或是能自我維持的。.

新！!: 過適和現象 · 查看更多 »

算法

-- 算法（algorithm），在數學（算學）和電腦科學之中，為任何良定义的具體計算步驟的一个序列，常用於計算、和自動推理。精確而言，算法是一個表示爲有限長列表的。算法應包含清晰定義的指令用於計算函數。算法中的指令描述的是一個計算，當其時能從一個初始狀態和初始輸入（可能爲空）開始，經過一系列有限而清晰定義的狀態最終產生輸出並停止於一個終態。一個狀態到另一個狀態的轉移不一定是確定的。隨機化算法在内的一些算法，包含了一些隨機輸入。形式化算法的概念部分源自尝试解决希尔伯特提出的判定问题，並在其后尝试定义或者中成形。这些尝试包括库尔特·哥德尔、雅克·埃尔布朗和斯蒂芬·科尔·克莱尼分别于1930年、1934年和1935年提出的遞歸函數，阿隆佐·邱奇於1936年提出的λ演算，1936年的Formulation 1和艾倫·圖靈1937年提出的圖靈機。即使在當前，依然常有直覺想法難以定義爲形式化算法的情況。.

新！!: 過適和算法 · 查看更多 »

统计学

统计学是在資料分析的基础上，研究测定、收集、整理、归纳和分析反映數據資料，以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来，它廣泛地應用在各門學科，從自然科学、社會科學到人文學科，甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨，統計的面貌也逐漸改變，與資訊、計算等領域密切結合，是資料科學(Data Science)中的重要主軸之一。譬如自一組數據中，可以摘要並且描述這份數據的集中和離散情形，這個用法稱作為描述統計學。另外，觀察者以數據的形態，建立出一個用以解釋其隨機性和不確定性的數學模型，以之來推論研究中的步驟及母體，這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

新！!: 過適和统计学 · 查看更多 »

赤池信息量准则

赤池信息量准则（，简称AIC）是評估統计模型的复杂度和衡量统计模型「擬合」資料之优良性（，白話：合身的程度）的一种标准，是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在信息熵的概念基础上。.

新！!: 過適和赤池信息量准则 · 查看更多 »

歸納偏向

學習器去預測其未遇到過的輸入的結果時，會做一些假設（Mitchell, 1980）。而學習演算法中的歸納偏置則是這些假設的集合。機器學習試圖去建造一個可以學習的演算法，用來預測某個目標的結果。要達到此目的，要給於學習演算法一些訓練样本，样本說明輸入與輸出之間的預期關係。然后假设學習器在预测中逼近正确的结果，其中包括在訓練中未出現的样本。既然未知状况可以是任意的結果，若沒有其它額外的假設，這任務就無法解決。這種關於目標函數的必要假設就称为歸納偏置（Mitchell, 1980; desJardins and Gordon, 1995）。一個典型的歸納偏置例子是奧卡姆剃刀，它假設最簡單而又一致的假设是最佳的。這裡的一致是指學習器的假设會對所有樣本產生正確的結果。歸納偏置比較正式的定義是基於數學上的邏輯。這裡，歸納偏置是一個與訓練样本一起的邏輯式子，其邏輯上會蘊涵學習器所產生的假设。然而在实际应用中，這種嚴謹形式常常無法適用。在有些情况下，学习器的歸納偏置可能只是一個很粗糙的描述（如在人工神經網路中），甚至更加简单。.

新！!: 過適和歸納偏向 · 查看更多 »

重定向到这里：

过度拟合，过拟合，过适。

联盟百科是组织像一个百科全书或字典中的概念图和语义网络。它给每一个概念及其关系的简单定义。

这是用作概念图的基础的大型在线心理地图。它是免费使用，每篇文章或文档可以下载。它是一个工具，资源或学习，研究，教育，学习或教学参考书，也可以由教师，教育工作者，学生或学生; 对于学术界：学校，小学，中学，高中，初中，大学，工科学历，大专，本科，硕士或博士学位; 对于论文，报告，项目，理念，文档，调查，汇总，或论文。这里的定义是，说明中，描述，或每显著在其上需要的信息的含义，并且它们的相关概念，作为词汇列表。可在中文, 英文, 西班牙文, 葡萄牙文, 日文, 法文, 德文, 意大利文, 波兰文, 荷兰文, 俄文, 阿拉伯文, 印地文, 瑞典文, 乌克兰文, 匈牙利文, 加泰罗尼亚文, 捷克文, 希伯来文, 丹麦文, 芬兰文, 印度尼西亚文, 挪威文, 罗马尼亚文, 土耳其文, 越南文, 한국어, 泰语, 希腊语, 保加利亚语, 克罗地亚语, 斯洛伐克语, 立陶宛语, 菲律宾人, 拉脱维亚语, 爱沙尼亚语和斯洛文尼亚语。更多语言很快。

所有的信息是从维基百科提取它的知识共享署名-相同方式共享 3.0协议下可用。

联盟百科不受维基媒体基金会的认可或附属。

Google Play、Android 和 Google Play 徽标均为 Google Inc. 的商标。

隐私政策

過適

奥卡姆剃刀

交叉驗證

現象

算法

统计学

赤池信息量准则

歸納偏向

重定向到这里：

其他语言