徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
安装
比浏览器更快的访问!
 

维数灾难

指数 维数灾难

维数灾难(curse of dimensionality,又名维度的詛咒)是一个最早由理查德·贝尔曼(Richard E. Bellman)在考虑优化问题时首次提出来的术语,用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到,如物理空间通常只用三维来建模。 举例来说,100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格采样一单位超正方体,则需要1020 个采样点:所以,这个10维的超正方体也可以说是比单位区间大1018倍。(这个是理查德·贝尔曼所举的例子) 在很多领域中,如采样、组合数学、机器学习和数据挖掘都有提及到这个名字的现象。这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。稀疏性对于任何要求有统计学意义的方法而言都是一个问题,为了获得在统计学上正确并且有可靠的结果,用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长。而且,在组织和搜索数据时也有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。 “维数灾难”通常是用来作为不要处理高维数据的无力借口。然而,学术界一直都对其有兴趣,而且在继续研究。另一方面,也由于的存在,其概念是指任意低维数据空间可简单地通过增加空余(如复制)或随机维将其转换至更高维空间中,相反地,许多高维空间中的数据集也可削减至低维空间数据,而不必丢失重要信息。这一点也通过众多降维方法的有效性反映出来,如应用广泛的主成分分析方法。针对距离函数和最近邻搜索,当前的研究也表明除非其中存在太多不相关的维度,带有维数灾难特色的数据集依然可以处理,因为相关维度实际上可使得许多问题(如聚类分析)变得更加容易。另外,一些如马尔科夫蒙特卡洛或共享最近邻搜索方法经常在其他方法因为维数过高而处理棘手的数据集上表现得很好。.

35 关系: 动态规划偏度卡方分佈单位立方体单元超立方体區間取樣奇异值分解小波分析主成分分析体积信噪比信息檢索分类问题图 (数学)四維超正方體空間空间 (数学)维度组合数学特征空间聚类分析马尔科夫蒙特卡洛超球体降维欧几里德距离机器学习有向图最小二乘法最优化最近邻搜索最近鄰居法时间序列时间序列分析数据挖掘

动态规划

动态规划(Dynamic programming,简称DP)是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。 动态规划常常适用于有重叠子问题和性质的问题,动态规划方法所耗时间往往远少于朴素解法。 动态规划背后的基本思想非常简单。大致上,若要解一个给定问题,我们需要解其不同部分(即子问题),再根据子问题的解以得出原问题的解。 通常许多子问题非常相似,为此动态规划法试图仅仅解决每个子问题一次,从而减少计算量:一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个子问题解之时直接查表。这种做法在重复子问题的数目关于输入的规模呈指數增長时特别有用。.

新!!: 维数灾难和动态规划 · 查看更多 »

偏度

在機率論和統計學中,偏度衡量實數隨機變量概率分布的不對稱性。偏度的值可以為正,可以為負或者甚至是無法定義。在數量上,偏度為負(負偏態)就意味着在概率密度函數左側的尾部比右側的長,絕大多數的值(包括中位數在內)位於平均值的右側。偏度為正(正偏態)就意味着在概率密度函數右側的尾部比左側的長,絕大多數的值(但不一定包括中位數)位於平均值的左側。偏度為零就表示數值相對均勻地分布在平均值的兩側,但不一定意味着其為對稱分布。.

新!!: 维数灾难和偏度 · 查看更多 »

卡方分佈

没有描述。

新!!: 维数灾难和卡方分佈 · 查看更多 »

单位立方体

单位立方体是边长为 1 的立方体。三维单位立方体的体积是 1,表面积是 6。单位立方体也用来表示多于三维的 n 维空间中的“立方体”,通常表示 n 维坐标系中区间 之间的 n 集合。.

新!!: 维数灾难和单位立方体 · 查看更多 »

单元超立方体

#重定向 单位立方体.

新!!: 维数灾难和单元超立方体 · 查看更多 »

區間

在數學上,區間是某個範圍的數的搜集,一般以集合形式表示。.

新!!: 维数灾难和區間 · 查看更多 »

取樣

在信号处理领域,采样是将信号从连续时间域上的模拟信号转换到离散时间域上的离散信号的过程,以采样器实现。通常采样与量化联合进行,模拟信号先由采样器按照一定时间间隔采样获得时间上离散的信号,再经模数转换器(ADC)在数值上也进行离散化,从而得到数值和时间上都离散的数字信号。很多情况下所说的“采样”就是指这种采样与量化结合的过程。 通过采样得到的信号,是连续信号(例如,现实生活中的表示压力或速度的信号)的离散形式。连续信号通常每隔一定的时间间隔被模数转换器(ADC)采样,当时时间点上的连续信号的值被表现为离散的,或量化的值。 这样得到的信号的离散形式常常给数据带来一些误差。误差主要来自于两个方面,与连续模拟信号频谱有关的采样频率,以及量化时所用的字长。采样频率指的是对连续信号采样的频度。它代表了离散信号在和时域和空间域上的精确度。字长(比特的数量)用来表示离散信号的值,它体现了信号的大小的精确性。 在一个理论采样器中,一个连续信号乘以将产生另外一个连续信号。只有当信号被量化之后它才变成数字信号,所有三个指数都被离散化。 信号处理中的基础定理采样定理指出,被采样信号不能被清晰地表示出频率超过采样频率一半的组成信号。这个频率(采样频率的一半)称为奈奎斯特频率。超过奈奎斯特频率的频率N能够在数字信号中看到,但是它们的频率是不确定的。也就是说,一个频率为f的成份频率不能从其它的成份频率2N-f、2N+f、4N-f等中区分开来。这个不确定性称为混叠。为了更加完美地处理这个问题,许多模拟信号在转换成数字表示之前使用抗混叠滤波器(通常是低通滤波器)滤除高于奈奎斯特频率的频率分量。 采样定理的推广定理指出,最高频率超过奈奎斯特频率的信号同样能够被采样,前提是已知这一信号的频带范围,并且信号带宽与采样频率须满足一定的关系。 在采样定理的约束的范围内,最初的信号能够在来自于理想样品集合的采样值的精度范围内被完全地重建起来。重建的信号是使用每个样品衡量一个Sinc函数并且使用奈奎斯特-香农插值公式累加结果得到的。.

新!!: 维数灾难和取樣 · 查看更多 »

奇异值分解

奇异值分解(singular value decomposition)是线性代数中一种重要的矩阵分解,在信号处理、统计学等领域有重要应用。奇异值分解在某些方面与对称矩阵或厄米矩陣基于特征向量的对角化类似。然而这两种矩阵分解尽管有其相关性,但还是有明显的不同。对称阵特征向量分解的基础是谱分析,而奇异值分解则是谱分析理论在任意矩阵上的推广。.

新!!: 维数灾难和奇异值分解 · 查看更多 »

小波分析

小波分析(wavelet analysis)或小波轉換(wavelet transform)是指用有限長或快速衰減的、稱為「母小波」(mother wavelet)的振盪波形來表示信號。該波形被縮放和平移以匹配輸入的信號。 「小波」(wavelet)一詞由Morlet和Grossman在1980年代早期提出。他們用的是法語詞ondelette,意思就是「小波」。後來在英語裡,「onde」被改為「wave」而成了wavelet。 小波變換分成兩個大類:離散小波變換(DWT) 和連續小波轉換(CWT)。兩者的主要區別在於,連續變換在所有可能的縮放和平移上操作,而離散變換採用所有縮放和平移值的特定子集。 小波理論和幾個其他課題相關。所有小波變換可以視為時域頻域表示的形式,所以和調和分析相關。所有實際有用的「離散小波變換」使用包含有限脈衝響應濾波器的濾波器段(filter band)。構成CWT的小波受海森堡的測不準原理制約,或者說,離散小波基可以在測不準原理的其他形式的情境中考慮。.

新!!: 维数灾难和小波分析 · 查看更多 »

主成分分析

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一種分析、簡化數據集的技術。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。 主成分分析由卡爾·皮爾遜於1901年發明,用於分析數據及建立數理模型。其方法主要是通過對共變異數矩陣進行特征分解,以得出數據的主成分(即特征向量)與它們的權值(即特征值)。PCA是最簡單的以特征量分析多元統計分布的方法。其結果可以理解為對原數據中的方差做出解釋:哪一個方向上的數據值對方差的影響最大?換而言之,PCA提供了一種降低數據維度的有效辦法;如果分析者在原數據中除掉最小的特征值所對應的成分,那麼所得的低維度數據必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析複雜數據時尤為有用,比如人臉識別。 PCA是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么PCA就能够提供一幅比较低维度的图像,这幅图像即为在讯息最多的点上原对象的一个‘投影’。这样就可以利用少量的主成分使得数据的维度降低了。 PCA跟因子分析密切相关,并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构,求得微小差异矩阵的特征向量。.

新!!: 维数灾难和主成分分析 · 查看更多 »

体积

積(Volume)是物件佔有多少空間的量。體積的國際單位制是立方米。一件固體物件的體積是一個數值用以形容該物件在空間所佔有的空間。一維空間物件(如線)及二維空間物件(如正方形)在三維空間中均是零體積的。體積是物件佔空間的大小。.

新!!: 维数灾难和体积 · 查看更多 »

信噪比

信噪比(Signal-to-noise ratio,缩写为SNR或S/N)是科学和工程中所用的一种度量,用於比較所需訊號的强度與背景雜訊的强度。其定義為訊號功率与雜訊功率的比率,以分貝(dB)为单位表示。大於比率1:1(高於0分貝)表示訊號多於雜訊。信噪比通常用於描述電子訊號,也可以應用在各種形式的訊號,比如內的同位素量,或細胞間的生物化學信號。.

新!!: 维数灾难和信噪比 · 查看更多 »

信息檢索

資訊檢索(Information Retrieval)是从信息资源集合获得与信息需求相关的信息资源的活动。搜索可以基于全文或其他基于内容的索引。 自动信息检索系统用于减少所谓的“資訊超載”。许多大學和公共图书馆使用IR系统提供图书、期刊和其他文件的访问。Web搜索引擎是最可见的IR应用程序。.

新!!: 维数灾难和信息檢索 · 查看更多 »

分类问题

分类问题是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类问题也被称为监督式学习(supervised learning),根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类。 与之相对的称为非监督式学习(unsupervised learning),也叫做聚类分析。 Category:机器学习.

新!!: 维数灾难和分类问题 · 查看更多 »

图 (数学)

在數學的分支图论中,图(Graph)用于表示物件與物件之間的關係,是圖論的基本研究對象。一张圖由一些小圓點(稱為頂點或結點)和連結這些圓點的直線或曲線(稱為邊)組成。西尔维斯特在1878年首次提出“图”这一名词。.

新!!: 维数灾难和图 (数学) · 查看更多 »

四維超正方體

四維超正方体(tesseract)或正八胞體,是一種四維的超正方體(hypercube)。在几何学中,四維超正方体是立方體的四維類比,有8個立方體胞。四維超正方体之於立方體,就如立方體之於正方形。它是四維歐式空間中6個四維凸正多胞體之一。 超正方体是一个有无穷多个成员的凸正多胞形家族的四维成员,这个家族被称为“超方形”(或称立方形、正测形),这个家族的成员与施莱夫利符号,它们都具有类似正方形和立方体的性质,如二胞角都为90°等。 “超正方體”“超立方體”(Hypercube)這個名稱在一般的場合中特指四維的這個超正方體,不過在數學上,“超正方體”這個詞可以指n維(n>3)的任意一個超方形,因此把它和n維的其他超方形放在一起討論時,要加“四維”以示區別。.

新!!: 维数灾难和四維超正方體 · 查看更多 »

空間

間(Raum,space,espace,espacio,spazio),,抽象化之後形成的概念。與時間二者,構成物質存在的基本範疇,是人類思考的基本概念框架之一。人類可以用直覺了解空間,但難以概念化,因此自古希臘時代開始,就成為哲學與物理學上重要的討論課題。空間存在,是運動構成的基本條件。在物理學中,以三個維度來描述空間的存在。相對論中,將時間及空間二者,合併成單一的時空概念。伽利略、莱布尼兹、艾萨克·牛顿、伊曼努尔·康德、卡爾·弗里德里希·高斯、爱因斯坦、庞加莱都研究空间的本质。.

新!!: 维数灾难和空間 · 查看更多 »

空间 (数学)

数学上,空间是指一种具有特殊性质及一些额外结构的集合,但不存在單稱為「空間」的數學對象。在初等數學或中學數學中,空間通常指三維空間。數學中常见的空间類型:.

新!!: 维数灾难和空间 (数学) · 查看更多 »

维度

#重定向 維度.

新!!: 维数灾难和维度 · 查看更多 »

组合数学

广义的组合数学(Combinatorics)就是离散数学,狭义的组合数学是组合计数、图论、代数结构、数理逻辑等的总称。但这只是不同学者在叫法上的区别。总之,组合数学是一门研究可數或离散对象的科学。随着计算机科学的日益发展,组合数学的重要性也日渐凸显,因为计算机科学的核心内容是使用算法处理离散数据。 狭义的组合数学主要研究满足一定条件的组态(也称组合模型)的存在、计数以及构造等方面的问题。 组合数学的主要内容有组合计数、组合设计、组合矩阵、组合优化(最佳組合)等。.

新!!: 维数灾难和组合数学 · 查看更多 »

特征空间

#重定向 特征值和特征向量.

新!!: 维数灾难和特征空间 · 查看更多 »

聚类分析

聚类分析(Cluster analysis,亦称为群集分析)是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。 一般把数据聚类归纳为一种非監督式學習。.

新!!: 维数灾难和聚类分析 · 查看更多 »

马尔科夫蒙特卡洛

尔科夫蒙特卡洛(Markov chain Monte Carlo,MCMC)方法(含随机游走蒙特卡洛方法)是一组用马氏链从随机分布取样的算法,之前步骤的作为底本。步数越多,结果越好。 建立一个具有期望属性的马氏链并非难事,难的是如何决定通过多少步可以达到在许可误差内的稳定分布。一个好的马氏链具有快速混合——从开始阶段迅速获得的一个稳定状态——请参考马氏链最大时间。 因于初始样本,最常见的MCMC取样只能近似得到分布。复杂的MCMC改进算法如过往耦合,但是会消耗更多的计算资源和时间。 典型用法是模拟一个随机行走的行人来进行路径优化等。每一步都算作是一个状态。而统计经过次数最多的地方将在下一步中更有可能为目的地。马氏蒙特卡洛方法是一种结合了蒙特卡罗法的解决方案。但不同于以往的蒙特卡洛integration是统计独立的,MCMC中的是统计相关的。 本方法的相关应用包括:贝叶斯统计、计算物理、计算生物以及计算语言学,此外还有Gill先生的一些著作。 and Robert & Casella.

新!!: 维数灾难和马尔科夫蒙特卡洛 · 查看更多 »

超球体

#重定向 超球面.

新!!: 维数灾难和超球体 · 查看更多 »

降维

在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。 降维可进一步细分为特征选择和特征提取两大方法。.

新!!: 维数灾难和降维 · 查看更多 »

欧几里德距离

#重定向 欧几里得距离.

新!!: 维数灾难和欧几里德距离 · 查看更多 »

机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。 机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。.

新!!: 维数灾难和机器学习 · 查看更多 »

有向图

#重定向 图 (数学)#术语.

新!!: 维数灾难和有向图 · 查看更多 »

最小二乘法

最小二乘法(又称--)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。 利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。 “最小平方法”是對過度確定系統,即其中存在比未知數更多的方程組,以迴歸分析求得近似解的標準方法。在這整個解決方案中,最小平方法演算為每一方程式的結果中,將殘差平方和的總和最小化。 最重要的應用是在曲線擬合上。最小平方所涵義的最佳擬合,即殘差(殘差為:觀測值與模型提供的擬合值之間的差距)平方總和的最小化。當問題在自變量(x變量)有重大不確定性時,那麼使用簡易迴歸和最小平方法會發生問題;在這種情況下,須另外考慮變量-誤差-擬合模型所需的方法,而不是最小平方法。 最小平方問題分為兩種:線性或普通的最小平方法,和非線性的最小平方法,取決於在所有未知數中的殘差是否為線性。線性的最小平方問題發生在統計迴歸分析中;它有一個封閉形式的解決方案。非線性的問題通常經由迭代細緻化來解決;在每次迭代中,系統由線性近似,因此在這兩種情況下核心演算是相同的。 最小平方法所得出的多項式,即以擬合曲線的函數來描述自變量與預計應變量的變異數關係。 當觀測值來自指數族且滿足輕度條件時,最小平方估計和最大似然估计是相同的。最小平方法也能從動差法得出。 以下討論大多是以線性函數形式來表示,但對於更廣泛的函數族,最小平方法也是有效和實用的。此外,迭代地將局部的二次近似應用於或然性(藉由費雪信息),最小平方法可用於擬合廣義線性模型。 其它依據平方距離的目標加總函數作為逼近函數的主題,請參見最小平方法(函數近似)。 最小平方法通常歸功於高斯(Carl Friedrich Gauss,1795),但最小平方法是由阿德里安-马里·勒让德(Adrien-Marie Legendre)首先發表的。.

新!!: 维数灾难和最小二乘法 · 查看更多 »

最优化

最优化,是应用数学的一个分支,主要研究以下形式的问题:.

新!!: 维数灾难和最优化 · 查看更多 »

最近邻搜索

#重定向 最邻近搜索.

新!!: 维数灾难和最近邻搜索 · 查看更多 »

最近鄰居法

在模式识别领域中,最近鄰居法(KNN算法,又譯K-近邻算法)是一种用于分类和回归的無母數統計方法。在这两种情况下,输入包含特征空间中的k个最接近的训练样本。 最近鄰居法採用向量空間模型來分類,概念為相同類別的案例,彼此的相似度高,而可以藉由計算與已知類別案例之相似度,來評估未知類別案例可能的分類。 K-NN是一种,或者是局部近似和将所有计算推迟到分类之后的。k-近邻算法是所有的机器学习算法中最简单的之一。 无论是分类还是回归,衡量邻居的权重都非常有用,使较近邻居的权重比较远邻居的权重大。例如,一种常见的加权方案是给每个邻居权重赋值为1/ d,其中d是到邻居的距离。 邻居都取自一组已经正确分类(在回归的情况下,指属性值正确)的对象。虽然没要求明确的训练步骤,但这也可以当作是此算法的一个训练样本集。 k-近邻算法的缺点是对数据的局部结构非常敏感。本算法与K-平均算法(另一流行的机器学习技术)没有任何关系,请勿与之混淆。.

新!!: 维数灾难和最近鄰居法 · 查看更多 »

时间序列

#重定向 時間序列.

新!!: 维数灾难和时间序列 · 查看更多 »

时间序列分析

#重定向 時間序列.

新!!: 维数灾难和时间序列分析 · 查看更多 »

数据挖掘

数据挖掘(data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”(KDD)的分析步骤。数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些。 数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“資料庫知識發現”(KDD)过程,只不过是一些额外的环节。 类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.

新!!: 维数灾难和数据挖掘 · 查看更多 »

重定向到这里:

维度之咒

传出传入
嘿!我们在Facebook上吧! »