徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
自由
比浏览器更快的访问!
 

最近鄰居法

指数 最近鄰居法

在模式识别领域中,最近鄰居法(KNN算法,又譯K-近邻算法)是一种用于分类和回归的無母數統計方法。在这两种情况下,输入包含特征空间中的k个最接近的训练样本。 最近鄰居法採用向量空間模型來分類,概念為相同類別的案例,彼此的相似度高,而可以藉由計算與已知類別案例之相似度,來評估未知類別案例可能的分類。 K-NN是一种,或者是局部近似和将所有计算推迟到分类之后的。k-近邻算法是所有的机器学习算法中最简单的之一。 无论是分类还是回归,衡量邻居的权重都非常有用,使较近邻居的权重比较远邻居的权重大。例如,一种常见的加权方案是给每个邻居权重赋值为1/ d,其中d是到邻居的距离。 邻居都取自一组已经正确分类(在回归的情况下,指属性值正确)的对象。虽然没要求明确的训练步骤,但这也可以当作是此算法的一个训练样本集。 k-近邻算法的缺点是对数据的局部结构非常敏感。本算法与K-平均算法(另一流行的机器学习技术)没有任何关系,请勿与之混淆。.

27 关系: 大间隔最近邻居主成分分析互信息圖形處理器分类问题线性插值维数灾难無母數統計特征向量特征空间聚类分析预测分析贪心法迴歸分析进化计算邻里成分分析自助法自组织映射K-平均算法模式识别欧氏距离机器学习最小哈希最邻近搜索海明距离数据挖掘整数

大间隔最近邻居

大间隔最近邻居(Large margin nearest neighbor (LMNN))分类算法是统计学的一种机器学习算法。该算法是在k近邻分类其中学习一种欧式距离度量函数。该度量函数优化的目标是:对于一个输入x_i 的k个近邻都属于同一类别,而不同类别的样本与x_i保持一定大的距离。k近邻规则是模式识别领域广泛使用的一种简单有效的方法。它的效果的好坏只依赖于确定最近邻的距离度量。基于欧式距离度量学习函数的大间隔最近邻居分类算法能够很好的改善k近邻算法分类效果。.

新!!: 最近鄰居法和大间隔最近邻居 · 查看更多 »

主成分分析

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一種分析、簡化數據集的技術。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。 主成分分析由卡爾·皮爾遜於1901年發明,用於分析數據及建立數理模型。其方法主要是通過對共變異數矩陣進行特征分解,以得出數據的主成分(即特征向量)與它們的權值(即特征值)。PCA是最簡單的以特征量分析多元統計分布的方法。其結果可以理解為對原數據中的方差做出解釋:哪一個方向上的數據值對方差的影響最大?換而言之,PCA提供了一種降低數據維度的有效辦法;如果分析者在原數據中除掉最小的特征值所對應的成分,那麼所得的低維度數據必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析複雜數據時尤為有用,比如人臉識別。 PCA是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么PCA就能够提供一幅比较低维度的图像,这幅图像即为在讯息最多的点上原对象的一个‘投影’。这样就可以利用少量的主成分使得数据的维度降低了。 PCA跟因子分析密切相关,并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构,求得微小差异矩阵的特征向量。.

新!!: 最近鄰居法和主成分分析 · 查看更多 »

互信息

在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是(PMI)的期望值。互信息最常用的单位是bit。.

新!!: 最近鄰居法和互信息 · 查看更多 »

圖形處理器

圖形處理器(graphics processing unit,縮寫:GPU),又稱顯示核心、視覺處理器、顯示晶片或繪圖晶片,是一種專門在個人電腦、工作站、遊戲機和一些行動裝置(如平板電腦、智慧型手機等)上執行繪圖運算工作的微處理器。 圖形處理器是輝達公司(NVIDIA)在1999年8月發表精視 256(GeForce 256)繪圖處理晶片時首先提出的概念,在此之前,電腦中處理影像輸出的顯示晶片,通常很少被視為是一個獨立的運算單元。而對手冶天科技(ATi)亦提出視覺處理器(Visual Processing Unit)概念。圖形處理器使顯示卡减少了對中央處理器(CPU)的依赖,並分擔了部分原本是由中央處理器所擔當的工作,尤其是在進行三維繪圖運算時,功效更加明顯。圖形處理器所採用的核心技術有硬體座標轉換與光源、立體環境材質貼圖和頂點混合、纹理壓缩和凹凸映射貼圖、雙重纹理四像素256位渲染引擎等。 圖形處理器可單獨與專用電路板以及附屬組件組成顯示卡,或單獨一片晶片直接內嵌入到主機板上,或者內建於主機板的北橋晶片中,現在也有內建於CPU上組成SoC的。個人電腦領域中,在2007年,90%以上的新型桌上型電腦和筆記型電腦擁有嵌入式繪圖晶片,但是在效能上往往低於不少獨立顯示卡。但2009年以後,AMD和英特爾都各自大力發展內建於中央處理器內的高效能整合式圖形處理核心,它們的效能在2012年時已經勝於那些低階獨立顯示卡,這使得不少低階的獨立顯示卡逐漸失去市場需求,兩大個人電腦圖形處理器研發巨頭中,AMD以AMD APU產品線取代旗下大部分的低階獨立顯示核心產品線。而在手持裝置領域上,隨著一些如平板電腦等裝置對圖形處理能力的需求越來越高,不少廠商像是高通(Qualcomm)、PowerVR、ARM、NVIDIA等,也在這個領域裏紛紛「大展拳腳」。 GPU不同于传统的CPU,如Intel i5或i7处理器,其内核数量较少,专为通用计算而设计。 相反,GPU是一种特殊类型的处理器,具有数百或数千个内核,经过优化,可并行运行大量计算。 虽然GPU在游戏中以3D渲染而闻名,但它们对运行分析、深度学习和机器学习算法尤其有用。 GPU允许某些计算比传统CPU上运行相同的计算速度快10倍至100倍。.

新!!: 最近鄰居法和圖形處理器 · 查看更多 »

分类问题

分类问题是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类问题也被称为监督式学习(supervised learning),根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类。 与之相对的称为非监督式学习(unsupervised learning),也叫做聚类分析。 Category:机器学习.

新!!: 最近鄰居法和分类问题 · 查看更多 »

线性插值

线性插值是数学、计算机图形学等领域广泛使用的一种简单插值方法。.

新!!: 最近鄰居法和线性插值 · 查看更多 »

维数灾难

维数灾难(curse of dimensionality,又名维度的詛咒)是一个最早由理查德·贝尔曼(Richard E. Bellman)在考虑优化问题时首次提出来的术语,用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到,如物理空间通常只用三维来建模。 举例来说,100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格采样一单位超正方体,则需要1020 个采样点:所以,这个10维的超正方体也可以说是比单位区间大1018倍。(这个是理查德·贝尔曼所举的例子) 在很多领域中,如采样、组合数学、机器学习和数据挖掘都有提及到这个名字的现象。这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。稀疏性对于任何要求有统计学意义的方法而言都是一个问题,为了获得在统计学上正确并且有可靠的结果,用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长。而且,在组织和搜索数据时也有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。 “维数灾难”通常是用来作为不要处理高维数据的无力借口。然而,学术界一直都对其有兴趣,而且在继续研究。另一方面,也由于的存在,其概念是指任意低维数据空间可简单地通过增加空余(如复制)或随机维将其转换至更高维空间中,相反地,许多高维空间中的数据集也可削减至低维空间数据,而不必丢失重要信息。这一点也通过众多降维方法的有效性反映出来,如应用广泛的主成分分析方法。针对距离函数和最近邻搜索,当前的研究也表明除非其中存在太多不相关的维度,带有维数灾难特色的数据集依然可以处理,因为相关维度实际上可使得许多问题(如聚类分析)变得更加容易。另外,一些如马尔科夫蒙特卡洛或共享最近邻搜索方法经常在其他方法因为维数过高而处理棘手的数据集上表现得很好。.

新!!: 最近鄰居法和维数灾难 · 查看更多 »

無母數統計

無母數統計分析(nonparametric statistics),或稱--,統計學的分支,適用於母群體分佈情況未明、小樣本、母群體分佈不為常態也不易轉換為常態。特點在於儘量減少或不修改其建立之模型,較具穩健特性;在樣本數不大時,計算過程較簡單。 無母數統計推論時所使用的統計量的抽樣分配通常與母體分配無關,不必推論其中位數、適合度、獨立性、隨機性,更廣義的說,無母數統計又稱為「不受分配限制統計法」(distribution free)。無母數統計缺乏一般之機率表。檢定時是以等級(Rank)為主要統計量。 無母數統計在推論統計模型時,常用到的檢定有下列方式:.

新!!: 最近鄰居法和無母數統計 · 查看更多 »

特征向量

#重定向 特征值和特征向量.

新!!: 最近鄰居法和特征向量 · 查看更多 »

特征空间

#重定向 特征值和特征向量.

新!!: 最近鄰居法和特征空间 · 查看更多 »

聚类分析

聚类分析(Cluster analysis,亦称为群集分析)是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。 一般把数据聚类归纳为一种非監督式學習。.

新!!: 最近鄰居法和聚类分析 · 查看更多 »

预测分析

测分析(predictive analysis)是指一类对数据假设的预测性分析。 其表现在使用数据挖掘技术、历史数据和对未来状况的假设,预测如顾客对某报价有所反映的或购买某一产品的可能性等时间的结果。.

新!!: 最近鄰居法和预测分析 · 查看更多 »

贪心法

贪心法,又称貪心演算法、貪婪演算法、或稱貪婪法,是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。比如在旅行推销员问题中,如果旅行员每次都选择最近的城市,那这就是一种贪心算法。 贪心算法在有最优子结构的问题中尤为有效。最优子结构的意思是局部最优解能决定全局最优解。简单地说,问题能够分解成子问题来解决,子问题的最优解能递推到最终问题的最优解。 贪心算法与动态规划的不同在于它对每个子问题的解决方案都做出选择,不能回退。动态规划则会保存以前的运算结果,并根据以前的结果对当前进行选择,有回退功能。 贪心法可以解决一些最优化问题,如:求图中的最小生成树、求哈夫曼编码……对于其他问题,贪心法一般不能得到我们所要求的答案。一旦一个问题可以通过贪心法来解决,那么贪心法一般是解决这个问题的最好办法。由于贪心法的高效性以及其所求得的答案比较接近最优结果,贪心法也可以用作辅助算法或者直接解决一些要求结果不特别精确的问题。.

新!!: 最近鄰居法和贪心法 · 查看更多 »

迴歸分析

迴歸分析()是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。 迴歸分析是建立因變數Y(或稱依變數,反應變數)與自變數X(或稱獨變數,解釋變數)之間關係的模型。簡單線性回歸使用一個自變量X,複迴歸使用超過一個自變量(X_1, X_2...

新!!: 最近鄰居法和迴歸分析 · 查看更多 »

进化计算

进化计算是遗传算法、进化策略、进化规划的统称。进化计算起源于20世纪50年代末,成熟于20世纪80年代,目前主要被应用于工程控制、机器学习、函数优化等领域。.

新!!: 最近鄰居法和进化计算 · 查看更多 »

邻里成分分析

邻里成分分析(Neighbourhood components analysis,Nca)是一种监督式学习的方法,根据一种给定的距离度量算法对样本数据进行度量,然后对多元变量数据进行分类。在功能上其和k近邻算法的目的相同,直接利用随即近邻的概念确定与测试样本临近的有标签的训练样本。.

新!!: 最近鄰居法和邻里成分分析 · 查看更多 »

自助法

在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽樣法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上發表。當樣本來自总體,能以正态分布來描述,其抽樣分布(Sampling Distribution)為正态分布(The Normal Distribution);但當樣本來自的总體無法以正态分布來描述,則以漸進分析法、自助法等來分析。採用隨機可置換抽樣(random sampling with replacement)。对于小数据集,自助法效果很好。.

新!!: 最近鄰居法和自助法 · 查看更多 »

自组织映射

自组织映射(SOM)或自组织特征映射(SOFM)是一种使用非監督式學習来产生训练样本的输入空间的一个低维(通常是二维)离散化的表示的人工神经网络(ANN)。自组织映射与其他人工神经网络的不同之处在于它使用一个邻近函数来保持输入控件的拓扑性质。.

新!!: 最近鄰居法和自组织映射 · 查看更多 »

K-平均算法

k-平均算法(英文:k-means clustering)源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。 这个问题在计算上是困难的(NP困难),不过存在高效的启发式算法。一般情况下,都使用效率比较高的启发式算法,它们能够快速收敛于一个局部最优解。这些算法通常类似于通过迭代优化方法处理高斯混合分布的最大期望算法(EM算法)。而且,它们都使用聚类中心来为数据建模;然而k-平均聚类倾向于在可比较的空间范围内寻找聚类,期望-最大化技术却允许聚类有不同的形状。 k-平均聚类与''k''-近邻之间没有任何关系(后者是另一流行的机器学习技术)。.

新!!: 最近鄰居法和K-平均算法 · 查看更多 »

模式识别

模式识别(Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。 计算机识别的显著特点是速度快、准确性高、效率高,在将来完全可以取代人工录入。 识别过程与人类的学习过程相似。以光學字元識別之“汉字识别”为例:首先将汉字图像进行处理,抽取主要表达特征并将特征与汉字的代码存在计算机中。就像老师教我们「这个字叫什么、如何写」记在大脑中。这一过程叫做“训练”。识别过程就是将输入的汉字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果。这一过程叫做“匹配”。.

新!!: 最近鄰居法和模式识别 · 查看更多 »

欧氏距离

#重定向 欧几里得距离.

新!!: 最近鄰居法和欧氏距离 · 查看更多 »

机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。 机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。.

新!!: 最近鄰居法和机器学习 · 查看更多 »

最小哈希

在计算机科学领域,最小哈希(或最小哈希式独立排列局部性敏感哈希)方法是一种快速判断两个集合是否相似的技术。这种方法是由,发明的,最初在AltaVista搜索引擎中用于在搜索结果中检测并消除重复Web页面。.

新!!: 最近鄰居法和最小哈希 · 查看更多 »

最邻近搜索

最邻近搜索(Nearest Neighbor Search, NNS)又称为“最近点搜索”(Closest point search),是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点。很多情况下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。 高德纳在《计算机程序设计艺术》(1973)一书的第三章中称之为邮局问题,即居民寻找离自己家最近的邮局。.

新!!: 最近鄰居法和最邻近搜索 · 查看更多 »

海明距离

#重定向 汉明距离.

新!!: 最近鄰居法和海明距离 · 查看更多 »

数据挖掘

数据挖掘(data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”(KDD)的分析步骤。数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些。 数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“資料庫知識發現”(KDD)过程,只不过是一些额外的环节。 类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.

新!!: 最近鄰居法和数据挖掘 · 查看更多 »

整数

整数,是序列中所有的数的统称,包括负整数、零(0)与正整数。和自然數一樣,整數也是一個可數的無限集合。這個集合在数学上通常表示粗體Z或\mathbb,源于德语单词Zahlen(意为“数”)的首字母。 在代數數論中,這些屬於有理數的一般整數會被稱為有理整數,用以和高斯整數等的概念加以區分。.

新!!: 最近鄰居法和整数 · 查看更多 »

重定向到这里:

K近邻算法最近邻域 (模式识别)

传出传入
嘿!我们在Facebook上吧! »