徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
安装
比浏览器更快的访问!
 

聚类分析

指数 聚类分析

聚类分析(Cluster analysis,亦称为群集分析)是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。 一般把数据聚类归纳为一种非監督式學習。.

18 关系: 坐標系子集开放源代码余弦相似性分类图像分析生物信息学DBSCAN非監督式學習马氏距离树 (数据结构)模式识别欧式空间距离欧几里得度量汉明距离机器学习数据分析数据挖掘

坐標系

坐標系是數學或物理學用語,定義如下: 对于一个n维系统,能够使每一个点和一组(n个)标量构成一一对应的系统。 坐標系可以用一個有序多元组表示一個點的位置。一般常用的坐標系,各維坐標的數字均為實數,但在高等數學中坐標的數字可能是複數,甚至是或是其他抽象代數中的元素(如交换环)。坐標系可以使幾何學的問題轉換為數字的問題,反之亦然,是解析幾何學的基礎。 描述地理位置時所用的經度及緯度就是坐標系統的一種。在物理學中,描述一系統在空間中運動的參考坐標系統則稱作參考系。.

新!!: 聚类分析和坐標系 · 查看更多 »

子集

子集,為某個集合中一部分的集合,故亦稱部分集合。 若A和B为集合,且A的所有元素都是B的元素,则有:.

新!!: 聚类分析和子集 · 查看更多 »

开放源代码

開放原始碼(Open Source)描述了一种在产品的出品和开发中提供最终源材料的做法。在這個詞廣泛使用前,開發者和生產者使用很多詞去描述這個概念;開放源代碼在互聯網上獲得廣泛使用,參加者需要大量更新電腦原始碼。開放源代碼使得生產模組、通訊管道、互動社群獲得改善。隨後,一個新著作權、軟體授權條款、域名和消費者提供建立的,一個新詞開源軟體誕生。 開源模型概念包括同時間不同時程和方法來生產,相對而言,更加集中式的軟体設計模型,例如典型的商業軟体公司。一個開源軟体開發的主要原則和慣例是易貨貿易和合作的同儕生產,經由免費公開的最終產品、原始資訊、藍圖和--。這逐漸應用在其它領域,例如生物技術。.

新!!: 聚类分析和开放源代码 · 查看更多 »

余弦相似性

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。這結果是與向量的長度無關的,仅仅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值为0到1之间。 注意這上下界對任何维度的向量空間中都適用,而且余弦相似性最常用於高维正空间。例如在信息检索中,每个词項被賦予不同的維度,而一个文档由一个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。 另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,會用到它来度量集群内部的凝聚力。.

新!!: 聚类分析和余弦相似性 · 查看更多 »

分类

#重定向 分类学.

新!!: 聚类分析和分类 · 查看更多 »

图像分析

图像分析(image analysis)和图像处理(image processing)关系密切,两者有一定程度的交叉,但是又有所不同。图像处理侧重于信号处理方面的研究,比如图像对比度的调节、图像编码、去噪以及各种滤波的研究。但是图像分析更侧重点在于研究图像的内容,包括但不局限于使用图像处理的各种技术,它更倾向于对图像内容的分析、解释、和识别。因而,图像分析和计算机科学领域中的模式识别、计算机视觉关系更密切一些。 图像分析一般利用数学模型并结合图像处理的技术来分析底层特征和上层结构,从而提取具有一定智能性的信息。.

新!!: 聚类分析和图像分析 · 查看更多 »

生物信息学

生物信息學(bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。目前主要的研究方向有:序列比对、序列組裝、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。 生物学技术往往生成大量的嘈杂数据。与数据挖掘类似,生物信息学利用数学工具从大量数据中提取有用的生物学信息。生物信息学所要处理的典型问题包括:重新組裝在霰弹枪定序法测序过程中被打散的DNA序列,从蛋白质的氨基酸序列预测蛋白质结构,利用mRNA微阵列或质谱仪的数据检验基因调控的假说。 某些人将计算生物学作为生物信息学的同义词处理;但是另外一些人认为计算生物学和生物信息学应当被当作不同的条目处理,因为生物信息学更侧重於生物学领域中计算方法的使用和发展,而计算生物学强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。 生物信息学可以定义为对分子生物学中两类信息流的研究:.

新!!: 聚类分析和生物信息学 · 查看更多 »

DBSCAN

DBSCAN,英文全寫為Density-based spatial clustering of applications with noise ,是在 1996 年由Martin Ester, Hans-Peter Kriegel, Jörg Sander 及 Xiaowei Xu 提出的聚類分析算法, 這個算法是以密度為本的:給定某空間裡的一個點集合,這算法能把附近的點分成一組(有很多相鄰點的點),並標記出位於低密度區域的局外點(最接近它的點也十分遠),DBSCAN 是其中一個最常用的聚類分析算法,也是其中一個科學文章中最常引用的。 在 2014 年,這個算法在領頭數據挖掘會議 KDD 上獲頒發了 Test of Time award,該獎項是頒發給一些於理論及實際層面均獲得持續性的關注的算法。.

新!!: 聚类分析和DBSCAN · 查看更多 »

非監督式學習

非監督式學習是一種機器學習的方式,並不需要人力來輸入標籤。它是監督式學習和強化學習等策略之外的一種選擇。在監督式學習中,典型的任務是分類和迴歸分析,且需要使用到人工預先準備好的範例(base)。 一個常見的非監督式學習是数据聚类。在人工神經網路中,生成對抗網絡(GAN)、自組織映射(SOM)和適應性共振理論(ART)則是最常用的非監督式學習。 ART模型允許叢集的個數可隨著問題的大小而變動,並讓使用者控制成員和同一個叢集之間的相似度分數,其方式為透過一個由使用者自定而被稱為警覺參數的常數。ART也用於模式識別,如自動目標辨識和數位信號處理。第一個版本為"ART1",是由卡本特和葛羅斯柏格所發展的。.

新!!: 聚类分析和非監督式學習 · 查看更多 »

马氏距离

#重定向 马哈拉诺比斯距离.

新!!: 聚类分析和马氏距离 · 查看更多 »

树 (数据结构)

在計算機科學中,樹(tree)是一种抽象数据类型(ADT)或是實作這種抽象数据类型的数据结构,用來模擬具有樹狀結構性質的数据集合。它是由n(n>0)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:.

新!!: 聚类分析和树 (数据结构) · 查看更多 »

模式识别

模式识别(Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展,人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说,特别重要的是对光学信息(通过视觉器官来获得)和声学信息(通过听觉器官来获得)的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。 计算机识别的显著特点是速度快、准确性高、效率高,在将来完全可以取代人工录入。 识别过程与人类的学习过程相似。以光學字元識別之“汉字识别”为例:首先将汉字图像进行处理,抽取主要表达特征并将特征与汉字的代码存在计算机中。就像老师教我们「这个字叫什么、如何写」记在大脑中。这一过程叫做“训练”。识别过程就是将输入的汉字图像经处理后与计算机中的所有字进行比较,找出最相近的字就是识别结果。这一过程叫做“匹配”。.

新!!: 聚类分析和模式识别 · 查看更多 »

欧式空间距离

#重定向 欧几里得距离.

新!!: 聚类分析和欧式空间距离 · 查看更多 »

欧几里得度量

#重定向 欧几里得距离.

新!!: 聚类分析和欧几里得度量 · 查看更多 »

汉明距离

在信息论中,两个等长字符串之间的汉明距离(Hamming distance)是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。 汉明重量是字符串相对于同样长度的零字符串的汉明距离,也就是说,它是字符串中非零的元素个数:对于二进制字符串来说,就是1的个数,所以11101的汉明重量是4。.

新!!: 聚类分析和汉明距离 · 查看更多 »

机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。 机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。.

新!!: 聚类分析和机器学习 · 查看更多 »

数据分析

資料分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 資料分析可以处理大量数据,并确定这些数据最有用的部分。本学科近年来的成功,很大程度上是因为制图技术的提高。这些图可以通过直接分析数据,来突出难以捕捉的关系;更重要的是,这些表达方法与基于现象分布的“先验”观念无关,与经典统计方法正相反。 資料分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得資料分析得以推广。資料分析是数学与计算机科学相结合的产物。 若是以固定时间为資料分析的颗粒单位,则称为时间序列分析,是主要作为销售数据商业分析的方法之一。 Category:数据分析 Category:科學方法.

新!!: 聚类分析和数据分析 · 查看更多 »

数据挖掘

数据挖掘(data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”(KDD)的分析步骤。数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些。 数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“資料庫知識發現”(KDD)过程,只不过是一些额外的环节。 类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.

新!!: 聚类分析和数据挖掘 · 查看更多 »

传出传入
嘿!我们在Facebook上吧! »