我们正在努力恢复Google Play商店上的Unionpedia应用程序
传出传入
🌟我们简化了设计以优化导航!
Instagram Facebook X LinkedIn

向量空間模型

指数 向量空間模型

向量空间模型是一个把文本文件表示為标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相關排序。.

目录

  1. 15 关系: 向量奇异值分解余弦相似性信息檢索内积关键词倒排索引索引餘弦语料库LuceneWordNet正交潜在语义学潜在语义索引

向量

向量(vector,物理、工程等也称作--)是数学、物理学和工程科学等多个自然科學中的基本概念,指一个同时具有大小和方向,且满足平行四边形法则的几何對象。一般地,同时满足具有大小和方向两个性质的几何对象即可认为是向量(特别地,电流属既有大小、又有正负方向的量,但由于其运算不满足平行四边形法则,公认为其不属于向量)。向量常常在以符号加箭头标示以区别于其它量。与向量相对的概念称标量或数量,即只有大小、绝大多数情况下没有方向(电流是特例)、不满足平行四边形法则的量。.

查看 向量空間模型和向量

奇异值分解

奇异值分解(singular value decomposition)是线性代数中一种重要的矩阵分解,在信号处理、统计学等领域有重要应用。奇异值分解在某些方面与对称矩阵或厄米矩陣基于特征向量的对角化类似。然而这两种矩阵分解尽管有其相关性,但还是有明显的不同。对称阵特征向量分解的基础是谱分析,而奇异值分解则是谱分析理论在任意矩阵上的推广。.

查看 向量空間模型和奇异值分解

余弦相似性

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。這結果是與向量的長度無關的,仅仅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值为0到1之间。 注意這上下界對任何维度的向量空間中都適用,而且余弦相似性最常用於高维正空间。例如在信息检索中,每个词項被賦予不同的維度,而一个文档由一个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。 另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,會用到它来度量集群内部的凝聚力。.

查看 向量空間模型和余弦相似性

信息檢索

資訊檢索(Information Retrieval)是从信息资源集合获得与信息需求相关的信息资源的活动。搜索可以基于全文或其他基于内容的索引。 自动信息检索系统用于减少所谓的“資訊超載”。许多大學和公共图书馆使用IR系统提供图书、期刊和其他文件的访问。Web搜索引擎是最可见的IR应用程序。.

查看 向量空間模型和信息檢索

内积

#重定向 点积.

查看 向量空間模型和内积

关键词

關鍵字(Keyword),特指单个媒体在制作使用索引时,所用到的词汇。是图书馆学中的词汇,關鍵字搜索是网络搜索索引主要方法之一。 例如一本书的书名或部分书名、副标题、作者名都可以作为本书的关键词用于检索。现在大部分的图书及网上检索都是用關鍵字检索的形式。 相对于關鍵字,在检索中还有导出词的应用。 Category:圖書資訊科學.

查看 向量空間模型和关键词

倒排索引

倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 有两种不同的反向索引形式:.

查看 向量空間模型和倒排索引

索引

索引(Index),又稱引得,通檢,備檢,是一本书籍的重要组成部分,它把书中的重要名词罗列出来,并给出它们相应的页码,方便读者快速查找该名词的定义和含义。.

查看 向量空間模型和索引

餘弦

余弦是三角函数的一种。它的定义域是整个实数集,值域是。它是周期函数,其最小正周期为2π。在自变量为2nπ(n为整数)时,该函数有极大值1;在自变量为(2n+1)π时,该函数有极小值-1。余弦函数是偶函数,其图像关于y轴对称。.

查看 向量空間模型和餘弦

语料库

语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "" 的涵意即為 "body of text"。.

查看 向量空間模型和语料库

Lucene

Lucene是一套用于全文检索和搜尋的開放源碼程式庫,由Apache软件基金会支持和提供。Lucene提供了一個簡單卻強大的應用程式介面,能夠做全文索引和搜尋,在Java开发环境裡Lucene是一個成熟的免費開放原始碼工具;就其本身而論,Lucene是現在並且是這幾年,最受歡迎的免費Java資訊檢索程式庫。.

查看 向量空間模型和Lucene

WordNet

WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。开发工作从1985年开始,从此以后该项目接受了超过300万美元的资助(主要来源于对机器翻译有兴趣的政府机构)。 由于它包含了语义信息,所以有别于通常意义上的字典。WordNet根据词条的意义将它们分组,每一个具有相同意义的字条组称为一个synset(同义词集合)。WordNet为每一个synset提供了简短,概要的定义,并记录不同synset之间的语义关系。 WordNet的开发有两个目的:.

查看 向量空間模型和WordNet

正交

正交是线性代数的概念,是垂直這一直觀概念的推廣。作為一個形容詞,只有在一個確定的內積空間中才有意義。若內積空間中兩向量的內積為0,則稱它們是正交的。如果能夠定義向量間的夾角,則正交可以直觀的理解為垂直。物理中:運動的獨立性,也可以用正交來解釋。.

查看 向量空間模型和正交

潜在语义学

潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。 潛在語義學的觀念也被應用在資訊檢索上,所以有時潛在語義學也被稱為隱含語義索引(Latent Semantic Indexing,LSI)。.

查看 向量空間模型和潜在语义学

潜在语义索引

潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。.

查看 向量空間模型和潜在语义索引