目录
向量空間模型
向量空间模型是一个把文本文件表示為标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相關排序。.
查看 潜在语义学和向量空間模型
信息檢索
資訊檢索(Information Retrieval)是从信息资源集合获得与信息需求相关的信息资源的活动。搜索可以基于全文或其他基于内容的索引。 自动信息检索系统用于减少所谓的“資訊超載”。许多大學和公共图书馆使用IR系统提供图书、期刊和其他文件的访问。Web搜索引擎是最可见的IR应用程序。.
查看 潜在语义学和信息檢索
矩阵
數學上,一個的矩陣是一个由--(row)--(column)元素排列成的矩形阵列。矩陣--的元素可以是数字、符号或数学式。以下是一个由6个数字元素构成的2--3--的矩阵: 大小相同(行数列数都相同)的矩阵之间可以相互加减,具体是对每个位置上的元素做加减法。矩阵的乘法则较为复杂。两个矩阵可以相乘,当且仅当第一个矩阵的--数等于第二个矩阵的--数。矩阵的乘法满足结合律和分配律,但不满足交换律。 矩阵的一个重要用途是解线性方程组。线性方程组中未知量的系数可以排成一个矩阵,加上常数项,则称为增广矩阵。另一个重要用途是表示线性变换,即是诸如.
查看 潜在语义学和矩阵
稀疏矩阵
在数值分析中,稀疏矩阵(Sparse matrix),是其元素大部分为零的矩阵。反之,如果大部分元素都非零,则这个矩阵是稠密的。在科学与工程领域中求解线性模型时经常出现大型的稀疏矩阵。 在使用计算机存储和操作稀疏矩阵时,经常需要修改标准算法以利用矩阵的稀疏结构。由于其自身的稀疏特性,通过压缩可以大大节省稀疏矩阵的内存代价。更为重要的是,由于过大的尺寸,标准的算法经常无法操作这些稀疏矩阵。.
查看 潜在语义学和稀疏矩阵
语义学
语义学(Semantics,La sémantique),也作「语意学」,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。但是各个领域里对语言的意义的研究目的不同:.
查看 潜在语义学和语义学
跨語檢索
跨語檢索,或稱「跨語資訊檢索」(Cross-Language Information Retrieval,CLIR),其定義採用 Oard, D. W.在1997年發表的文章《Cross-Language Information Retrieval Defined》。跨語檢索意指使用者使用某種自然語言的檢索詞彙檢索由另一種語言表達的文件。 舉例來說,使用者使用(自己熟悉的)中文產生一組檢索詞彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。.
查看 潜在语义学和跨語檢索
TF-IDF
#重定向 Tf-idf.
查看 潜在语义学和TF-IDF
潜在语义索引
潜在语义索引是一种搜索方法,也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为,在同样的语境中使用的词语一般具有相似的含义,LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是,通过建立那些出现在相同语境中的词语之间的联系,它能够提取出一个文本的具体内容是什么,而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。.
查看 潜在语义学和潜在语义索引
数据挖掘
数据挖掘(data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”(KDD)的分析步骤。数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些。 数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“資料庫知識發現”(KDD)过程,只不过是一些额外的环节。 类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.
查看 潜在语义学和数据挖掘
另见
潛在變數模型
自然語言處理
- Deeplearning4j
- N元语法
- OpenNLP
- Powerset
- Tatoeba
- 信息抽取
- 信息檢索
- 克莱尼星号
- 双字母组
- 問答系統
- 拼寫檢查
- 文字蘊涵
- 文本情感分析
- 文本挖掘
- 文档分类
- 機器翻譯史
- 潜在语义学
- 約限語言
- 自然语言
- 自然语言处理
- 自然语言理解
- 詞彙標示框架
- 词义消歧
- 词嵌入
- 词干提取
- 词袋模型
- 跨語檢索