目录
19 关系: 停用词,天睿,尼克·達洛伊西奧,常识知识库,余弦相似性,矩阵,隐含狄利克雷分布,SPSS,Tf-idf,TM,UIMA,Wolfram Mathematica,搜索引擎,本体编辑器,文字探勘,文档分类,文本挖掘,文本情感分析,数据挖掘。
停用词
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。不要把停用词与安全口令混淆。 这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。 对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像The Who、The The或Take That等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。 Hans Peter Luhn, 作为信息检索的先驱者之一,他创造了这个短语并在他的研究中应用这个概念,为信息检索工作做出了贡献。.
查看 文本挖掘和停用词
天睿
天睿資訊系統有限公司(Teradata Corporation,)為美國商業軟體公司,以大數據分析、數據倉庫和整合行銷管理解決方案為主要業務。天睿成立於1979年,前身隸屬於NCR公司,自2007年10月起從NCR獨立,並由麥克·科勒擔任執行長兼總裁。天睿公司總部設在俄亥俄州邁阿密斯堡。.
查看 文本挖掘和天睿
尼克·達洛伊西奧
尼克·達洛伊西奧(Nick D'Aloisio,1995年11月1日—),是Trimit行政總裁,現年20歲,2011前開發出SummlyApp,可以將任何新聞內容自動濃縮成400字概要,令App用戶可以速讀新聞。李嘉誠旗下 Horizons Ventures 公司在2011年已經向尼克·達洛伊西奧公司注資25萬美金;其他投資者包括約翰·連儂(John Lennon)的妻子小野洋子(Yoko Uno)、Zynga行政總裁Mark Pincus。.
常识知识库
常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。.
查看 文本挖掘和常识知识库
余弦相似性
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。這結果是與向量的長度無關的,仅仅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值为0到1之间。 注意這上下界對任何维度的向量空間中都適用,而且余弦相似性最常用於高维正空间。例如在信息检索中,每个词項被賦予不同的維度,而一个文档由一个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。 另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,會用到它来度量集群内部的凝聚力。.
查看 文本挖掘和余弦相似性
矩阵
數學上,一個的矩陣是一个由--(row)--(column)元素排列成的矩形阵列。矩陣--的元素可以是数字、符号或数学式。以下是一个由6个数字元素构成的2--3--的矩阵: 大小相同(行数列数都相同)的矩阵之间可以相互加减,具体是对每个位置上的元素做加减法。矩阵的乘法则较为复杂。两个矩阵可以相乘,当且仅当第一个矩阵的--数等于第二个矩阵的--数。矩阵的乘法满足结合律和分配律,但不满足交换律。 矩阵的一个重要用途是解线性方程组。线性方程组中未知量的系数可以排成一个矩阵,加上常数项,则称为增广矩阵。另一个重要用途是表示线性变换,即是诸如.
查看 文本挖掘和矩阵
隐含狄利克雷分布
含狄利克雷分布(Latent Dirichlet allocation,简称LDA),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。 LDA首先由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。.
SPSS
SPSS是統計產品與服務解決方案(Statistical Product and Service Solutions)的簡稱,為IBM公司推出的一系列用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟件產品及相關服務的總稱,有Windows和macOS等版本。.
查看 文本挖掘和SPSS
Tf-idf
tf-idf(term frequency–inverse document frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf-idf加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了tf-idf以外,互聯網上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。.
查看 文本挖掘和Tf-idf
TM
TM 可以是.
查看 文本挖掘和TM
UIMA
UIMA(全称“Unstructured Information Management Architecture”,即“非结构化信息管理架构”)于2009年3月作为OASIS标准,是一个组件化的软件架构,用于分析同终端用户相关联的大容量非结构化信息。.
查看 文本挖掘和UIMA
Wolfram Mathematica
Wolfram Mathematica (简称:Mathematica)是一款符号计算软件,有时候也被称为计算机代数系统,广泛使用于科学、工程、数学、计算等领域。 它是由英国科学家斯蒂芬·沃尔夫勒姆提出构想,并且由他所领导的沃尔夫勒姆研究公司(位于美国伊利诺伊州香槟市)开发的一款广泛使用的科学计算软件。它拥有强大的数值计算和符号运算能力,是目前为止使用最广泛的数学软件之一。 Wolfram 语言是用于Mathematica的编程语言。 沃尔夫勒姆和他的工作团队于1986年开始Mathematica的研发。Mathematica 1.0于1988年1月23日正式发行。2008年12月发行的Mathematica 7.0版及之后的版本有中文版。.
搜索引擎
搜索引擎(search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。搜索结果一般被称为“hits”,通常会以表单的形式列出。搜索引擎和其他信息过载管理技术类似,可缩小信息的搜索时间、搜索范围等。网络搜索引擎是最常见、公开的一种搜索引擎,其功能为搜索万维网上储存的信息。.
查看 文本挖掘和搜索引擎
本体编辑器
本体编辑器,又称为本体论编辑器或者本体管理环境,是指设计用于辅助本体之创建、编辑、保存或处理等操作的应用程序。它们往往在众多的本体语言之中选用其一来表达本体。不过,有些本体编辑器还可以采用其他本体语言进行导出。尽管人们大都习惯于称此类工具为“本体编辑器”,而本体编辑器的功能实际上往往并不仅局限于本体的创建、编辑和保存。.
查看 文本挖掘和本体编辑器
文字探勘
文字探勘,也被稱為文本挖掘、文字採礦、智慧型文字分析、文字資料探勘或文字知識發現,一般而言,指的是從非結構化的文字中,萃取出有用的重要資訊或知識。文字探勘是一個剛起步的學科領域,它是透過資訊擷取、資料探勘、機械學習、統計學、電腦語言學來達成。大部分的資訊(超過80%)都是以文字儲存,因此,文字探勘被認為是有高度的潛在商業價值。 de:Textmining.
查看 文本挖掘和文字探勘
文档分类
文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。 需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。 可以根据主题来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。.
查看 文本挖掘和文档分类
文本挖掘
文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。.
查看 文本挖掘和文本挖掘
文本情感分析
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。 通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)。.
查看 文本挖掘和文本情感分析
数据挖掘
数据挖掘(data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”(KDD)的分析步骤。数据挖掘:实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”,“数据挖掘”一词是后来为了营销才加入的。通常情况下,使用更为正式的术语,(大规模)数据分析和分析学,或者指出实际的研究方法(例如人工智能和机器学习)会更准确一些。 数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“資料庫知識發現”(KDD)过程,只不过是一些额外的环节。 类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样(可能)过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.
查看 文本挖掘和数据挖掘