目录
51 关系: 基本的電腦科學主題列表,基数树,停用词,卡内基·梅隆大学,協同過濾,受控词表,向量空間模型,學科列表,差分隐私,个性化检索,中文信息处理,一体化医学语言系统,平均倒数排名,应用语言学,余弦相似性,信息抽取,化学信息学,圖像檢索,列表索引,呈现与内容分离,問答系統,关联反馈,第一型及第二型錯誤,網路搜尋查詢,维数灾难,監督式學習,相关反馈,Dice系数,聊天機器人,語言模型,词干提取,语音文档检索,貝氏網路,跨語檢索,阿米特·辛格尔,自然语言处理,IR,MAP,ProQuest Dialog,Tf-idf,搜索引擎,清华大学交叉信息研究院,潜在语义学,指代,文档分类,文本信息检索,文本挖掘,擴展查詢,數位人文學,數位圖書館,... 扩展索引 (1 更多) »
基本的電腦科學主題列表
電腦科學是資訊及理論基礎的研究以及電子計算機領域中的執行及應用,電腦科學中一個有名的主題分類系統是,它是由美國電腦協會所設計的,再電腦科學中一個基本的主題列表包括:.
基数树
在计算机科学中,基数树,或称Patricia trie/tree,或crit bit tree,压缩前缀树,是一种更节省空间的Trie(前缀树)。对于基数树的每个节点,如果该节点是唯一的子樹的话,就和父节点合并。.
查看 信息檢索和基数树
停用词
在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。不要把停用词与安全口令混淆。 这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。 对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像The Who、The The或Take That等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。 Hans Peter Luhn, 作为信息检索的先驱者之一,他创造了这个短语并在他的研究中应用这个概念,为信息检索工作做出了贡献。.
查看 信息檢索和停用词
卡内基·梅隆大学
卡内基·梅隆大学(Carnegie Mellon University,或,缩写为CMU)是一所位於美國賓夕法尼亞州匹茲堡的研究型私立大學。 卡内基梅隆大學的歷史從1900年美国钢铁大亨安德魯·卡內基創立的卡內基技術學校開始。1912年,學校發展為卡內基理工學院,並開始授予四年文憑。1967年,卡內基理工學院和梅隆工業研究學院合併,成為卡內基梅隆大學。大學主校園面積為0.57平方公里,距離匹茲堡市中心約5公里。校園附近有匹茲堡卡內基博物館、匹茲堡卡內基圖書館主館、卡內基音樂廳、申利公園、菲普斯溫室及植物園、匹茲堡高爾夫俱樂部以及匹茲堡大學主校園。 卡內基梅隆大學共有七所學院:卡内基工学院、藝術學院、迪特里希人文及社會科學學院、梅隆理學院、泰珀商學院、海因茨信息系统和公共政策學院、以及计算机科學學院。学校在硅谷和卡塔尔设有校区,并在全世界六大洲开设学位项目。 在2018年泰晤士高等教育世界大学排行榜中,卡内基梅隆大学排名世界第20位,在同一机构的学科排名中,学校的计算机科学排名世界第六位,工程和技术排名第十二位,商学和经济学排名第十五位。在USNews发布的排行榜中,学校排名全美第25位,其中计算机科学排名全美第一位。学校拥有世界顶尖的机器人学和戏剧学项目,以及全世界建立最早的计算机学院之一。 卡内基梅隆大学拥有来自全世界114个国家的13,650名学生,超过5,000名教职人员和超过100,000名的校友。历史上,学校的教员和校友中共有20人获得诺贝尔奖,12人获得图灵奖,22人获评美国艺术与科学院院士,19人进入美国科学促进会,72人入选美国国家学院,7人获得奥斯卡金像奖,44人获得托尼奖,114人获得艾美奖。 卡内基梅隆大學共有17個體育代表隊,並且是全美大學體育協會(NCAA)第三級別中的大學運動聯盟(UAA)成員。.
協同過濾
協同過濾(Collaborative Filtering),簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦使用者感興趣的資訊,個人透過合作的機制給予資訊相當程度的回應(如評分)並記錄下來以達到過濾的目的進而幫助別人篩選資訊,回應不一定侷限於特別感興趣的,特別不感興趣資訊的紀錄也相當重要。協同過濾又可分為評比(rating)或者群體過濾(social filtering)。其後成為電子商務當中很重要的一環,即根據某顧客以往的購買行為以及從具有相似購買行為的顧客群的購買行為去推薦這個顧客其「可能喜歡的品項」,也就是藉由社群的喜好提供個人化的資訊、商品等的推薦服務。除了推薦之外,近年來也發展出數學運算讓系統自動計算喜好的強弱進而去蕪存菁使得過濾的內容更有依據,也許不是百分之百完全準確,但由於加入了強弱的評比讓這個概念的應用更為廣泛,除了電子商務之外尚有資訊檢索領域、網路個人影音櫃、個人書架等的應用等。.
查看 信息檢索和協同過濾
受控词表
受控词表,又称为控制词汇表、受控词汇表或者控制词表, 是一种对知识加以组织整理,以便后续进行检索的手段。受控词表在主题词标引方案、主题词表、叙词表、分类法以及本体等语义谱成员之中都有应用。受控词表方案强制要求采用预先确定且经过权威认定的术语,而这些术语是由词表的设计者原先选定的。相比之下,自然语言词表并没有施加此类限制。.
查看 信息檢索和受控词表
向量空間模型
向量空间模型是一个把文本文件表示為标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相關排序。.
查看 信息檢索和向量空間模型
學科列表
這是一個學科的列表。學科是在大學教學(教育)與研究的知識分科。學科是被發表研究和學術雜誌、學會和系所所定義及承認的。 領域通常有子領域或分科,而其之間的分界是隨便且模糊的。 在中世紀的歐洲,大學裡只有四個學系:神學、醫學、法學和藝術,而最後一個的地位稍微低於另外三個的地位。在中世紀至十九世紀晚期的大學世俗化過程中,傳統的課程開始增輔進了非古典的語言及文學、物理、化學、生物和工程等學科,現今的學科起源便源自於此。到了二十世紀初期,教育學、社會學及心理學也開始出現在大學的課程裡了。 以下簡表展示出各大類科目,以及各大類科目中的主要科目。 "*"記號表示此一領域的學術地位是有爭議的。注意有些學科的分類也是有爭議的,如人類學和語言學究竟屬於社會科學亦或是人文學科,以及计算机技术是工程学科亦或是形式科学。.
查看 信息檢索和學科列表
差分隐私
差分隐私(differential privacy)是密码学中的一种手段,旨在提供一种当从查询时,最大化数据查询的准确性,同时最大限度减少识别其的机会。.
查看 信息檢索和差分隐私
个性化检索
个性化检索(Personalized search),是和信息检索相区别的网络搜索方式。它考虑了用户的区别,利用用户的信息对提问式或者检索结果进行修改或者过滤,以减轻用户的检索复杂度。个性化检索主要有两个方式:对用户的检索本身进行修改,以及对于搜索结果的重新排列。.
查看 信息檢索和个性化检索
中文信息处理
中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。 中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。 基於歷史、國家疆域、政治等各種問題,中文信息处理系統所需要處理的文字,有時不仅包括简体汉字、繁体汉字,也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字,周邊國家的日語假名、諺文,还包括古汉语文字、西夏文、契丹文等各種不同的文字。 中文信息處理可以從硬體及軟體兩方面去看,以下詳述中文信息處理的發展歷史、現況及未來發展等多方面的面貌。.
查看 信息檢索和中文信息处理
一体化医学语言系统
一体化医学语言系统(英语:Unified Medical Language System,UMLS),又称为统一医学语言系统,是对生物医学科学领域内许多受控词表的一部纲目式汇编。UMLS提供的是一种位于这些词表之间的映射结构,使这些不同的术语系统之间能够彼此转换;同时,UMLS也被看作是生物医学概念所构成的一部广泛全面的叙词表和本体。UMLS还进一步提供有若干适用于自然语言处理的工具。UMLS主要旨在供医学信息学领域的信息系统开发人员使用。 UMLS由下列组件构成: 美国国立医学图书馆(英文:National Library of Medicine,NLM)设计了并负责维护着UMLS。UMLS每季度更新一次,且可以免费使用。该项目最初是由Donald Lindberg博士于1986年发起的(Donald Lindberg后来担任了国立医学图书馆馆长)。.
平均倒数排名
平均倒数排名是统计学中,依据排序的正确性,对查询请求响应结果的评估。查询响应结果的倒数排名是第一个正确答案的倒数积。平均倒数排名是多个查询结果的平均值。: 平均倒数排名和调和平均数有些相似。.
查看 信息檢索和平均倒数排名
应用语言学
应用语言学是研究语言在各个领域中实际应用的语言学分支,它研究语言如何能够得到最佳利用的问题。 应用语言学注重解决现实当中的问题,一般不接触语言的历史形态。应用语言学可以看成是各种语言学理论的试验场。 应用语言学还有广义和狭义之分:.
查看 信息檢索和应用语言学
余弦相似性
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。這結果是與向量的長度無關的,仅仅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值为0到1之间。 注意這上下界對任何维度的向量空間中都適用,而且余弦相似性最常用於高维正空间。例如在信息检索中,每个词項被賦予不同的維度,而一个文档由一个向量表示,其各個維度上的值對應于該词項在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。 另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,會用到它来度量集群内部的凝聚力。.
查看 信息檢索和余弦相似性
信息抽取
信息抽取(Information Extraction,簡稱IE,又譯資訊擷取技術)主要是從大量文字資料中自動抽取特定訊息(Particular Information),以作為資料庫存取(Database Access)之用的技術。 信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算,具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化(例:不包含元數據)形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序,監督一新聞資料饋流,需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。.
查看 信息檢索和信息抽取
化学信息学
化学信息学(Cheminformatics)是使用计算机和信息技术应用于化学领域的一系列问题。这些计算机(In silico)技术被用于在制药公司的药物发现过程中。这些方法也可以以各种其他形式用于化学和相关行业。.
查看 信息檢索和化学信息学
圖像檢索
圖像檢索,又称-- ,系統是一個電腦瀏覽的系統,從一個大型的數位圖像資料庫去檢索和檢索圖像。大多傳統和一般圖像檢索的方式是利用一些增加元數據(metadata)的方法,例如:字幕、關鍵詞或是圖像的說明,如此一來就可以透過註解詞完成檢索。人工的圖像註解是費時、費力並且昂貴;為了解決這個問題,已經有大量的研究在做自動圖像註解方面上。此外,越來越多的社會網路應用和語義網已經產生了數個以網路為基底發展的圖像註解工具。 第一個以微電腦為基底開發的圖像資料庫檢索系統,是由80年代麻省理工學院裡的Banireddy Prasad、、Hoo-min Toong、and Stuart Madnick所共開發出來的。這是記載於1987年2月發行的IEEE Transactions on Industrial Electronics。.
查看 信息檢索和圖像檢索
列表索引
列表索引,列舉各種列表以方便快速找尋资料。列表的排序參考杜威十進制圖書分類法。.
查看 信息檢索和列表索引
呈现与内容分离
呈现与内容分离(或“样式与内容分离”,原则的特例)是一句常见的熟语、一种设计哲学,同时也是在多种出版技术纪律中应用的一种方法学,涉及到信息检索、、网页设计、網頁程式設計、文字处理、桌面出版、等出版领域。其为关注点分离这个更加宽泛的哲学的特例。.
查看 信息檢索和呈现与内容分离
問答系統
問答系統(Question answering),是未來自然語言處理的明日之星。問答系統外部的行為上來看,其與目前主流資訊檢索技術有兩點不同:首先是查詢方式為完整而口語化的問句,再來則是其回傳的為高精準度網頁結果或明確的答案字串。以為例,使用者不需要思考該使用甚麼樣的問法才能夠得到理想的答案,只需要用口語化的方式直接提問如「請問誰是美國總統?」即可。而系統在瞭解使用者問句後,會非常清楚地回答「奧巴馬是美國總統」。面對這種系統,使用者不需要費心去一一檢視搜尋引擎回傳的網頁,對於資訊檢索的效率與資訊的普及都有很大幫助。從系統內部來看,問答系統使用了大量有別於傳統資訊檢索系統自然語言處理技術,如自然語言剖析(Natural Language Parsing)、問題分類(Question Classification)、專名辨識(Named Entity Recognition)等等。少數系統甚至會使用複雜的邏輯推理機制,來區隔出需要推理機制才能夠區隔出來的答案。在系統所使用的資料上,除了傳統資訊檢索會使用到的資料外(如字典),問答系統還會使用本體論等語义資料,或者利用網頁來增加資料的豐富性。 截至目前為止,最著名的問答系統應屬IBM的-zh-cn:沃森; zh-tw:華生;-系統。該系統在2011年於Jeopardy節目中,與人類同場較勁,並獲得最後的勝利。.
查看 信息檢索和問答系統
关联反馈
关反馈是一些信息检索系统的特征。 相关反馈背后的观点是,利用起初返回的给定查询的结果,利用那些结果是否相关的结果信息去执行一个新的查询。我们能够有效的区分三种形式的反馈:显式反馈,隐式反馈,盲反馈或“假”反馈。.
查看 信息檢索和关联反馈
第一型及第二型錯誤
一型及第二型错误(Type I error & Type II error)或型一錯誤及型二錯誤為统计学中推論統計學的名詞。 在假設检验中,有一種假設稱為“零假设(虛無假設)”。假設檢定的目的就是利用統計的方式,推測零假设是否成立。若零假设(虛無假設)事實上成立,但統計檢驗的結果不支持零假设(拒絕零假设),這種錯誤稱為第一型錯誤。若零假设事實上不成立,但統計檢驗的結果支持零假设(接受零假设),這種錯誤稱為第二型錯誤。 以利用驗孕棒驗孕為例,此時未懷孕為零假设。若用驗孕棒為一位未懷孕的女士驗孕,結果是已懷孕,這是第一型錯誤。若用驗孕棒為一位孕婦驗孕,結果是未懷孕,這是第二型錯誤。.
網路搜尋查詢
網路搜索查詢(Web Search Query)是使用者為了滿足其資訊需求而對搜索引擎下達的查詢字句。網路搜索查詢通常無特定結構、語意模稜兩可,需要有嚴格句法規章的標準查詢語言(Query Language)加以處理。.
查看 信息檢索和網路搜尋查詢
维数灾难
维数灾难(curse of dimensionality,又名维度的詛咒)是一个最早由理查德·贝尔曼(Richard E. Bellman)在考虑优化问题时首次提出来的术语,用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到,如物理空间通常只用三维来建模。 举例来说,100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格采样一单位超正方体,则需要1020 个采样点:所以,这个10维的超正方体也可以说是比单位区间大1018倍。(这个是理查德·贝尔曼所举的例子) 在很多领域中,如采样、组合数学、机器学习和数据挖掘都有提及到这个名字的现象。这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。稀疏性对于任何要求有统计学意义的方法而言都是一个问题,为了获得在统计学上正确并且有可靠的结果,用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长。而且,在组织和搜索数据时也有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。 “维数灾难”通常是用来作为不要处理高维数据的无力借口。然而,学术界一直都对其有兴趣,而且在继续研究。另一方面,也由于的存在,其概念是指任意低维数据空间可简单地通过增加空余(如复制)或随机维将其转换至更高维空间中,相反地,许多高维空间中的数据集也可削减至低维空间数据,而不必丢失重要信息。这一点也通过众多降维方法的有效性反映出来,如应用广泛的主成分分析方法。针对距离函数和最近邻搜索,当前的研究也表明除非其中存在太多不相关的维度,带有维数灾难特色的数据集依然可以处理,因为相关维度实际上可使得许多问题(如聚类分析)变得更加容易。另外,一些如马尔科夫蒙特卡洛或共享最近邻搜索方法经常在其他方法因为维数过高而处理棘手的数据集上表现得很好。.
查看 信息檢索和维数灾难
監督式學習
監督式學習(Supervised learning),是一個機器學習中的方法,可以由訓練資料中學到或建立一個模式(函數 / learning model),並依此模式推測新的实例。訓練資料是由輸入物件(通常是向量)和預期輸出所組成。函數的輸出可以是一個連續的值(稱為迴歸分析),或是預測一個分類標籤(稱作分類)。 一個監督式學習者的任務在觀察完一些訓練範例(輸入和預期輸出)後,去預測這個函數對任何可能出現的輸入的值的输出。要達到此目的,學習者必須以"合理"(見歸納偏向)的方式從現有的資料中一般化到非觀察到的情況。在人類和動物感知中,則通常被稱為概念學習(concept learning)。.
查看 信息檢索和監督式學習
相关反馈
关反馈,起源于信息检索系统领域,其思路是将给定查询最先返回的结果,和这些结果是否与新查询是否相关的信息利用起来。区别三种类型的反馈将很有意义:显式反馈、隐式反馈和盲式或伪反馈。.
查看 信息檢索和相关反馈
Dice系数
Dice系数, 根据 Lee Raymond Dice 命名,是一种集合相似度度量函数,通常用于计算两个样本的相似度: 它和Sørensen 相似度指数相同, 也称作Sørensen-Dice系数。 它在形式上和Jaccard指数没多大区别,但是有些不同的性质。 和Jaccard类似,它的范围为0到1。 与Jaccard不同的是,相应的差异函数 不是一个合适的距离度量措施,因为它没有三角形不等性的性质。例如给定,, 和, 前两个集合的距离为1, 而第三个集合和其他任意两个集合的距离为三分之一。 与Jaccard类似, 集合操作可以用两个向量 A 和B的操作来表示: s_v.
查看 信息檢索和Dice系数
聊天機器人
聊天機器人(Chatterbot)是經由對話或文字進行交談的電腦程式。能夠模擬人類對話,通過圖靈測試。 聊天機器人可用於實用的目的,如客戶服務或資訊獲取。有些聊天機器人會搭載自然語言處理系統,但大多簡單的系統只會擷取輸入的關鍵字,再從數據庫中找尋最合適的應答句。目前,聊天機器人是虛擬助理(如Google智能助理)的一部分,可以與許多組織的應用程式,網站以及即時消息平台(Facebook Messenger)連接。非助理應用程式包括娛樂目的的聊天室,研究和特定產品促銷,社交機器人。.
查看 信息檢索和聊天機器人
語言模型
統計式的語言模型是藉由一個機率分佈,而指派機率給字詞所組成的字串: P(w_1,\ldots,w_m) 語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標註,句法分析和資訊檢索。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n元語法(N-gram)模型之原因。 在語音辨識和在資料壓縮的領域中,這種模式試圖捕捉語言的特性,並預測在語音串列中的下一個字。 當用於資訊檢索,語言模型是與文件有關的集合。以查詢字「Q」作為輸入,依據機率將文件作排序,而該機率P(Q|M_d)代表該文件的語言模型所產生的語句之機率。.
查看 信息檢索和語言模型
词干提取
在词法学和信息检索里,词干提取是去除词缀得到词根的过程─—得到单词最一般的写法。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能得到满意的结果,即使该词干不是词的有效根。从1968年开始在计算机科学领域出现了词干提取的相应算法。很多搜索引擎在处理词汇时,对同义词采用相同的词干作为查询拓展,该过程叫做归并。 词干提取项目一般涉及到词干提取算法或词干提取器。.
查看 信息檢索和词干提取
语音文档检索
语音文档检索是针对以声音形式存在的文档的信息检索。其基本定义为:是给定一个检索以及一定数量的语音文档,返回与检索需求关系最为接近的文档集合。从狭义上说,检索需求指的是一些检索词或短语,而相关性指的是语音内容与检索需求的关系。从广义上说,检索需求还包括说话人,说话风格等高层次的信息。 最基本的语音文档检索系统有以下三个主要任务:.
查看 信息檢索和语音文档检索
貝氏網路
貝氏網路(Bayesian network),又稱信念網絡(belief network)或是有向無環圖模型(directed acyclic graphical model),是一種機率圖型模型,藉由有向無環圖(directed acyclic graphs, or DAGs)中得知一組隨機變數及其n組條件機率分配(conditional probability distributions, or CPDs)的性質。舉例而言,貝氏網路可用來表示疾病和其相關症狀間的機率關係;倘若已知某種症狀下,貝氏網路就可用來計算各種可能罹患疾病之發生機率。 一般而言,貝氏網路的有向無環圖中的節點表示隨機變數,它們可以是可觀察到的變量,抑或是潛在變量、未知參數等。連接兩個節點的箭頭代表此兩個隨機變數是具有因果關係或是非條件獨立的;而两个節點間若沒有箭頭相互連接一起的情況就稱其隨機變數彼此間為條件獨立。若兩個節點間以一個單箭頭連接在一起,表示其中一個節點是「因(parents)」,另一個是「果(descendants or children)」,兩節點就會產生一個條件機率值。比方說,我們以X_i表示第i個節點,而X_i的「因」以P_i表示,X_i的「果」以C_i表示;圖一就是一種典型的貝氏網路結構圖,依照先前的定義,我們就可以輕易的從圖一可以得知: 大部分的情況下,貝氏網路適用在節點的性質是屬於離散型的情況下,且依照P(X_i|P_i)此條件機率寫出條件機率表(conditional probability table, or CPT),此條件機率表的每一--(row)列出所有可能發生的P_i,每一--(column)列出所有可能發生的X_i,且任一--的機率總和必為1。寫出條件機率表後就很容易將事情給條理化,且輕易地得知此貝氏網路結構圖中各節點間之因果關係;但是條件機率表也有其缺點:若是節點X_i是由很多的「因」所造成的「果」,如此條件機率表就會變得在計算上既複雜又使用不便。下圖為圖一貝氏網路中某部分結構圖之條件機率表。.
查看 信息檢索和貝氏網路
跨語檢索
跨語檢索,或稱「跨語資訊檢索」(Cross-Language Information Retrieval,CLIR),其定義採用 Oard, D. W.在1997年發表的文章《Cross-Language Information Retrieval Defined》。跨語檢索意指使用者使用某種自然語言的檢索詞彙檢索由另一種語言表達的文件。 舉例來說,使用者使用(自己熟悉的)中文產生一組檢索詞彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。.
查看 信息檢索和跨語檢索
阿米特·辛格尔
阿米特‧辛格爾(Amit Singhal,)是搜尋引擎公司Google的榮譽工程師。他的研究領域包括資訊檢索及其相關的網頁搜尋、網路圖形分析及搜尋使用者介面等應用。阿米特還負責督導 Google 搜尋品質小組,協助開發 Google 搜尋演算法。.
查看 信息檢索和阿米特·辛格尔
自然语言处理
自然語言處理(natural language processing,缩写作 NLP)是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言認知則是指讓電腦「懂」人類的語言。 自然語言生成系統把計算機數據轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程序更易于處理的形式。.
查看 信息檢索和自然语言处理
IR
Ir可以是下列意思:.
查看 信息檢索和IR
MAP
地图(Map)為將某區域以視覺效果呈現的圖樣。 Map或MAP可能是以下事物:.
查看 信息檢索和MAP
ProQuest Dialog
DIALOG系统是目前世界上最大的国际联机情报检索系统,存储的文献型和非文献型记录三亿三千万篇,占世界各检索系统数据库文献总量的一半以上。 文档的专业范围涉及综合性学科、自然科学、应用科学和工艺学、社会科学和人文科学、商业经济和时事报导等诸多领域。利用DIALOG系统,可进行项目查新、文献调研、课题立项、申报专利、了解市场动态和竞争对手、新产品开发、公司的背景情况、经济预测等等信息。.
Tf-idf
tf-idf(term frequency–inverse document frequency)是一種用於資訊檢索與文本挖掘的常用加權技術。tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。tf-idf加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了tf-idf以外,互聯網上的搜尋引擎還會使用基於連結分析的評級方法,以確定文件在搜尋結果中出現的順序。.
查看 信息檢索和Tf-idf
搜索引擎
搜索引擎(search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。搜索结果一般被称为“hits”,通常会以表单的形式列出。搜索引擎和其他信息过载管理技术类似,可缩小信息的搜索时间、搜索范围等。网络搜索引擎是最常见、公开的一种搜索引擎,其功能为搜索万维网上储存的信息。.
查看 信息檢索和搜索引擎
清华大学交叉信息研究院
清华大学交叉信息研究院,是清华大学下属的交叉信息科学研究实体,由图灵奖获得者姚期智教授领衔。其前身是同样由姚期智教授领导的,后成为交叉信息研究院重要组成部分的理论计算机科学研究中心。.
潜在语义学
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。 潛在語義學的觀念也被應用在資訊檢索上,所以有時潛在語義學也被稱為隱含語義索引(Latent Semantic Indexing,LSI)。.
查看 信息檢索和潜在语义学
指代
指代(coreference)為語言學中為了避免已經出現的字詞重複出現在文章的句子上,導致語句結構過於贅述和語意不夠清晰,所以使用代詞(pronouns)或是普通名詞(common nouns)來代替已經出現過的字詞謂之。.
查看 信息檢索和指代
文档分类
文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。 需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。 可以根据主题来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。.
查看 信息檢索和文档分类
文本信息检索
文本信息检索是针对文本的信息檢索技术。在技术社区中,文本信息检索常常被等同于信息检索技术本身。 相对视频、音频检索而言,文本信息检索是发展较快也较成熟的,其他模态的信息检索技术,往往也要仰赖文本信息检索的支持。 虽然网络搜索引擎目前已不仅仅局限于对文本进行检索,文本信息检索仍然是大部分网络搜索引擎的基础。.
查看 信息檢索和文本信息检索
文本挖掘
文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。.
查看 信息檢索和文本挖掘
擴展查詢
擴展查詢(Query expansion),也有人從英文翻譯為查詢擴展、查詢擴張、查詢問句擴展、字詞擴張、查詢延伸、查詢字詞擴展、自動查詢擴展、查詢語擴充……等。為了改善資訊檢索召回率(Recall),而將原來查詢句增加新的關鍵字來重新查詢,此一技術稱為擴展查詢。搜索引擎會將使用者輸入的查詢句先做一次檢索,根據檢索出來的文件,選取出適合的關鍵字,加到查詢句重新檢索,藉此來找出更多的相關文件。 擴展查詢使用在以下技術中:.
查看 信息檢索和擴展查詢
數位人文學
數位人文學 (英語:Digital humanities, DH)是電腦運算或資訊科技與人文學的交叉學科 。可被定義為以合作、跨學科與電腦運算等新方法來進行人文學的研究、教學、出版等學術工作 。數位人文學將數位工具與方法帶進人文學中,並認為印刷書不再是知識生產與傳布的主要媒體。 藉由產出並使用新的應用與科技,數位人文學使得新型態的教學與研究成為可能。而同時又研究新科技如何衝擊文化遺產與數位文化 。因此,數位人文學的顯著特徵之一,是其對人文學與資訊科技雙方關係的深化:透過科技進行人文學研究,以及以人文學方法來研究科技對人的影響。.
查看 信息檢索和數位人文學
數位圖書館
數位圖書館(Digital Library)是一種館藏以數碼化格式儲存,可以利用電腦存取的圖書館,而傳統圖書館的館藏則以印刷、微縮膠片或其他媒體等相對格式為館藏主體。數位化的內容可以被存在本地端或透過電腦網路由遠端存取。數位圖書館可說是一種資訊檢索系統。 DELOS數位圖書館的委員定義了數位圖書館,內容如下: 對於印刷品數位圖書館的第一個用途也許是在1988年報告到全國主動性研究公司。在1994年,數位圖書館由NSF/DARPA/NASA數位圖書館首先大眾化。雖然現在還會偶爾使用舊稱如電子圖書館(Electronic Library)或虛擬圖書館(Virtual Library),但是現在英文的"Electronic Library"多數是指由政府機構提供的入口系統,例如。.
查看 信息檢索和數位圖書館
書目計量學
書目計量學(Bibliometrics)是1969年由Alan Pritchard提出,將其定義為「應用數學和統計學方法,藉由計算與分析文字資訊的不同層面來顯現文字資訊的處理過程,以及某一學科發展的性質與趨勢」。書目計量學與資訊計量學和科學計量學,簡稱「三計學」,為網路資訊計量學之基礎。.
查看 信息檢索和書目計量學
亦称为 情报检索系统。