我们正在努力恢复Google Play商店上的Unionpedia应用程序
传出传入
🌟我们简化了设计以优化导航!
Instagram Facebook X LinkedIn

文字探勘

指数 文字探勘

文字探勘,也被稱為文本挖掘、文字採礦、智慧型文字分析、文字資料探勘或文字知識發現,一般而言,指的是從非結構化的文字中,萃取出有用的重要資訊或知識。文字探勘是一個剛起步的學科領域,它是透過資訊擷取、資料探勘、機械學習、統計學、電腦語言學來達成。大部分的資訊(超過80%)都是以文字儲存,因此,文字探勘被認為是有高度的潛在商業價值。 de:Textmining.

目录

  1. 6 关系: 信息知识统计学计算语言学文字文本挖掘

信息

信息(英語:Information),又稱情報,是一个严谨的科学术语,其定义不统一,是由它的极端复杂性决定的,獲取信息的主要方法為六何法。信息的表现形式多不胜数:声音、图片、温度、体积、颜色……信息的类別也不计其数:电子信息、财经信息、天气信息、生物信息……。 在熱力學中,信息是指任何會影響系統的熱力學狀態的事件。 信息可以減少不確定性。事件的不確定性是以其發生機率來量測,發生機率越高,不確定性越低,事件的不確定性越高,越需要額外的信息減少其不確定性。位元是典型的,但也可以使用像納特之類的單位,例如投擲一個公正的硬幣,其信息為log2(2/1).

查看 文字探勘和信息

知识

知识是对某个主题确信的认识,并且这些认识拥有潜在的能力为特定目的而使用。意指透過經驗或聯想,而能夠熟悉進而了解某件事情;這種事實或狀態就稱為知識,其包括認識或了解某種科學、藝術或技巧。此外,亦指透過研究、調查、觀察或經驗而獲得的一整套知識或一系列資訊。认知事物的能力是哲学中充满争议的中心议题之一,并且拥有它自己的分支—知识论。从更加实用的层次来看,知识通常被某些人的群体所共享,在这种情况下,知识可以通过不同的方式来操作和管理。.

查看 文字探勘和知识

统计学

统计学是在資料分析的基础上,研究测定、收集、整理、归纳和分析反映數據資料,以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来,它廣泛地應用在各門學科,從自然科学、社會科學到人文學科,甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨,統計的面貌也逐漸改變,與資訊、計算等領域密切結合,是資料科學(Data Science)中的重要主軸之一。 譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

查看 文字探勘和统计学

计算语言学

計算語言學,亦稱電腦語言學(computational linguistics)是一門跨學科的研究領域,試圖找出自然語言的規律,建立運算模型,最終讓電腦能夠像人類般分析,理解和處理自然語言。 過去,計算語言學的研究一般由專門負責利用電腦處理自然語言的電腦學家進行。由於近年的研究顯示人類語言是超乎想像的複雜,現在的計算語言學研究多由來自不同學科的專家共同進行。一般來說,研究隊伍的成員有電腦學家、語言學家、語言專家(熟悉有關研究項目所要處理的語言的人),以至研究人工智能、認知心理學、數學、邏輯學等的專家。 計算語言學具有理論和應用的成分。理論計算語言學聚焦於理論語言學與認知科學;應用計算語言學聚焦於模擬人類使用語言的實用成果。 對於計算語言學的定義是:……從計算的觀點,以科學方法研究語言的學問。計算語言學家關注於提供各種語言學現象的計算模型。.

查看 文字探勘和计算语言学

文字

原始文字是人类用来紀錄特定事物、簡化圖像而成的書寫符號。文字在发展早期都是图画形式的,有些是以形表意,有些是以形表音,其中有表意文字(象形文字,即以形表意的文字),與語音無甚關係,中國文字便是從此漸次演變而成。有些中文字可以從表面、部首、字旁看到一些聯繫旁通的字義。而這些特色是拼音文字所沒有的。所以古代中國文字在不同的語系區域是擁有不同發音的,即方言的存在。漢朝已經被鄰近的族群借用其文字用作為書寫紀錄。一般认为,文字是文明社会的标志。马克思主义者认为文字是在阶级社会出現后产生的。 有些文字是以形表音的图画文字,其后歷經不同演變,部分發展成语言的符号系统,後亦可用來紀錄人生經驗與見聞。 以形表音的图画文字经过不断的发展,從古埃及文、羅馬文字、及拉丁文字則发展到后期都成为語音符號,即外文的字母,不同的外文字母合併成一個外國文字。由於不同字母分別付予一個音,不同的字母合併成切音(混音),形成音節,合併不合的音節,成為了记录语音的表音文字。.

查看 文字探勘和文字

文本挖掘

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上,首要的任务是,通过自然语言处理(NLP)和分析方法,将文本转化为数据进行分析。.

查看 文字探勘和文本挖掘