文本挖掘

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程（通常进行分析，同时加上一些衍生语言特征以及消除杂音，随后插入到数据库中），产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。典型的文本挖掘方法包括文本分类，文本聚类，概念/实体挖掘，生产精确分类，观点分析，文档摘要和实体关系模型（即，学习已命名实体之间的关系）。文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取，数据挖掘技术包括链接和关联分析、可视化和预测分析。本质上，首要的任务是，通过自然语言处理（NLP）和分析方法，将文本转化为数据进行分析。.

14 关系: 加密，學科列表，信息，信息檢索，網誌，统计学，相关性，计算语言学，模式识别，机器学习，文字探勘，文本挖掘，数据库，数据挖掘。

加密

在密码学中，加密（Encryption）是将明文信息改變為難以讀取的密文內容，使之不可读的过程。只有擁有解密方法的對象，經由解密過程，才能將密文還原為正常可讀的內容。.

新！!: 文本挖掘和加密 · 查看更多 »

學科列表

這是一個學科的列表。學科是在大學教學(教育)與研究的知識分科。學科是被發表研究和學術雜誌、學會和系所所定義及承認的。領域通常有子領域或分科，而其之間的分界是隨便且模糊的。在中世紀的歐洲，大學裡只有四個學系：神學、醫學、法學和藝術，而最後一個的地位稍微低於另外三個的地位。在中世紀至十九世紀晚期的大學世俗化過程中，傳統的課程開始增輔進了非古典的語言及文學、物理、化學、生物和工程等學科，現今的學科起源便源自於此。到了二十世紀初期，教育學、社會學及心理學也開始出現在大學的課程裡了。以下簡表展示出各大類科目，以及各大類科目中的主要科目。 "*"記號表示此一領域的學術地位是有爭議的。注意有些學科的分類也是有爭議的，如人類學和語言學究竟屬於社會科學亦或是人文學科，以及计算机技术是工程学科亦或是形式科学。.

新！!: 文本挖掘和學科列表 · 查看更多 »

信息

信息（英語：Information），又稱情報，是一个严谨的科学术语，其定义不统一，是由它的极端复杂性决定的，獲取信息的主要方法為六何法。信息的表现形式多不胜数：声音、图片、温度、体积、颜色……信息的类別也不计其数：电子信息、财经信息、天气信息、生物信息……。在熱力學中，信息是指任何會影響系統的熱力學狀態的事件。信息可以減少不確定性。事件的不確定性是以其發生機率來量測，發生機率越高，不確定性越低，事件的不確定性越高，越需要額外的信息減少其不確定性。位元是典型的，但也可以使用像納特之類的單位，例如投擲一個公正的硬幣，其信息為log2(2/1).

新！!: 文本挖掘和信息 · 查看更多 »

信息檢索

資訊檢索（Information Retrieval）是从信息资源集合获得与信息需求相关的信息资源的活动。搜索可以基于全文或其他基于内容的索引。自动信息检索系统用于减少所谓的“資訊超載”。许多大學和公共图书馆使用IR系统提供图书、期刊和其他文件的访问。Web搜索引擎是最可见的IR应用程序。.

新！!: 文本挖掘和信息檢索 · 查看更多 »

網誌

網誌（Blog）是一種由个人管理、張貼新的文章、圖片或影片的網站或線上日記，用來紀錄、抒發情感或分享資訊林東清，管理資訊系統，。網誌上的文章通常根據張貼時間，以倒序方式由新到舊排列。许多博客作者專注评论特定的--或新闻，其他則作为個人日记。一个典型的博客结合了文字、--、其他博客或网站的超連結、及其它與主题相关的媒体。能够让读者以互动的方式留下意见，是许多博客的重要要素。大部分的博客內容以文字为主，也有一些博客專注艺术、攝影、视频、音乐、播客等各種主題。網誌是社会媒体网络的一部分。.

新！!: 文本挖掘和網誌 · 查看更多 »

统计学

统计学是在資料分析的基础上，研究测定、收集、整理、归纳和分析反映數據資料，以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来，它廣泛地應用在各門學科，從自然科学、社會科學到人文學科，甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨，統計的面貌也逐漸改變，與資訊、計算等領域密切結合，是資料科學(Data Science)中的重要主軸之一。譬如自一組數據中，可以摘要並且描述這份數據的集中和離散情形，這個用法稱作為描述統計學。另外，觀察者以數據的形態，建立出一個用以解釋其隨機性和不確定性的數學模型，以之來推論研究中的步驟及母體，這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

新！!: 文本挖掘和统计学 · 查看更多 »

计算语言学

計算語言學，亦稱電腦語言學（computational linguistics）是一門跨學科的研究領域，試圖找出自然語言的規律，建立運算模型，最終讓電腦能夠像人類般分析，理解和處理自然語言。過去，計算語言學的研究一般由專門負責利用電腦處理自然語言的電腦學家進行。由於近年的研究顯示人類語言是超乎想像的複雜，現在的計算語言學研究多由來自不同學科的專家共同進行。一般來說，研究隊伍的成員有電腦學家、語言學家、語言專家（熟悉有關研究項目所要處理的語言的人），以至研究人工智能、認知心理學、數學、邏輯學等的專家。計算語言學具有理論和應用的成分。理論計算語言學聚焦於理論語言學與認知科學；應用計算語言學聚焦於模擬人類使用語言的實用成果。對於計算語言學的定義是：……從計算的觀點，以科學方法研究語言的學問。計算語言學家關注於提供各種語言學現象的計算模型。.

新！!: 文本挖掘和计算语言学 · 查看更多 »

模式识别

模式识别（Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息（通过视觉器官来获得）和声学信息（通过听觉器官来获得）的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。计算机识别的显著特点是速度快、准确性高、效率高，在将来完全可以取代人工录入。识别过程与人类的学习过程相似。以光學字元識別之“汉字识别”为例：首先将汉字图像进行处理，抽取主要表达特征并将特征与汉字的代码存在计算机中。就像老师教我们「这个字叫什么、如何写」记在大脑中。这一过程叫做“训练”。识别过程就是将输入的汉字图像经处理后与计算机中的所有字进行比较，找出最相近的字就是识别结果。这一过程叫做“匹配”。.

新！!: 文本挖掘和模式识别 · 查看更多 »

机器学习

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。.

新！!: 文本挖掘和机器学习 · 查看更多 »

文字探勘

文字探勘，也被稱為文本挖掘、文字採礦、智慧型文字分析、文字資料探勘或文字知識發現，一般而言，指的是從非結構化的文字中，萃取出有用的重要資訊或知識。文字探勘是一個剛起步的學科領域，它是透過資訊擷取、資料探勘、機械學習、統計學、電腦語言學來達成。大部分的資訊(超過80%)都是以文字儲存，因此，文字探勘被認為是有高度的潛在商業價值。 de:Textmining.

新！!: 文本挖掘和文字探勘 · 查看更多 »

文本挖掘

新！!: 文本挖掘和文本挖掘 · 查看更多 »

数据库

--，簡而言之可視為電子化的檔案櫃——儲存电子檔案的處所，使用者可以對檔案中的資料執行新增、擷取、更新、刪除等操作。所謂「資料庫」係以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。.

新！!: 文本挖掘和数据库 · 查看更多 »

数据挖掘

数据挖掘（data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。除了原始分析步骤，它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑，以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”（KDD）的分析步骤。数据挖掘：实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”，“数据挖掘”一词是后来为了营销才加入的。通常情况下，使用更为正式的术语，（大规模）数据分析和分析学，或者指出实际的研究方法（例如人工智能和机器学习）会更准确一些。数据挖掘的实际工作是对大规模数据进行自动或半自动的分析，以提取过去未知的有价值的潜在信息，例如数据的分组（通过聚类分析）、数据的异常记录（通过异常检测）和数据之间的关系（通过关联式规则挖掘）。这通常涉及到数据库技术，例如。这些潜在信息可通过对输入数据处理之后的总结来呈现，之后可以用于进一步分析，比如机器学习和预测分析。举个例子，进行数据挖掘操作时可能要把数据分成多组，然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤，但是它们确实属于“資料庫知識發現”（KDD）过程，只不过是一些额外的环节。类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样（可能）过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.

新！!: 文本挖掘和数据挖掘 · 查看更多 »

重定向到这里：

文字分析。

联盟百科是组织像一个百科全书或字典中的概念图和语义网络。它给每一个概念及其关系的简单定义。

这是用作概念图的基础的大型在线心理地图。它是免费使用，每篇文章或文档可以下载。它是一个工具，资源或学习，研究，教育，学习或教学参考书，也可以由教师，教育工作者，学生或学生; 对于学术界：学校，小学，中学，高中，初中，大学，工科学历，大专，本科，硕士或博士学位; 对于论文，报告，项目，理念，文档，调查，汇总，或论文。这里的定义是，说明中，描述，或每显著在其上需要的信息的含义，并且它们的相关概念，作为词汇列表。可在中文, 英文, 西班牙文, 葡萄牙文, 日文, 法文, 德文, 意大利文, 波兰文, 荷兰文, 俄文, 阿拉伯文, 印地文, 瑞典文, 乌克兰文, 匈牙利文, 加泰罗尼亚文, 捷克文, 希伯来文, 丹麦文, 芬兰文, 印度尼西亚文, 挪威文, 罗马尼亚文, 土耳其文, 越南文, 한국어, 泰语, 希腊语, 保加利亚语, 克罗地亚语, 斯洛伐克语, 立陶宛语, 菲律宾人, 拉脱维亚语, 爱沙尼亚语和斯洛文尼亚语。更多语言很快。

所有的信息是从维基百科提取它的知识共享署名-相同方式共享 3.0协议下可用。

联盟百科不受维基媒体基金会的认可或附属。

Google Play、Android 和 Google Play 徽标均为 Google Inc. 的商标。

隐私政策

文本挖掘

重定向到这里：

其他语言