自然语言处理

自然語言處理（natural language processing，缩写作 NLP）是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言認知則是指讓電腦「懂」人類的語言。自然語言生成系統把計算機數據轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程序更易于處理的形式。.

42 关系: 受限自然語言，中文自动分词，万维网，信息抽取，信息檢索，問答系統，光學字元識別，個人中心治療，縮寫，约瑟夫·维森鲍姆，统计学，隐含狄利克雷分布，隐马尔可夫模型，聊天機器人，非監督式學習，語言，語法分析器，語意，计算语言学，语音合成，语音处理，语音识别，语言学，语料库，诺姆·乔姆斯基，自然语言，自然语言理解，自然语言生成，艾伦·图灵，MARF，Word2vec，校對，概率，機器記者，深度学习，漢語，潜在语义学，机器翻译，文字蘊涵，文法，擴展查詢，数据挖掘。

中文自动分词

中文自动分词指的是使用计算机自动对中文文本进行词语的切分，即像英文那样使得中文句子中的词之间有空格以标识。中文自动分词被认为是中文自然语言处理中的一个最基本的环节。.

新！!: 自然语言处理和中文自动分词 · 查看更多 »

万维网（World Wide Web），亦作「WWW」、「Web」，是一个由许多互相链接的超文本组成的系统，通过互联网访问。英國科學家蒂姆·伯纳斯-李於1989年發明了萬維網。1990年他在瑞士CERN的工作期間編寫了第一個網頁瀏覽器。網頁瀏覽器於1991年在CERN向外界發表，1991年1月開始發展到其他研究機構，1991年8月在互聯網上向公眾開放。萬維網是資訊時代發展的核心，也是數十億人在網際網路上進行互動的主要工具。網頁主要是文本文件格式化和超文件標示語言（HTML）。除了格式化文字之外，網頁還可能包含圖片、影片、聲音和軟體元件，這些元件會在使用者的網頁瀏覽器中呈現為多媒體內容的連貫頁面。萬維網並不等同網際網路，萬維網只是網際網路所能提供的服務其中之一，是靠着網際網路運行的一項服務。.

新！!: 自然语言处理和万维网 · 查看更多 »

信息抽取

信息抽取（Information Extraction，簡稱IE，又譯資訊擷取技術）主要是從大量文字資料中自動抽取特定訊息（Particular Information），以作為資料庫存取（Database Access）之用的技術。信息抽取的一個廣泛目標是允許對以往非結構化的資料去做計算，具體來說就是要允許邏輯推理能對輸入資料的邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化（例：不包含元數據）形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程序，監督一新聞資料饋流，需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。.

新！!: 自然语言处理和信息抽取 · 查看更多 »

信息檢索

資訊檢索（Information Retrieval）是从信息资源集合获得与信息需求相关的信息资源的活动。搜索可以基于全文或其他基于内容的索引。自动信息检索系统用于减少所谓的“資訊超載”。许多大學和公共图书馆使用IR系统提供图书、期刊和其他文件的访问。Web搜索引擎是最可见的IR应用程序。.

新！!: 自然语言处理和信息檢索 · 查看更多 »

問答系統

問答系統（Question answering），是未來自然語言處理的明日之星。問答系統外部的行為上來看，其與目前主流資訊檢索技術有兩點不同：首先是查詢方式為完整而口語化的問句，再來則是其回傳的為高精準度網頁結果或明確的答案字串。以為例，使用者不需要思考該使用甚麼樣的問法才能夠得到理想的答案，只需要用口語化的方式直接提問如「請問誰是美國總統？」即可。而系統在瞭解使用者問句後，會非常清楚地回答「奧巴馬是美國總統」。面對這種系統，使用者不需要費心去一一檢視搜尋引擎回傳的網頁，對於資訊檢索的效率與資訊的普及都有很大幫助。從系統內部來看，問答系統使用了大量有別於傳統資訊檢索系統自然語言處理技術，如自然語言剖析（Natural Language Parsing）、問題分類（Question Classification）、專名辨識（Named Entity Recognition）等等。少數系統甚至會使用複雜的邏輯推理機制，來區隔出需要推理機制才能夠區隔出來的答案。在系統所使用的資料上，除了傳統資訊檢索會使用到的資料外（如字典），問答系統還會使用本體論等語义資料，或者利用網頁來增加資料的豐富性。截至目前為止，最著名的問答系統應屬IBM的-zh-cn:沃森; zh-tw:華生;-系統。該系統在2011年於Jeopardy節目中，與人類同場較勁，並獲得最後的勝利。.

新！!: 自然语言处理和問答系統 · 查看更多 »

光學字元識別

#重定向光学字符识别.

新！!: 自然语言处理和光學字元識別 · 查看更多 »

個人中心治療

個人中心治療(Person-Centered Therapy)是由羅吉斯於二十世紀四、五年代在美國所創立的一個心理治療取向，或會被稱為「非指導式治療」、「當事人中心治療法」。與心理分析學派有很大的分別，強調人的正面成長和發展，並且非常著重治療師本身的態度如一致(Congruence)、真誠(Genuineness)、無條件尊重(Unconditional Positive Regard)和同理心(Empathy)等，而非治療的技巧。而且羅吉斯亦提出療治應由案主洞察自己的問題，而非如傳統心理分析治療等由治療師主導治療過程。.

新！!: 自然语言处理和個人中心治療 · 查看更多 »

縮寫

縮寫（abbreviation），在语言学裡嚴格地说是一種詞語的簡易格式，又称缩略语或簡稱。但實際上，它是從詞中提取關鍵字來簡要地代表原來的意思。例如，「欧洲联盟」被省略作為「欧盟」。.

新！!: 自然语言处理和縮寫 · 查看更多 »

约瑟夫·维森鲍姆

约瑟夫·维森鲍姆（，Joseph Weizenbaum）是一位德裔美国计算机科学家。他是麻省理工大学的荣休教授。Weizenbaum Award以他的名字命名。.

新！!: 自然语言处理和约瑟夫·维森鲍姆 · 查看更多 »

统计学

统计学是在資料分析的基础上，研究测定、收集、整理、归纳和分析反映數據資料，以便给出正确訊息的科學。這一门学科自17世纪中叶产生并逐步发展起来，它廣泛地應用在各門學科，從自然科学、社會科學到人文學科，甚至被用於工商業及政府的情報決策。隨著大数据(Big Data)時代來臨，統計的面貌也逐漸改變，與資訊、計算等領域密切結合，是資料科學(Data Science)中的重要主軸之一。譬如自一組數據中，可以摘要並且描述這份數據的集中和離散情形，這個用法稱作為描述統計學。另外，觀察者以數據的形態，建立出一個用以解釋其隨機性和不確定性的數學模型，以之來推論研究中的步驟及母體，這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。.

新！!: 自然语言处理和统计学 · 查看更多 »

隐含狄利克雷分布

含狄利克雷分布（Latent Dirichlet allocation，简称LDA），是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。 LDA首先由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。.

新！!: 自然语言处理和隐含狄利克雷分布 · 查看更多 »

隐马尔可夫模型

尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。在正常的马尔可夫模型中，状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的，但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。.

新！!: 自然语言处理和隐马尔可夫模型 · 查看更多 »

聊天機器人

聊天機器人（Chatterbot）是經由對話或文字進行交談的電腦程式。能夠模擬人類對話，通過圖靈測試。聊天機器人可用於實用的目的，如客戶服務或資訊獲取。有些聊天機器人會搭載自然語言處理系統，但大多簡單的系統只會擷取輸入的關鍵字，再從數據庫中找尋最合適的應答句。目前，聊天機器人是虛擬助理（如Google智能助理）的一部分，可以與許多組織的應用程式，網站以及即時消息平台（Facebook Messenger）連接。非助理應用程式包括娛樂目的的聊天室，研究和特定產品促銷，社交機器人。.

新！!: 自然语言处理和聊天機器人 · 查看更多 »

非監督式學習

非監督式學習是一種機器學習的方式，並不需要人力來輸入標籤。它是監督式學習和強化學習等策略之外的一種選擇。在監督式學習中，典型的任務是分類和迴歸分析，且需要使用到人工預先準備好的範例(base)。一個常見的非監督式學習是数据聚类。在人工神經網路中，生成對抗網絡（GAN）、自組織映射（SOM）和適應性共振理論（ART）則是最常用的非監督式學習。 ART模型允許叢集的個數可隨著問題的大小而變動，並讓使用者控制成員和同一個叢集之間的相似度分數，其方式為透過一個由使用者自定而被稱為警覺參數的常數。ART也用於模式識別，如自動目標辨識和數位信號處理。第一個版本為"ART1"，是由卡本特和葛羅斯柏格所發展的。.

新！!: 自然语言处理和非監督式學習 · 查看更多 »

語言

语言，广义而言，是用於沟通的一套方式，有其符号与处理规则，一般称为文法。符号通常称为文字，会以视觉、声音或者触觉方式来进行传递。語言用來傳遞已知或未知事物的含義。 “語言”一詞可以更廣義的理解為已知或未知世界的基礎構成系統。嚴格來說，語言是指人類溝通所使用的語言——自然語言。在一個先進的社會中一般人都必須透過學習才能獲得語言能力。語言的目的是交流觀念、意見、思想等。語言學就是從人類研究語言分類與規則而發展出來的。研究語言的專家被稱呼為語言學家。當人發現了某些動物如海豚能夠以某種方式溝通，就誕生了動物語言的概念。 20世紀由於電腦誕生，人需要給電腦指令。這種對機器的「單向溝通」就成電腦語言。.

新！!: 自然语言处理和語言 · 查看更多 »

語法分析器

在计算机科学和语言学中，语法分析（syntactic analysis，也叫 parsing）是根据某种给定的形式文法对由单词序列（如英语单词序列）构成的输入文本进行分析并确定其语法结构的一种过程。语法分析器（parser）通常是作为编译器或解释器的组件出现的，它的作用是进行语法检查、并构建由输入的单词组成的数据结构（一般是语法分析树、抽象语法树等层次化的数据结构）。语法分析器通常使用一个独立的词法分析器从输入字符流中分离出一个个的“单词”，并将单词流作为其输入。实际开发中，语法分析器可以手工编写，也可以使用工具（半）自动生成。.

新！!: 自然语言处理和語法分析器 · 查看更多 »

語意

語意（meaning），在語言學上，指發出訊息者想要表示或傳達給發現者或接收者的理念；亦或發現者或接收者由該語境所推斷的結果。在大多數語言中，有些字往往會有多種不同涵義；因此發現者或接收者由語境推斷語意時，往往會因線索不足而混淆，導致產生不同的解讀。.

新！!: 自然语言处理和語意 · 查看更多 »

计算语言学

計算語言學，亦稱電腦語言學（computational linguistics）是一門跨學科的研究領域，試圖找出自然語言的規律，建立運算模型，最終讓電腦能夠像人類般分析，理解和處理自然語言。過去，計算語言學的研究一般由專門負責利用電腦處理自然語言的電腦學家進行。由於近年的研究顯示人類語言是超乎想像的複雜，現在的計算語言學研究多由來自不同學科的專家共同進行。一般來說，研究隊伍的成員有電腦學家、語言學家、語言專家（熟悉有關研究項目所要處理的語言的人），以至研究人工智能、認知心理學、數學、邏輯學等的專家。計算語言學具有理論和應用的成分。理論計算語言學聚焦於理論語言學與認知科學；應用計算語言學聚焦於模擬人類使用語言的實用成果。對於計算語言學的定義是：……從計算的觀點，以科學方法研究語言的學問。計算語言學家關注於提供各種語言學現象的計算模型。.

新！!: 自然语言处理和计算语言学 · 查看更多 »

语音合成

語音合成是將人類語音用人工的方式所產生。若是將電腦系統用在語音合成上，則稱為語音合成器，而語音合成器可以用軟/硬體所實現。文字轉語音（text-to-speech，TTS）系統則是將一般語言的文字轉換為語音，其他的系統可以描繪語言符號的表示方式，就像音標轉換至語音一樣。而合成後的語音則是利用在資料庫內的許多已錄好的語音連接起來。系統則因為儲存的語音單元大小不同而有所差異，若是要儲存phone以及diphone的話，系統必須提供大量的儲存空間，但是在語意上或許會不清楚。而用在特定的使用領域上，儲存整字或整句的方式可以達到高品質的語音輸出。另外，包含了聲道模型以及其他的人類聲音特徵參數的合成器則可以創造出完整的合成聲音輸出。一個語音合成器的品質通常是決定於人聲的相似度以及語意是否能被了解。一個清晰的文字轉語音程式應該提供人類在視覺受到傷害或是得到失讀症時，能夠聽到並且在個人電腦上完成工作。從80年代早期開始，許多的電腦作業系統已經包含了語音合成器了。.

新！!: 自然语言处理和语音合成 · 查看更多 »

语音处理

語音處理（Speech processing），又稱語音訊號處理、人聲處理，其目的是希望做出想要的訊號，進一步做語音辨識，應用到手機介面甚至一般生活中，使人與電腦能進行溝通。.

新！!: 自然语言处理和语音处理 · 查看更多 »

语音识别

语音识别（speech recognition；語音辨識／言語辨別）技术，也被称为自动语音识别（Automatic Speech Recognition, ASR）、電腦語音識別（Computer Speech Recognition）或是語音轉文本識別（Speech To Text, STT），其目标是以電腦自動将人类的语音内容转换为相應的文字。与及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。.

新！!: 自然语言处理和语音识别 · 查看更多 »

语言学

语言学（linguistics）是一门关于人类语言的科学研究。语言学包含了几种分支领域。在语言结构（语法）研究与意义（语义与语用）研究之间存在一个重要的主题划分。语法中包含了词法（单词的形成与组成），句法（决定单词如何组成短语或句子的规则）以及语音（声音系统与抽象声音单元的研究）。语音学是语言学的一个相关分支，它涉及到语音（phone）与非语音声音的实际属性，以及它们是如何发出与被接收到的。與学习語言不同，语言学是研究所有人类语文發展有關的一門學術科目（通常只有根据语言，非文字）。传统上，语言学是文化人类学的分支学科，但是现在语言学越来越独立了。语言学研究句法和词语等语言的描述，也研究语言的发展史。语言学其他的附属科目包括以下：.

新！!: 自然语言处理和语言学 · 查看更多 »

语料库

语料库一詞在語言學上意指大量的文本，通常經過整理，具有既定格式與標記；事實上，語料庫英文 "" 的涵意即為 "body of text"。.

新！!: 自然语言处理和语料库 · 查看更多 »

诺姆·乔姆斯基

艾弗拉姆·诺姆·乔姆斯基（Avram Noam Chomsky，），或譯作“荷姆斯基”，美國哲學家、語言學家、認知學家、邏輯學家、政治評論家。乔姆斯基是麻省理工学院语言学的荣誉退休教授，他的生成语法被认为是20世纪理论语言学研究上的重要贡献。他對伯尔赫斯·弗雷德里克·斯金纳所著《口語行为》的評論，也有助於发动心理学的认知革命，挑战1950年代研究人類行為和语言方式中占主导地位的行为主义。他所採用以自然為本來研究语言的方法也大大地影響了语言和心智的哲学研究。他的另一大成就是建立了乔姆斯基层级：根据文法生成力不同而对形式语言做的分类。乔姆斯基还因他对政治的热忱而著名，尤其是他对美国和其它国家政府的批评。從1960年評論越南戰爭以來，他的媒體和政治評論便越來越著名。一般认为他是活跃在美国政坛左派的主要知识分子。乔姆斯基把自己归为自由意志社會主義者，并且是无政府工团主义的同情者。据艺术和人文引文索引说，在1980年到1992年，乔姆斯基是被文献引用数最多的健在学者，并是有史以来被引用数第八多的學者。.

新！!: 自然语言处理和诺姆·乔姆斯基 · 查看更多 »

自然语言

自然语言（Natural language）通常是指一种自然地随文化演化的语言。英语、汉语、法語、西班牙語、日语为自然语言的例子，而世界语则为人工语言，即是一种由人特意为某些特定目的而创造的语言。不过，有时所有人类使用的语言（包括上述自然地随文化演化的语言，以及人工语言）都会被视为“自然”语言，以相对于如编程语言等为计算机而设的“人造”语言。这一种用法可见于自然语言处理一词中。自然语言是人类交流和思维的主要工具。.

新！!: 自然语言处理和自然语言 · 查看更多 »

自然语言理解

自然語言理解是研究如何讓電腦讀懂人類語言的一門技術，是自然語言處理技術中最困難的一項。.

新！!: 自然语言处理和自然语言理解 · 查看更多 »

自然语言生成

自然語言生成（NLG）是自然語言處理的一部分，從知識庫或等等機器表述系統去生成自然語言。這種形式表述當作心理表述的模型時，心理語言學家會選用這個術語。自然語言生成系統可以說是一種將資料轉換成自然語言表述的翻譯器。不過產生最終語言的方法不同於編譯程式，因為自然語言多樣的表達。NLG出現已久，但是商業NLG技術直到最近才變得普及。自然語言生成可以視為自然語言理解的反向：自然語言理解系統須要釐清輸入句的意涵，從而產生機器表述語言；自然語言生成系統須要決定如何把概念轉化成語言。一個簡單的例子是套用信函的生成系統。這種系統通常沒有運用文法的知識，但是可以生成信函給消費者，例如告訴消費者信用卡的額度已達。換言之，簡單的系統運用版型，跟Word文件的郵件合併程式沒什麼差別，但是更複雜的NLG系統會靈活地產生文本。正如自然語言處理的其它領域，自然語言生成可以使用明確的語言模型（例如文法）或者運用根據真人所寫的文本分析而成的統計模型。.

新！!: 自然语言处理和自然语言生成 · 查看更多 »

艾伦·图灵

艾伦·麦席森·图灵，OBE，FRS（Alan Mathison Turing，又译阿兰·图灵，Turing也常翻譯成--林或者杜林，）是英国計算機科學家、数学家、邏輯學家、密码分析学家和理论生物学家，他被视为计算机科学與人工智慧之父。在第二次世界大战期间，图灵曾在“政府密码学校”（GC&CS，今政府通信总部）工作。政府密码学校位于布萊切利園，是英国顶级机密情报机构。图灵在这里从事密码破译工作，有一段时间，他领导了（Hut 8）小组，负责德国海军密码分析。期间他设计了一些加速破译德国密码的技术，包括改进波兰战前研制的机器，一种可以找到恩尼格玛密码机设置的机电机器。图灵在破译截获的编码信息方面发挥了关键作用，使盟军能够在包括大西洋战役在内的许多重要交战中击败纳粹，并因此帮助赢得了战争。图灵对于人工智能的发展有诸多贡献，例如图灵曾写过一篇名为《》的论文，提問「机器会思考吗？」（Can Machines Think?），作為一种用于判定机器是否具有智能的测试方法，即图灵测试。至今，每年都有试验的比赛。此外，图灵提出的著名的图灵机模型为现代计算机的逻辑工作方式奠定了基础。图灵是著名的男同性恋者，并因为其性倾向而遭到当时的英国政府迫害，职业生涯尽毁。他亦患有花粉过敏症。图灵还是一位世界级的长跑运动员。他的马拉松最好成绩是2小時46分03秒（手動計時），比1948年奥林匹克运动会金牌成绩慢11分钟。1948年的一次跨国赛跑比赛中，他跑赢了同年奥运会银牌得主。.

新！!: 自然语言处理和艾伦·图灵 · 查看更多 »

MARF

Modular Audio Recognition Framework (MARF) 模件音频识别框架是一个用JAVA写的采集声音／语音／语言／文本和自然语言处理（NLP）算法的研究平台。它被安排进一个模件和延伸性框架用来试图促进新的算法。MARF可在应用软件中用作库来使用或作为学习和扩展的原始资料。MARF提供了几种应用的例子来展示如何使用框架。同时MARF提供了详细的JAVA DOC格式使用手册和。MARF 及其应用程序以BSD license发行。.

新！!: 自然语言处理和MARF · 查看更多 »

Word2vec

Word2vec，為一群用來產生詞向量的相關模型。這些模型為淺而雙層的神經網路，用來訓練以重新建構語言學之詞文本。網路以詞表現，並且需猜測相鄰位置的輸入詞，在word2vec中词袋模型假設下，詞的順序是不重要的。訓練完成之後，word2vec模型可用來映射每個詞到一個向量，可用來表示詞對詞之間的關係。該向量為神經網路之隱藏層。 Word2vec依賴skip-grams或連續詞袋（CBOW）來建立神經詞嵌入。Word2vec為托馬斯·米科洛夫（Tomas Mikolov）在Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋。.

新！!: 自然语言处理和Word2vec · 查看更多 »

校對

校對，古代稱為校勘、校讎或者校理，是出版編輯過程裡的一個必須工序，主要工作是按照原稿去審查訂正排印或繕寫的錯誤。校對也可以是從事這個工序的人員──校對員（Proof reader）的中文簡稱。《南宋馆阁录》載“卷三《储藏》门记载：“诸字有误者，以雌黄涂讫，别书。或多字，以雌黄圈之；少者，于字旁添入；或字侧不容注者，即用朱圈，仍于本行上下空纸上标写。倒置，于两字间书乙字。诸点语断处，以侧为正；其有人名、地点、物名等合细分者，即于中间细点。” 在分工不足的情況下，中文講校對有時包含著審稿的工作。.

新！!: 自然语言处理和校對 · 查看更多 »

概率

--率，舊稱--率，又称或然率、機會率或--、可能性，是数学概率论的基本概念，是一个在0到1之间的实数，是对随机事件发生之可能性的度量。概率常用來量化對於某些不確定命題的想法"Kendall's Advanced Theory of Statistics, Volume 1: Distribution Theory", Alan Stuart and Keith Ord, 6th Ed, (2009), ISBN 978-0-534-24312-8，命題一般會是以下的形式：「某個特定事件會發生嗎？」，對應的想法則是：「我們可以多確定這個事件會發生？」。確定的程度可以用0到1之間的數值來表示，這個數值就是機率William Feller, "An Introduction to Probability Theory and Its Applications", (Vol 1), 3rd Ed, (1968),Wiley,ISBN 978-0-471-25708-0。因此若事件發生的機率越高，表示我們越認為這個事件可能發生。像丟銅板就是一個簡單的例子，正面朝上及背面朝上的兩種結果看來機率相同，每個的機率都是1/2，也就是正面朝上及背面朝上的機率各有50%。這些概念可以形成機率論中的數學公理（參考概率公理），在像數學、統計學、金融、博弈論、科學（特別是物理）、人工智慧/機器學習、電腦科學及哲學等學科中都會用到。機率論也可以描述複雜系統中的內在機制及規律性。.

新！!: 自然语言处理和概率 · 查看更多 »

機器記者

機器記者（robot journalists），是指能將新聞的資訊或數據，轉化成人類慣於閱讀語句的新聞稿，但其實完全是經由人工智慧所撰寫的電腦程式，不假人手。簡而言之，「機器記者」是指各種可以取代傳統記者部分工作的軟體之總稱。機器記者的特色為，可以在數分鐘內，僅根據參考來源內所附的數字，即能寫出一則如同人類寫就的報導，例如各家上市公司所公布的財報消息，或股市行情等重複性高的基本新聞，故而被稱為機器記者。.

新！!: 自然语言处理和機器記者 · 查看更多 »

深度学习

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。深度学习的好处是用非监督式或的特征学习和分层特征提取高效算法来替代手工获取。表征学习的目标是寻求更好的表示方法并建立更好的模型来从大规模未标记数据中学习这些表示方法。表示方法来自神经科学，并松散地建立在類似神经系统中的信息处理和对通信模式的理解上，如神经编码，试图定义拉動神经元的反应之间的关系以及大脑中的神经元的电活动之间的关系。至今已有數种深度学习框架，如深度神经网络、卷积神经网络和和递归神经网络已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并取得了极好的效果。另外，「深度学习」已成為類似術語，或者说是神经网络的品牌重塑。.

新！!: 自然语言处理和深度学习 · 查看更多 »

漢語

#重定向汉语.

新！!: 自然语言处理和漢語 · 查看更多 »

潜在语义学

潜在语义分析（Latent Semantic Analysis），是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系，如同义，近义，反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系，这种关系不是以词典上的定义为基础，而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为，世界上数以百计的语言都应该有一种共同的简单的机制，使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下，人们找到了一种简单的数学模型，这种模型的输入是由任何一种语言书写的文献构成的文库，输出是该语言的字、词的一种数学表达（向量）。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。潛在語義學的觀念也被應用在資訊檢索上，所以有時潛在語義學也被稱為隱含語義索引（Latent Semantic Indexing，LSI）。.

新！!: 自然语言处理和潜在语义学 · 查看更多 »

机器翻译

機器翻譯（英語：Machine Translation，經常簡寫為MT，俗称机翻）屬於計算語言學的範疇，其研究藉由-zh-hant:電腦程式;zh-hans:计算机程序-將文字或演說從一種自然語言翻譯成另一種自然語言。簡單來說，機器翻譯是--將一個自然語言的字辭取代成另一個自然語言的字辭。藉由使用語料庫的技術，可達成更加複雜的自動翻譯，包含可更佳的處理不同的文法結構、辭彙辨識、慣用語的對應等。目前的機器翻譯軟體通常可允許針對特定領域或是專業领域（例如天氣預報）來加以客製化，目的在於將辭彙的取代縮小於該特定領域的專有名詞上，以藉此改進翻譯的結果。這樣的技術适合針對一些使用較正规或是較制式化陳述方式的領域。例如政府機關公文或是法律相關文件，這類型的文句通常比一般的文句更加正式與制式化，其機器翻譯的结果通常比日常对话等非正式场合所使用语言的翻译结果更加符合语法。目前的一些翻译机器，例如AltaVista Babelfish，有時可以得到可以理解的翻译结果，但是想要得到較有意義的翻譯結果，往往需要在輸入語句時適當地編輯，以利電腦程式分析。但是，機器翻譯的結果好壞，往往取決於譯入及譯出語之間的詞彙、文法結構、語系甚至文化上的差異，例如英语與荷兰语同為印歐語系日耳曼語族，這兩種語言間的機器翻譯結果通常比汉语與英语間機器翻译的結果好。因此，要改善機器翻譯的結果，人為的介入仍顯相當重要。一般而言，大眾使用機器翻譯的目的只是為了获知原文句子或段落的要旨，而不是精確的翻譯。總的来说，機器翻譯的效果并没有达到可以取代人工翻译的程度，所以無法成為正式的翻譯。不過現在已有越來越多的公司嘗試以機器翻譯的技術來提供其公司網站多語系支援的服務。例如微軟公司試將其 MSDN 以機器翻譯來自動翻譯成多國語言，如上文所说，知识库作为专业领域，其文法较为制式化，翻译结果亦更加符合自然语言。.

新！!: 自然语言处理和机器翻译 · 查看更多 »

文字蘊涵

文字蘊涵（Textual entailment，TE）在自然語言處理是一個文字片段之間的定向關係。擁有一個文字片段的含意時，可以從另一個文字如下關係。TE的框架中，將會導致必須需要的文本被稱為文本（T）和假設（H）作為分別。文字蘊涵是不一樣的純邏輯蘊涵，它有一個更寬鬆的定義："T推導到H"（T⇒H），通常情況下，如果一個人閱讀T將推斷為H是最有可能的正確的關係。文字蘊含關係是有方向性的，如正向的"T推導到H"或反向的"H推導到T" in: PASCAL Workshop on Learning Methods for Text Understanding and Mining（2004）Grenoble.

新！!: 自然语言处理和文字蘊涵 · 查看更多 »

文法

文法即文章的書寫法規，一般用來指以文字、詞語、短句、句子編排而成的完整語句和文章的合理性組織。.

新！!: 自然语言处理和文法 · 查看更多 »

擴展查詢

擴展查詢(Query expansion)，也有人從英文翻譯為查詢擴展、查詢擴張、查詢問句擴展、字詞擴張、查詢延伸、查詢字詞擴展、自動查詢擴展、查詢語擴充……等。為了改善資訊檢索召回率(Recall)，而將原來查詢句增加新的關鍵字來重新查詢，此一技術稱為擴展查詢。搜索引擎會將使用者輸入的查詢句先做一次檢索，根據檢索出來的文件，選取出適合的關鍵字，加到查詢句重新檢索，藉此來找出更多的相關文件。擴展查詢使用在以下技術中：.

新！!: 自然语言处理和擴展查詢 · 查看更多 »

数据挖掘

数据挖掘（data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。除了原始分析步骤，它还涉及到数据库和数据管理方面、、模型与推断方面考量、兴趣度度量、复杂度的考虑，以及发现结构、可视化及在线更新等后处理。数据挖掘是“資料庫知識發現”（KDD）的分析步骤。数据挖掘：实用机器学习技术及Java实现》一书大部分是机器学习的内容。这本书最初只叫做“实用机器学习”，“数据挖掘”一词是后来为了营销才加入的。通常情况下，使用更为正式的术语，（大规模）数据分析和分析学，或者指出实际的研究方法（例如人工智能和机器学习）会更准确一些。数据挖掘的实际工作是对大规模数据进行自动或半自动的分析，以提取过去未知的有价值的潜在信息，例如数据的分组（通过聚类分析）、数据的异常记录（通过异常检测）和数据之间的关系（通过关联式规则挖掘）。这通常涉及到数据库技术，例如。这些潜在信息可通过对输入数据处理之后的总结来呈现，之后可以用于进一步分析，比如机器学习和预测分析。举个例子，进行数据挖掘操作时可能要把数据分成多组，然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤，但是它们确实属于“資料庫知識發現”（KDD）过程，只不过是一些额外的环节。类似词语“”、“数据捕鱼”和“数据探测”指用数据挖掘方法来采样（可能）过小以致无法可靠地统计推断出所发现任何模式的有效性的更大总体数据集的部分。不过这些方法可以建立新的假设来检验更大数据总体。.

新！!: 自然语言处理和数据挖掘 · 查看更多 »

重定向到这里：

自然語言處理，自然语言信息处理。

联盟百科是组织像一个百科全书或字典中的概念图和语义网络。它给每一个概念及其关系的简单定义。

这是用作概念图的基础的大型在线心理地图。它是免费使用，每篇文章或文档可以下载。它是一个工具，资源或学习，研究，教育，学习或教学参考书，也可以由教师，教育工作者，学生或学生; 对于学术界：学校，小学，中学，高中，初中，大学，工科学历，大专，本科，硕士或博士学位; 对于论文，报告，项目，理念，文档，调查，汇总，或论文。这里的定义是，说明中，描述，或每显著在其上需要的信息的含义，并且它们的相关概念，作为词汇列表。可在中文, 英文, 西班牙文, 葡萄牙文, 日文, 法文, 德文, 意大利文, 波兰文, 荷兰文, 俄文, 阿拉伯文, 印地文, 瑞典文, 乌克兰文, 匈牙利文, 加泰罗尼亚文, 捷克文, 希伯来文, 丹麦文, 芬兰文, 印度尼西亚文, 挪威文, 罗马尼亚文, 土耳其文, 越南文, 한국어, 泰语, 希腊语, 保加利亚语, 克罗地亚语, 斯洛伐克语, 立陶宛语, 菲律宾人, 拉脱维亚语, 爱沙尼亚语和斯洛文尼亚语。更多语言很快。

所有的信息是从维基百科提取它的知识共享署名-相同方式共享 3.0协议下可用。

联盟百科不受维基媒体基金会的认可或附属。

Google Play、Android 和 Google Play 徽标均为 Google Inc. 的商标。

隐私政策

自然语言处理

重定向到这里：

其他语言