徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
自由
比浏览器更快的访问!
 

中文自动分词

指数 中文自动分词

中文自动分词指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文自动分词被认为是中文自然语言处理中的一个最基本的环节。.

5 关系: 空格词语自然语言处理電子計算機汉语

空格

格是行文為防止混淆或有特定用途的空位。,字與字之間亦無空格,但空格有特定用途,如每段起首須縮入兩個字位,尊稱前要留空一格作挪抬等等。.

新!!: 中文自动分词和空格 · 查看更多 »

词语

詞語是词和短语(又称词组)的合称。词是最小的能够独立运用的语言单位,而短语是有多个词组成的整体。 词的音节与音节之间或字与字之间若插入成分,意义改变;相反,短语中的特定位置插入成分,原有意义保留。比如“白菜”中加入“的”,就变成了“白的菜”,意义显然发生了变化,再如,在“看书”中加入“一本”,则原有的意义依然保留。因此称“白菜”是词,“看书”是短语。 汉字,如:“我、家、有、个、大、書、百、步、氣、糖”等可以獨立成词,也可以和其他字合成一个新的词,如:“我們、家庭、富有、個性、大眾、书包、百科、跑步、天气、葡萄糖”等。一些詞如“蜻蜓”、“葡萄”等,当“蜻”与“蜓”、“葡”与“萄”分开时,并不会带来任何含义。另一些词如“马虎”(形容草率),當拆成“马”与“虎”时,它们的含义和“草率”没有关系。还有许多外来音译词,如:“巧克力、维基、英格兰、葡萄牙”等等也是不能再拆分的詞。 外文中也有詞,例如英文dog。幾個词可以組合成短語,例如英文a big dog。dog和a big dog均为词语。.

新!!: 中文自动分词和词语 · 查看更多 »

自然语言处理

自然語言處理(natural language processing,缩写作 NLP)是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言認知則是指讓電腦「懂」人類的語言。 自然語言生成系統把計算機數據轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程序更易于處理的形式。.

新!!: 中文自动分词和自然语言处理 · 查看更多 »

電子計算機

--,亦稱--,计算机是一种利用数字电子技术,根据一系列指令指示其自动执行任意算术或逻辑操作序列的设备。计算机遵循被称为“程序”的一般操作集的能力使他们能够执行极其广泛的任务。 计算机被用作各种工业和消费设备的控制系统。这包括简单的特定用途设备(如微波炉和遥控器)、工业设备(如工业机器人和计算机辅助设计),以及通用设备(如个人电脑和智能手机之类的移动设备)等。尽管计算机种类繁多,但根据图灵机理论,一部具有最基本功能的计算机,应当能够完成任何其它计算机能做的事情。因此,理论上从智能手机到超级计算机都应该可以完成同样的作业(不考虑时间和存储因素)。由于科技的飞速进步,下一代计算机总是在性能上能够显著地超过其前一代,这一现象有时被称作“摩尔定律”。通过互联网,计算机互相连接,极大地提高了信息交换速度,反过来推动了科技的发展。在21世纪的现在,计算机的应用已经涉及到方方面面,各行各业了。 自古以来,简单的手动设备——就像算盘——帮助人们进行计算。在工业革命初期,各式各样的机械的出现,其初衷都是为了自动完成冗长而乏味的任务,例如织机的编织图案。更复杂的机器在20世纪初出现,通过模拟电路进行复杂特定的计算。第一台数字电子计算机出现于二战期间。自那时以来,电脑的速度,功耗和多功能性不断增加。在现代,机械计算--机的应用已经完全被电子计算机所取代。 计算机在组成上形式不一,早期计算机的体积足有一间房屋的大小,而今天某些嵌入式计算机可能比一副扑克牌还小。当然,即使在今天依然有大量体积庞大的巨型计算机为特别的科学计算或面向大型组织的事务处理需求服务。比较小的,为个人应用而设计的称为微型计算机(Personal Computer,PC),在中國地區简称為「微机」。我們今天在日常使用“计算机”一词时通常也是指此,不过现在计算机最为普遍的应用形式却是嵌入式,嵌入式计算机通常相对简单、体积小,并被用来控制其它设备——无论是飞机、工业机器人还是数码相机。 同计算机相关的技术研究叫计算--机科学,而「计算机技术」指的是将计算--机科学的成果应用于工程实践所派生的诸多技术性和经验性成果的总合。「计算机技术」与「计算机科学」是两个相关而又不同的概念,它们的不同在于前者偏重于实践而后者偏重于理论。至於由数据为核心的研究則称為信息技术。 传统上,现代计算机包括至少一个处理单元(通常是中央处理器(CPU))和某种形式的存储器。处理元件执行算术和逻辑运算,并且排序和控制单元可以响应于存储的信息改变操作的顺序。外围设备包括输入设备(键盘,鼠标,操纵杆等)、输出设备(显示器屏幕,打印机等)以及执行两种功能(例如触摸屏)的输入/输出设备。外围设备允许从外部来源检索信息,并使操作结果得以保存和检索。.

新!!: 中文自动分词和電子計算機 · 查看更多 »

汉语

漢語,又稱中文、華文、唐話、中國話等,是漢藏語系漢語族下之一種語文,為世界使用人数最多的语言,目前世界有六分之一人口做為母語。漢語有多種分支语言,當中現代標準漢語為現行的漢語通用語,為中华人民共和国的国家通用语言(又稱為普通話)、以及中華民國的国语。此外,漢語還是聯合國官方語言之一傳統華人社會習慣稱之為「漢語」,本文一律以漢族慣稱「漢語」來表示,國際間常稱中文。其他稱呼僅限特定人群使用,請另見相關條目。,并被上海合作组织等国际组织采用为官方语言。 汉字是汉语的文字書寫系统,又称汉文、中文、华文、唐文,在中华民国又称为国文,是一种意音文字,表意的同時也具一定的表音功能。漢語属分析语,有声调。漢語包含書面語及口語兩部分,古代書面汉语称为文言文,现代书面汉语一般指使用現代標準漢語語法、詞彙的中文通行文体(又称白话文)。 对于汉语的分支语言,学界主要有两种观点,一种观点将汉语定义为语言,并将官话、贛語、闽语、粤语、客家语、吴语、湘语七大语言定义为一级方言;另一种观点则将汉语视为语族,其下無法互相溝通的視為語言,如國際標準化組織就將漢語族分為13種語言:闽东语、晋语、官话、莆仙语、徽语、闽中语、赣语、客家语、湘语、闽北语、闽南语、吴语、粤语。.

新!!: 中文自动分词和汉语 · 查看更多 »

重定向到这里:

中文分词汉语分词汉语自动分词

传出传入
嘿!我们在Facebook上吧! »