我们正在努力恢复Google Play商店上的Unionpedia应用程序
传出传入
🌟我们简化了设计以优化导航!
Instagram Facebook X LinkedIn

萊文斯坦距離

指数 萊文斯坦距離

莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。指两个字串之間,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,刪除一个字符。 例如將kitten一字轉成sitting:.

目录

  1. 8 关系: 字符字符串序列比對俄罗斯语音识别脱氧核糖核酸Soundex抄袭

  2. 动态规划
  3. 字符串相似性度量
  4. 计量语言学

字符

在電腦和電信領域中,字符(Character)是一個資訊單位。對使用字母系統或音節文字等自然語言,它大約對應為一個音位、類音位的單位或符號。簡單來講就是一個漢字、假名、韓文字……,或是一個英文、其他西方語言的字母。 字符的例子有:字母、數字系統或標點符號。另外有所謂控制字符的概念,它是指:並不對應到自然語言中的某個特定符號,而是對應到語言中一些用來處理文句的概念(類似排版)。例子為列印機或其它顯示設備的命令,如Enter或Tab。.

查看 萊文斯坦距離和字符

字符串

字符串(String),是由零个或多个字符组成的有限序列。一般记为s.

查看 萊文斯坦距離和字符串

序列比對

序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線“-”表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是氨基酸殘基的單字母表示)排列在同一列上。 这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。在比对中,错配与突变相应,而空位与插入或缺失对应。序列比对还可用于语言进化或文本间相似性之类的研究。 术语“序列比对”也指构建上述比对或在潜在的不相关序列的数据库中寻找significant alignments。.

查看 萊文斯坦距離和序列比對

俄罗斯

俄罗斯联邦(a,缩写为РФ),簡稱俄罗斯(a),是位於欧亚大陆北部的聯邦共和國,國土横跨欧亞两大洲,为世界上土地面积最大的国家,拥有超过1700万平方公里的面积,占地球陆地面积八分之一;它也是世界上第九大人口国家,拥有1.47亿人口,77%居住于其较为发达的欧洲部分。俄罗斯国土覆盖整个亚洲北部及东欧大部,横跨11个时区,涵盖广泛的环境和地形。拥有全世界最大的森林储备和含有约世界四分之一的淡水的湖泊。俄罗斯有十四個陸上鄰國(從西北方向起逆时针序):挪威、芬兰、爱沙尼亚、拉脱维亚、立陶宛、波蘭、白俄罗斯、乌克兰、格鲁吉亚、阿塞拜疆、哈萨克斯坦、中国、蒙古和朝鲜(其中立陶宛和波蘭僅與俄羅斯外飛地加里寧格勒州接壤),另外與阿布哈茲和南奧塞梯兩個只有俄羅斯承認的非聯合國會員國接壤。同時,俄羅斯還與日本、美国、加拿大、格陵蘭(丹麥)、冰島、瑞典、土耳其隔海相望。俄羅斯北部和東部分別為北冰洋和太平洋包圍,西北和西南則分別可經由波羅的海和黑海通往大西洋。 俄罗斯历史始于欧洲的东斯拉夫民族,聚集区域自公元3世纪至8世纪逐渐扩大。在9世纪,源自北欧的瓦良格人武士精英建立了基辅罗斯这个中世纪国家并开始统治。公元988年,国家从拜占庭帝国采纳了东正教会,随后由此开始,千年拜占庭与斯拉夫文化的融合成为了今日的俄罗斯文化。基辅罗斯最终解散分化为众多公国,被蒙古人逐一击破,并均在13世纪成为了金帐汗国的一部份。莫斯科大公自14世纪起逐渐崛起并统一周边俄罗斯诸侯国,在15世纪成功从金帐汗国独立,且成为了基辅罗斯文化和政治的继承者。16世纪起伊凡四世自称沙皇,自詡「第三羅馬」。在18世纪,俄罗斯沙皇国通过征服、吞并和探索而擴張。彼得一世稱帝成立了俄罗斯帝国,最終成為史上領土第三大帝国,疆域最大曾自中欧的波兰连绵至北美的阿拉斯加。 1917年俄国革命后,俄罗斯苏维埃联邦社会主义共和国成为了世界上第一个宪法意义上的社会主义国家,并成为随后成立的苏维埃社会主义共和国联盟的主体和其最大的加盟共和国。二战时期,苏联为同盟国的胜利扮演了决定性的角色。在战后其崛起成为公认的超级大国,并在冷战时期与美国互相竞争。苏联时期产生了20世纪的许多最重要的科技成就,其中包括世界第一颗人造地球卫星,以及首次将人类送入太空。在1990年,苏联为世界上第二大经济体,且拥有世界上最多的常备军人以及最多的大规模杀伤性武器库存。1991年苏联解体后,包括俄罗斯在内的15个共和国从原苏联独立;身為原蘇聯最大的加盟共和国,俄羅斯通过修宪改制为俄罗斯联邦,成为原苏联的唯一法理继承国家,政體採用聯邦制、民主共和制及半总统制。 截至2015年,俄罗斯根据国民生产总值为世界第13大经济体,根据购买力平价为世界第六大经济体。俄罗斯拥有世界上最大储量的矿产和能源资源,是世界上最大的石油和天然气输出国.

查看 萊文斯坦距離和俄罗斯

语音识别

语音识别(speech recognition;語音辨識/言語辨別)技术,也被称为自动语音识别(Automatic Speech Recognition, ASR)、電腦語音識別(Computer Speech Recognition)或是語音轉文本識別(Speech To Text, STT),其目标是以電腦自動将人类的语音内容转换为相應的文字。与及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。 语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。.

查看 萊文斯坦距離和语音识别

脱氧核糖核酸

--氧核醣核酸(deoxyribonucleic acid,縮寫:DNA)又稱--氧核醣核酸,是一種生物大分子,可組成遺傳指令,引導生物發育與生命機能運作。主要功能是資訊儲存,可比喻為「藍圖」或「配方」。其中包含的指令,是建構細胞內其他的化合物,如蛋白質與核醣核酸所需。帶有蛋白質編碼的DNA片段稱為基因。其他的DNA序列,有些直接以本身構造發揮作用,有些則參與調控遺傳訊息的表現。 DNA是一種長鏈聚合物,組成單位稱為核苷酸,而糖類與磷酸藉由酯鍵相連,組成其長鏈骨架。每個糖單位都與四種鹼基裡的其中一種相接,這些鹼基沿著DNA長鏈所排列而成的序列,可組成遺傳密碼,是蛋白質氨基酸序列合成的依據。讀取密碼的過程稱為轉錄,是根據DNA序列複製出一段稱為RNA的核酸分子。多數RNA帶有合成蛋白質的訊息,另有一些本身就擁有特殊功能,例如核糖體RNA、小核RNA與小干擾RNA。 在細胞內,DNA能組織成染色體結構,整組染色體則統稱為基因組。染色體在細胞分裂之前會先行複製,此過程稱為DNA複製。對真核生物,如動物、植物及真菌而言,染色體是存放於細胞核內;對於原核生物而言,如細菌,則是存放在細胞質中的拟核裡。染色體上的染色質蛋白,如組織蛋白,能夠將DNA組織並壓縮,以幫助DNA與其他蛋白質進行交互作用,進而調節基因的轉錄。.

查看 萊文斯坦距離和脱氧核糖核酸

Soundex

Soundex是一种语音算法,利用英文字的读音计算近似值,值由四个字符构成,第一个字符为英文字母,后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形,可用Soundex做类似模糊匹配的效果。例如Knuth和Kant二个字符串,它们的Soundex值都是「K530」。其在電腦大師高德納名著《計算機程序設計藝術》都有詳細的介紹。.

查看 萊文斯坦距離和Soundex

抄袭

抄袭(plagiarism),亦稱作剽窃,根據教育部國語辭典定義,為抄錄他人作品以為己作。对于原著未经或基本未经修改的抄录,这是一种侵犯著作权的行为。 有時抄袭的認定较难以做出客觀判斷,必須經過主觀判斷,例如模仿一个故事的情节是否属抄袭就有很大争议,一些人认为故事情节属于思想范围,而“抄袭思想”并不是侵權的行为,因为法律只保护思想的表现方式,而不是思想本身。有些抄襲行為雖未達到客觀上的侵犯權利,但是在學術界或相關領域,則是嚴重的違背道德良知行為Lynch (2002)。不當的抄襲行為,可能導致學位、褒獎、職務或是認證的撤銷,嚴重者恐面臨法律訴訟及求償。 在電腦程式設計或網路版權領域,商業用途或經合法權利申告之著作權無庸置疑。因自由軟體運動日盛而衍生出之各種授權方式(如GPL授權),則允許作家(如程式設計師、網頁設計師或是文字提供者)複製、修改或具商業性質的使用程式碼、函式庫、文字描述或是通用規範。這些公共使用的資源,因為權利主體較為模糊、複雜,因而時常面臨較大的剽窃爭議。例如中國百度百科對維基百科的侵權行為,百度百科享受了網路上自由作家的創作成果並且重製、散布、播送及重混。根據維基百科:百度百科對維基百科的侵權,至少有2097個條目(實際上可能數倍於此)遭到百度百科抄襲,且從未在其頁面表彰授權人姓名或以相同方式分享,卻要求其使用者應標註出处“百度百科”並在侵權頁面打上 "©2017Baidu" 。 學校對於保持學術誠信有不同的要求。簡單一點的,會要求學生在提交報告時,要附有至少5個至10個參考書目。亦有學校會要求學生在遞交功課時連同一份有法律效力的聲明一同遞交。嚴格一點的,會禁止學生把同一份作業同時交給二個以上的科目。而對於違反學術誠信的學生,輕則會發警告信,重則會開除學籍。而對於違反學術誠信的教師,則有面臨撤職的風險。.

查看 萊文斯坦距離和抄袭

另见

动态规划

字符串相似性度量

计量语言学