徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
自由
比浏览器更快的访问!
 

双字母组

指数 双字母组

双字母组 或称 二元语法(bigrams,或称digrams),作为统计分析文本使用非常广泛;它是由两个字母,或者两个音节,或者两个词构成的双字母组。这种组被用在最成功的一种 语音识别 的 語言模型 中。 它们是N字母组的一种特例。 Gappy bigrams 或称 skipping bigrams 是允许有跳空的词对组(也许想避免把词连接起来,或者想允许某种模拟的依赖,如 dependency grammar)。 Head word bigrams 是具有明确依赖关系的 gappy bigrams。 本术语也被用在 密碼學 里, 在此领域,试图破解 密码电文 有时 二元语法频率攻击 会被用到。参考 频率分析。 在给定一个前导词情况下,双字母组可帮助计算出现某个词的概率,这是 条件概率 应用场景: P(W_n|W_).

6 关系: 字母频率密码学频率分析語言模型语音识别条件概率

字母频率

字母频率(frequency of letters),指的是各个字母在文本材料中出现的频率。常被应用于密码学,尤其是可破解古典密码的频率分析。在英语中最常见的字母是e。而在铅字印刷时代,人们已根据经验在Linotype排字机上将字母按常用与否排列成 cmfwyp vbgkjq xz 。还有,摩斯电码中越常用的字母,其编码符号就越短;而发出各字母的用时由快到慢顺序是e it san hurdm wgvlfbk opjxcz yq。数据压缩技术中也有相似的方法,如霍夫曼编码就是按来源符号出现的机率大小去编码。.

新!!: 双字母组和字母频率 · 查看更多 »

密码学

密碼學(Cryptography)可分为古典密码学和现代密码学。在西欧語文中,密码学一词源於希臘語kryptós“隱藏的”,和gráphein“書寫”。古典密码学主要关注信息的保密书写和传递,以及与其相对应的破译方法。而现代密码学不只关注信息保密问题,还同时涉及信息完整性验证(消息验证码)、信息发布的不可抵赖性(数字签名)、以及在分布式计算中产生的来源于内部和外部的攻击的所有信息安全问题。古典密码学与现代密码学的重要区别在于,古典密码学的编码和破译通常依赖于设计者和敌手的创造力与技巧,作为一种实用性艺术存在,并没有对于密码学原件的清晰定义。而现代密码学则起源于20世纪末出现的大量相关理论,这些理论使得现代密码学成为了一种可以系统而严格地学习的科学。 密码学是数学和计算机科学的分支,同时其原理大量涉及信息论。著名的密碼學者罗纳德·李维斯特解釋道:「密碼學是關於如何在敵人存在的環境中通訊」,自工程學的角度,這相當于密碼學與純數學的差异。密碼學的发展促進了计算机科学,特別是在於電腦與網路安全所使用的技術,如存取控制與資訊的機密性。密碼學已被應用在日常生活:包括自动柜员机的晶片卡、電腦使用者存取密碼、電子商務等等。.

新!!: 双字母组和密码学 · 查看更多 »

频率分析

频率分析在数学、物理学和信号处理中是一种分解函数、波形、或者信号的频率组成,以获取频谱的方法。 在密码学中,频率分析是指研究字母或者字母组合在文本中出现的频率。应用频率分析可以破解古典密码。 频率分析基于如下原理:在任何一种书面语言中,不同的字母或字母组合出现的频率各不相同。而且,对于以这种语言书写的任意一段文本,都具有大致相同的特征字母分布。比如,在英语中,字母E出现的频率很高,而X则出现得较少。类似地,ST、NG、TH,以及QU等双字母组合出现的频率非常高,NZ、QJ组合则极少。英语中出现频率最高的12个字母可以简记为“ETAOIN SHRDLU”。.

新!!: 双字母组和频率分析 · 查看更多 »

語言模型

統計式的語言模型是藉由一個機率分佈,而指派機率給字詞所組成的字串: P(w_1,\ldots,w_m) 語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標註,句法分析和資訊檢索。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n元語法(N-gram)模型之原因。 在語音辨識和在資料壓縮的領域中,這種模式試圖捕捉語言的特性,並預測在語音串列中的下一個字。 當用於資訊檢索,語言模型是與文件有關的集合。以查詢字「Q」作為輸入,依據機率將文件作排序,而該機率P(Q|M_d)代表該文件的語言模型所產生的語句之機率。.

新!!: 双字母组和語言模型 · 查看更多 »

语音识别

语音识别(speech recognition;語音辨識/言語辨別)技术,也被称为自动语音识别(Automatic Speech Recognition, ASR)、電腦語音識別(Computer Speech Recognition)或是語音轉文本識別(Speech To Text, STT),其目标是以電腦自動将人类的语音内容转换为相應的文字。与及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。 语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。.

新!!: 双字母组和语音识别 · 查看更多 »

条件概率

本文定义了表征两个或者多个随机变量概率分布特点的术语。 条件概率(conditional probability)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为P(A \cap B)或者P(A, B)或者P(AB)。 边缘概率是某个事件发生的概率。边缘概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合并成其事件的全概率而消失(對离散隨机變量用求和得全概率,對連續隨机變量用積分得全概率)。這稱為邊緣化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。 需要注意的是,在这些定义中A与B之间不一定有因果或者时间顺序关系。A可能会先于B发生,也可能相反,也可能二者同时发生。A可能会导致B的发生,也可能相反,也可能二者之间根本就没有因果关系。 例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。.

新!!: 双字母组和条件概率 · 查看更多 »

重定向到这里:

Bigram

传出传入
嘿!我们在Facebook上吧! »