我们正在努力恢复Google Play商店上的Unionpedia应用程序
🌟我们简化了设计以优化导航!
Instagram Facebook X LinkedIn

UTF-32和字符编码

快捷方式: 差异相似杰卡德相似系数参考

UTF-32和字符编码之间的区别

UTF-32 vs. 字符编码

UTF-32是32位Unicode转换格式(Unicode Transformation Formats, 或UTF)的缩写。UTF-32是一种用于编码Unicode的协定,该协定使用32位比特对每个Unicode码位进行编码(但前导比特数必须为零,故仅能表示221个Unicode码位)。与其他可变长度的Unicode转换格式(UTF)相比,UTF-32编码长度是固定的,UTF-32中的每个32位值代表一个Unicode码位,并且与该码位的数值完全一致。 UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下,其他可变长度编码需要进行循序存取操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中,编码序列中的字符位置可以用一个整数来表示,整数加一即可得到下一个字符的位置,就和ASCII字符串一样简单。 UTF-32的主要缺点是每个码位使用四个字节,空间浪费较多。在大多数文本中,非基本多文種平面的字符非常罕见,这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍(具体取决于文本中ASCII字符的比例)。 尽管每一個碼位使用固定長度的位元組看似方便,但UTF-32並不如其它Unicode編碼使用廣泛。與UTF-8及UTF-16相比,UTF-32更容易遭到截斷。即使使用了"定寬"字型,在大多数情况下用UTF-32計算顯示字串的寬度也并不比其他编码更加容易。主要原因是,存在著一個字符位置會有多於一種可能的碼點(結合字符)或一個碼點用多於一個字符位置(如CJK表意字符)。結合符號也意味著,文書編輯者不能將一個码位視同一個編輯上的單位。. 字符编码(Character encoding)、字集碼是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位元组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号編號,並用7位元的二进制來表示这个整数。通常會額外使用一个扩充的位元,以便于以1个字节的方式存储。 在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐漸成為標準。但这些字符集的局限很快就变得明显,于是人们开发了許多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系统而不是临时的方法实现这些字符的编码。.

之间UTF-32和字符编码相似

UTF-32和字符编码有(在联盟百科)6共同点: CJK码位通用字符集UnicodeUTF-16UTF-8

CJK

#重定向 中日韓統一表意文字.

CJK和UTF-32 · CJK和字符编码 · 查看更多 »

码位

在字符编码术语中,码位或称编码位置,即英文的code point或code position,是组成码空间(或代码页)的数值。 例如,ASCII码包含128个码位,范围是016进制到7F16进制,扩展ASCII码包含256个码位,范围是016进制到FF16进制,而Unicode包含1,114,112个码位,范围是016进制到10FFFF16进制。Unicode码空间划分为17个Unicode字符平面(基本多文种平面,16个辅助平面),每个平面有65,536(.

UTF-32和码位 · 字符编码和码位 · 查看更多 »

通用字符集

通用字符集(Universal Character Set, UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。 通用字符集又称Universal Multiple-Octet Coded Character Set,中国大陆译为通用多八位编码--集,台湾译为廣用多八位--元--組編碼--集。.

UTF-32和通用字符集 · 字符编码和通用字符集 · 查看更多 »

Unicode

Unicode(萬國-)是電腦科學領域裡的一項業界標準。它对世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。 Unicode伴隨著通用字符集的標準而發展,同時也以書本的形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本為2018年6月5日公布的11.0.0,已經收錄超過13萬個字符(第十萬個字符在2005年獲採納)。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字符編碼外,還包含了字符特性,如大小寫字母。 Unicode發展由非營利機構統一碼聯盟負責,該機構致力於讓Unicode方案取代既有的字符編碼方案。因為既有的方案往往空間非常有限,亦不適用於多語環境。 Unicode備受认可,並廣泛地應用於電腦軟體的國際化與本地化過程。有很多新科技,如可扩展置标语言(Extensible Markup Language,簡稱:XML)、Java程式語言以及現代的作業系統,都採用Unicode編碼。.

UTF-32和Unicode · Unicode和字符编码 · 查看更多 »

UTF-16

UTF-16是Unicode字符编码五层次模型的第三层:字符编码表(Character Encoding Form,也称为"storage format")的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数(即码元)的--,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。 UTF是"Unicode/UCS Transformation Format"的首字母缩写,即把Unicode字符转换为某種格式之意。UTF-16正式定義於ISO/IEC 10646-1的附錄C,而RFC2781也定義了相似的做法。.

UTF-16和UTF-32 · UTF-16和字符编码 · 查看更多 »

UTF-8

UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一种前缀码。它可以用來表示Unicode標準中的任何字元,且其編碼中的第一個位元組仍與ASCII相容,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。 UTF-8使用一至六個位元組為每個字符編碼(尽管如此,2003年11月UTF-8被RFC 3629重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF,也就是说最多四個字节):.

UTF-32和UTF-8 · UTF-8和字符编码 · 查看更多 »

上面的列表回答下列问题

UTF-32和字符编码之间的比较

UTF-32有9个关系,而字符编码有79个。由于它们的共同之处6,杰卡德指数为6.82% = 6 / (9 + 79)。

参考

本文介绍UTF-32和字符编码之间的关系。要访问该信息提取每篇文章,请访问: