之间UTF-16和UTF-8相似
UTF-16和UTF-8有(在联盟百科)12共同点: ASCII,十六进制,子集,字节,寬字元,二进制,位元組順序記號,通用字符集,Linux,Unicode,Unicode字符平面映射,UTF-16。
ASCII
ASCII( ,American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其擴展版本EASCII則可以部分支持其他西欧语言,并等同于国际标准ISO/IEC 646。 ASCII第一次以規範標準的型態發表是在1967年,最後一次更新則是在1986年,至今為止共定義了128個字元;其中33個字元無法顯示(一些终端提供了扩展,使得这些字符可顯示为諸如笑臉、撲克牌花式等8-bit符號),且這33個字元多數都已是陳廢的控制字元。控制字元的用途主要是用來操控已經處理過的文字。在33個字元之外的是95個可顯示的字元。用鍵盤敲下空白鍵所產生的空白字元也算1個可顯示字元(顯示為空白)。.
十六进制
十六进制(简写为hex或下標16)在数学中是一种逢16进1的进位制。一般用数字0到9和字母A到F(或a~f)表示,其中:A~F表示10~15,这些称作十六进制数字。 例如十进制數57,在二进制寫作111001,在16进制寫作39。 在历史上,中国曾经在重量单位上使用过16进制,比如,规定16两为一斤。 现在的16进制则普遍应用在计算机领域,这是因為將4個位元(Bit)化成單獨的16进制數字不太困難。1字節可以表示成2個連續的16进制數字。可是,這種混合表示法容易令人混淆,因此需要一些字首、字尾或下標來顯示。.
子集
子集,為某個集合中一部分的集合,故亦稱部分集合。 若A和B为集合,且A的所有元素都是B的元素,则有:.
字节
,通常用作计算机信息计量单位,不分数据类型。 一個字节代表八個。是程序设计语言不可缺少的基本数据类型——整數。 字节是现代计算机中连续的、固定数量的比特(二進制),即八個位元為一字节。 八个二进位经常在规范中被称为Octet(八位组),例如在一些工业标准、网络及电信技术裡。 Byte(字节)可缩写成B,例如MB表示Megabyte;Bit(位元)可缩写成b(小写),例如Mb表示。.
寬字元
寬字元(Wide character) 是计算机抽象術語(没有规定具体实现细节),表示比8位元字元還寬的資料類型。不同於Unicode。.
UTF-16和寬字元 · UTF-8和寬字元 ·
二进制
在數學和數字電路中,二進制(binary)數是指用二進制記數系統,即以2為基數的記數系統表示的數字。這一系統中,通常用兩個不同的符號0(代表零)和1(代表一)來表示。以2為基數代表系統是二進位制的。數字電子電路中,邏輯門的實現直接應用了二進制,因此現代的計算機和依赖計算機的設備裡都用到二進制。每個數字稱為一個位元(二進制位)或比特(Bit,Binary digit的縮寫)。.
UTF-16和二进制 · UTF-8和二进制 ·
位元組順序記號
位元組順序記號(byte-order mark,BOM)是位於碼點U+FEFF的統一碼字符的名称。當以UTF-16或UTF-32來將UCS/統一碼字符所組成的字串編碼時,這個字符被用來標示其位元組序。它常被用來當做標示文件是以UTF-8、UTF-16或UTF-32編碼的記號。.
UTF-16和位元組順序記號 · UTF-8和位元組順序記號 ·
通用字符集
通用字符集(Universal Character Set, UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。 通用字符集又称Universal Multiple-Octet Coded Character Set,中国大陆译为通用多八位编码--集,台湾译为廣用多八位--元--組編碼--集。.
Linux
Linux( )是一種自由和開放源碼的類UNIX作業系統。该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布。,在加上使用者空間的應用程式之後,成為Linux作業系統。Linux也是自由软件和开放源代码软件发展中最著名的例子。只要遵循GNU通用公共许可证(GPL),任何个人和机构都可以自由地使用Linux的所有底层源代码,也可以自由地修改和再发布。大多數Linux系統還包括像提供GUI的X Window之類的程序。除了一部分專家之外,大多數人都是直接使用Linux發行版,而不是自己選擇每一樣組件或自行設置。 Linux嚴格來說是單指作業系統的内核,因作業系統中包含了許多用戶圖形介面和其他实用工具。如今Linux常用来指基于Linux的完整操作系统,內核則改以Linux内核稱之。由于这些支持用户空间的系统工具和库主要由理查德·斯托曼于1983年发起的GNU计划提供,自由软件基金会提议将其组合系统命名为GNU/Linux,但Linux不屬於GNU計劃,這個名稱並沒有得到社群的一致認同。 Linux最初是作为支持英特尔x86架构的个人电脑的一个自由操作系统。目前Linux已经被移植到更多的计算机硬件平台,远远超出其他任何操作系统。Linux可以运行在服务器和其他大型平台之上,如大型主机和超级计算机。世界上500个最快的超级计算机90%以上运行Linux发行版或变种,包括最快的前10名超级电脑运行的都是基于Linux内核的操作系统。Linux也广泛应用在嵌入式系统上,如手机(Mobile Phone)、平板电脑(Tablet)、路由器(Router)、电视(TV)和电子游戏机等。在移动设备上广泛使用的Android操作系统就是建立在Linux内核之上。 通常情况下,Linux被打包成供个人计算机和服务器使用的Linux发行版,一些流行的主流Linux发布版,包括Debian(及其衍生版本Ubuntu、Linux Mint)、Fedora(及其相关版本Red Hat Enterprise Linux、CentOS)和openSUSE等。Linux发行版包含Linux内核和支撑内核的实用程序和库,通常还带有大量可以满足各类需求的应用程序。个人计算机使用的Linux发行版通常包含X Window和一个相应的桌面环境,如GNOME或KDE。桌面Linux操作系统常用的应用程序,包括Firefox网页浏览器、LibreOffice办公软件、GIMP图像处理工具等。由于Linux是自由软件,任何人都可以创建一个符合自己需求的Linux发行版。.
Unicode
Unicode(萬國-)是電腦科學領域裡的一項業界標準。它对世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。 Unicode伴隨著通用字符集的標準而發展,同時也以書本的形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本為2018年6月5日公布的11.0.0,已經收錄超過13萬個字符(第十萬個字符在2005年獲採納)。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字符編碼外,還包含了字符特性,如大小寫字母。 Unicode發展由非營利機構統一碼聯盟負責,該機構致力於讓Unicode方案取代既有的字符編碼方案。因為既有的方案往往空間非常有限,亦不適用於多語環境。 Unicode備受认可,並廣泛地應用於電腦軟體的國際化與本地化過程。有很多新科技,如可扩展置标语言(Extensible Markup Language,簡稱:XML)、Java程式語言以及現代的作業系統,都採用Unicode編碼。.
UTF-16和Unicode · UTF-8和Unicode ·
Unicode字符平面映射
前的Unicode字元分為17組編排,每組稱為平面(Plane),而每平面擁有65536(即216)個代碼點。然而目前只用了少數平面。 要有更詳細的描述,請參閱:基本多文種平面與補充平面。.
UTF-16和Unicode字符平面映射 · UTF-8和Unicode字符平面映射 ·
UTF-16
UTF-16是Unicode字符编码五层次模型的第三层:字符编码表(Character Encoding Form,也称为"storage format")的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数(即码元)的--,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。 UTF是"Unicode/UCS Transformation Format"的首字母缩写,即把Unicode字符转换为某種格式之意。UTF-16正式定義於ISO/IEC 10646-1的附錄C,而RFC2781也定義了相似的做法。.
上面的列表回答下列问题
- 什么UTF-16和UTF-8的共同点。
- 什么是UTF-16和UTF-8之间的相似性
UTF-16和UTF-8之间的比较
UTF-16有24个关系,而UTF-8有75个。由于它们的共同之处12,杰卡德指数为12.12% = 12 / (24 + 75)。
参考
本文介绍UTF-16和UTF-8之间的关系。要访问该信息提取每篇文章,请访问: