徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
下载
比浏览器更快的访问!
 

Unicode和字符编码

快捷方式: 差异相似杰卡德相似系数参考

Unicode和字符编码之间的区别

Unicode vs. 字符编码

Unicode(萬國-)是電腦科學領域裡的一項業界標準。它对世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。 Unicode伴隨著通用字符集的標準而發展,同時也以書本的形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本為2018年6月5日公布的11.0.0,已經收錄超過13萬個字符(第十萬個字符在2005年獲採納)。Unicode涵蓋的資料除了視覺上的字形、編碼方法、標準的字符編碼外,還包含了字符特性,如大小寫字母。 Unicode發展由非營利機構統一碼聯盟負責,該機構致力於讓Unicode方案取代既有的字符編碼方案。因為既有的方案往往空間非常有限,亦不適用於多語環境。 Unicode備受认可,並廣泛地應用於電腦軟體的國際化與本地化過程。有很多新科技,如可扩展置标语言(Extensible Markup Language,簡稱:XML)、Java程式語言以及現代的作業系統,都採用Unicode編碼。. 字符编码(Character encoding)、字集碼是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位元组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。其中,ASCII将字母、数字和其它符号編號,並用7位元的二进制來表示这个整数。通常會額外使用一个扩充的位元,以便于以1个字节的方式存储。 在计算机技术发展的早期,如ASCII(1963年)和EBCDIC(1964年)这样的字符集逐漸成為標準。但这些字符集的局限很快就变得明显,于是人们开发了許多方法来扩展它们。对于支持包括东亚CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系统而不是临时的方法实现这些字符的编码。.

之间Unicode和字符编码相似

Unicode和字符编码有(在联盟百科)28共同点: ASCII大五碼字符字节代码页位元CJK西里尔字母越南语通用字符集GB 18030GB 2312GBKIBMISO/IEC 8859-1JavaLinuxMACMicrosoft WindowsMozillaPunycodeUTF-16UTF-32UTF-7UTF-8XML文字拉丁字母

ASCII

ASCII( ,American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其擴展版本EASCII則可以部分支持其他西欧语言,并等同于国际标准ISO/IEC 646。 ASCII第一次以規範標準的型態發表是在1967年,最後一次更新則是在1986年,至今為止共定義了128個字元;其中33個字元無法顯示(一些终端提供了扩展,使得这些字符可顯示为諸如笑臉、撲克牌花式等8-bit符號),且這33個字元多數都已是陳廢的控制字元。控制字元的用途主要是用來操控已經處理過的文字。在33個字元之外的是95個可顯示的字元。用鍵盤敲下空白鍵所產生的空白字元也算1個可顯示字元(顯示為空白)。.

ASCII和Unicode · ASCII和字符编码 · 查看更多 »

大五碼

Big5,又稱為大五碼或五大碼,是使用繁体中文(正--體中文)社群中最常用的電腦漢字字符集標準,共收錄13,060個漢字。 中文碼分為內碼及交換碼兩類,Big5屬中文內碼,知名的中文交換碼有CCCII、CNS11643。 Big5雖普及於台灣、香港與澳門等繁體中文通行區,但長期以來並非當地的國家/地區標準或官方標準,而只是業界標準。倚天中文系統、Windows繁體中文版等主要系統的字符集都是以Big5為基準,但廠商又各自增加不同的造字與造字區,衍生成多種不同版本。 2003年,Big5收錄到CNS11643中文標準交換碼的附錄當中,取得了較正式的地位。這個最新版本稱為Big5-2003。.

Unicode和大五碼 · 大五碼和字符编码 · 查看更多 »

字符

在電腦和電信領域中,字符(Character)是一個資訊單位。對使用字母系統或音節文字等自然語言,它大約對應為一個音位、類音位的單位或符號。簡單來講就是一個漢字、假名、韓文字……,或是一個英文、其他西方語言的字母。 字符的例子有:字母、數字系統或標點符號。另外有所謂控制字符的概念,它是指:並不對應到自然語言中的某個特定符號,而是對應到語言中一些用來處理文句的概念(類似排版)。例子為列印機或其它顯示設備的命令,如Enter或Tab。.

Unicode和字符 · 字符和字符编码 · 查看更多 »

字节

,通常用作计算机信息计量单位,不分数据类型。 一個字节代表八個。是程序设计语言不可缺少的基本数据类型——整數。 字节是现代计算机中连续的、固定数量的比特(二進制),即八個位元為一字节。 八个二进位经常在规范中被称为Octet(八位组),例如在一些工业标准、网络及电信技术裡。 Byte(字节)可缩写成B,例如MB表示Megabyte;Bit(位元)可缩写成b(小写),例如Mb表示。.

Unicode和字节 · 字符编码和字节 · 查看更多 »

代码页

代码页是字符编码的别名,也稱「內碼表」,是特定语言的字符集的一张表。.

Unicode和代码页 · 代码页和字符编码 · 查看更多 »

位元

位元(Bit),亦称二進制位,指二进制中的一位,是資訊的最小单位。Bit是Binary digit(二进制数位)的缩写,由数学家John Wilder Tukey提出(可能是1946年提出,但有资料称1943年就提出了)。这个术语第一次被正式使用,是在香农著名的论文《通信的数学理论》(A Mathematical Theory of Communication)第1页中。 假设一事件以A或B的方式发生,且A、B发生的概率相等,都为0.5,则一个二进位可用来代表A或B之一。例如:.

Unicode和位元 · 位元和字符编码 · 查看更多 »

CJK

#重定向 中日韓統一表意文字.

CJK和Unicode · CJK和字符编码 · 查看更多 »

西里尔字母

西里尔字母(Кирилли́ческий алфави́т或Кири́ллица,转写:Kirilličeskij alfavit或者Kirillica),也译作基里尔字母,又称斯拉夫字母,是通行于斯拉夫语族大多数民族中的字母书写系统。2011年時在歐亞大陸約有二億五千萬人的國家語言是以西里尔字母為標準文字,其中有半數在前蘇聯疆域範圍內。 西里尔字母大部分是以安色爾體希腊字母為基礎,並包括一些來自格拉哥里字母的字母,還包括一些連字。增添的字母用於古教會斯拉夫語且希臘語沒有的輔音。其名稱出於對先前創立格拉哥里字母的來自拜占庭的聖西里爾和美多德兄弟的敬意。學者們認為西里尔字母是由聖西里爾和美多德早期的門徒發展出來並規範化的。 在2007年1月1日歐盟東擴後,由於新加入的保加利亞使用西里尔字母,因此西里尔字母成為繼拉丁字母及希臘字母後的第三種歐盟官方字母。.

Unicode和西里尔字母 · 字符编码和西里尔字母 · 查看更多 »

越南语

越南語()又稱越語()、京語()及國語(),除此之外,還有一個現代少用的前法國殖民地名稱安南語()。 越南語是越南的國家語言,有85至90%的越南人將之作為母語,另外居住在海外的3百萬越僑、住在中國廣西的京族亦使用越南語。歷史上,越南語曾經使用漢字與喃字表記(即漢喃文),現代則使用以拉丁字母為基礎,添加若干個新字母及聲調符號的國語字()書寫。.

Unicode和越南语 · 字符编码和越南语 · 查看更多 »

通用字符集

通用字符集(Universal Character Set, UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。 通用字符集又称Universal Multiple-Octet Coded Character Set,中国大陆译为通用多八位编码--集,台湾译为廣用多八位--元--組編碼--集。.

Unicode和通用字符集 · 字符编码和通用字符集 · 查看更多 »

GB 18030

GB 18030,全称:“国家标准GB 18030-2005《--》”,是中华人民共和国现时最新的变长度多字节字符集。对GB 2312-1980完全向后兼容,与GBK基本向后兼容;支持GB 13000(Unicode)的所有码位;共收录汉字70,244个。 GB 18030主要有以下特点:.

GB 18030和Unicode · GB 18030和字符编码 · 查看更多 »

GB 2312

GB 2312 或 GB 2312–80 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,通常簡稱GB,又稱GB0,由中国国家标准总局发布,1981年5月1日实施。GB 2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。.

GB 2312和Unicode · GB 2312和字符编码 · 查看更多 »

GBK

#重定向 汉字内码扩展规范.

GBK和Unicode · GBK和字符编码 · 查看更多 »

IBM

国际商业机器股份有限公司(International Business Machines Corporation,首字母縮略字:IBM,曾译万国商用机器公司)是美國一家跨國科技公司及諮詢公司,總部位於紐約州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM雖然是一家商業公司,但在材料、化学、物理等科学领域卻也有很高的成就,利用這些學術研究為基礎,发明很多产品。比较有名的IBM发明的产品包括硬盘、自動櫃員機、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。.

IBM和Unicode · IBM和字符编码 · 查看更多 »

ISO/IEC 8859-1

ISO 8859-1,正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织内ISO/IEC 8859的第一个8位字符集。它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母及符号,藉以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。 ISO-8859-1的别名有: iso-ir-100, csISOLatin1, latin1, l1, IBM819.

ISO/IEC 8859-1和Unicode · ISO/IEC 8859-1和字符编码 · 查看更多 »

Java

Java是一種廣泛使用的電腦程式設計語言,擁有跨平台、物件導向、泛型程式設計的特性,广泛应用于企业级Web应用开发和移动应用开发。 任職於昇陽電腦的詹姆斯·高斯林等人于1990年代初开发Java語言的雛形,最初被命名为Oak,目標設定在家用电器等小型系統的程式语言,應用在电视机、电话、闹钟、烤面包机等家用电器的控制和通訊。由于这些智能化家电的市场需求没有预期的高,Sun公司放弃了该项计划。随着1990年代網際網路的发展,Sun公司看見Oak在網際網路上应用的前景,于是改造了Oak,於1995年5月以Java的名称正式发布。Java伴随着互联网的迅猛发展而发展,逐渐成为重要的网络编程语言。 Java编程语言的风格十分接近C++语言。继承了C++语言面向对象技术的核心,Java舍弃了C++语言中容易引起错误的-zh-hans:指针; zh-hant:指標;-,改以-zh-hans:引用; zh-hant:參照;-取代,同時移除了C++中的--和多重继承特性,改用接口取代,增加垃圾回收器功能。在Java SE 1.5版本中引入了泛型编程、类型安全的枚举、不定长参数和自动装/拆箱特性。昇陽電腦对Java语言的解释是:「Java编程语言是个简单、面向对象、分布式、解释性、健壮、安全与系统无关、可移植、高性能、多线程和动态的语言」 Java不同於一般的编译語言或直譯語言。它首先将源代码编译成字节码,然后依赖各种不同平台上的虚拟机来解释执行字节码,从而实现了“一次编写,到处运行”的跨平台特性。在早期JVM中,这在一定程度上降低了Java程序的运行效率。但在J2SE1.4.2发布后,Java的執行速度有了大幅提升。 与传统型態不同,Sun公司在推出Java時就将其作为开放的技术。全球数以万计的Java开发公司被要求所设计的Java软件必须相互兼容。“Java语言靠群体的力量而非公司的力量”是 Sun公司的口号之一,并获得了广大软件开发商的认同。这与微软公司所倡导的注重精英和封闭式的模式完全不同,此外,微软公司後來推出了与之竞争的.NET平台以及模仿Java的C#语言。後來Sun公司被甲骨文公司併購,Java也隨之成為甲骨文公司的產品。 現時,行動作業系統Android大部分的代碼採用Java 程式設計語言編程。.

Java和Unicode · Java和字符编码 · 查看更多 »

Linux

Linux( )是一種自由和開放源碼的類UNIX作業系統。该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布。,在加上使用者空間的應用程式之後,成為Linux作業系統。Linux也是自由软件和开放源代码软件发展中最著名的例子。只要遵循GNU通用公共许可证(GPL),任何个人和机构都可以自由地使用Linux的所有底层源代码,也可以自由地修改和再发布。大多數Linux系統還包括像提供GUI的X Window之類的程序。除了一部分專家之外,大多數人都是直接使用Linux發行版,而不是自己選擇每一樣組件或自行設置。 Linux嚴格來說是單指作業系統的内核,因作業系統中包含了許多用戶圖形介面和其他实用工具。如今Linux常用来指基于Linux的完整操作系统,內核則改以Linux内核稱之。由于这些支持用户空间的系统工具和库主要由理查德·斯托曼于1983年发起的GNU计划提供,自由软件基金会提议将其组合系统命名为GNU/Linux,但Linux不屬於GNU計劃,這個名稱並沒有得到社群的一致認同。 Linux最初是作为支持英特尔x86架构的个人电脑的一个自由操作系统。目前Linux已经被移植到更多的计算机硬件平台,远远超出其他任何操作系统。Linux可以运行在服务器和其他大型平台之上,如大型主机和超级计算机。世界上500个最快的超级计算机90%以上运行Linux发行版或变种,包括最快的前10名超级电脑运行的都是基于Linux内核的操作系统。Linux也广泛应用在嵌入式系统上,如手机(Mobile Phone)、平板电脑(Tablet)、路由器(Router)、电视(TV)和电子游戏机等。在移动设备上广泛使用的Android操作系统就是建立在Linux内核之上。 通常情况下,Linux被打包成供个人计算机和服务器使用的Linux发行版,一些流行的主流Linux发布版,包括Debian(及其衍生版本Ubuntu、Linux Mint)、Fedora(及其相关版本Red Hat Enterprise Linux、CentOS)和openSUSE等。Linux发行版包含Linux内核和支撑内核的实用程序和库,通常还带有大量可以满足各类需求的应用程序。个人计算机使用的Linux发行版通常包含X Window和一个相应的桌面环境,如GNOME或KDE。桌面Linux操作系统常用的应用程序,包括Firefox网页浏览器、LibreOffice办公软件、GIMP图像处理工具等。由于Linux是自由软件,任何人都可以创建一个符合自己需求的Linux发行版。.

Linux和Unicode · Linux和字符编码 · 查看更多 »

MAC

Mac或MAC可以指:; 计算机.

MAC和Unicode · MAC和字符编码 · 查看更多 »

Microsoft Windows

Microsoft Windows(中文有时譯作微軟--,通常不做翻译)是微軟公司推出的一系列操作系统。它問世於1985年,起初是MS-DOS之下的桌面環境,其後續版本逐漸發展成為主要为個人電腦和服务器用户設計的操作系統,并最终获得了世界个人电脑操作系統的垄断地位。此操作系統可以在几种不同类型的平台上运行,如个人电脑(PC)、移动裝置、服务器(Server)和嵌入式系統等等,其中在个人电脑的领域应用内最为普遍。在2004年國際數據資訊公司一次有关未来发展趋势的会议上,副董事长Avneesh Saxena宣布Windows拥有终端操作系统大约70%的市场份额 www.linuxworld.com.au。 Windows操作系統目前最新的穩定版是於2015年7月29日發佈的 Windows 10。Windows Server目前最新的穩定版是2016年9月26日發佈的Windows Server 2016。.

Microsoft Windows和Unicode · Microsoft Windows和字符编码 · 查看更多 »

Mozilla

Mozilla是一个自由軟體社群,由網景通訊公司的成員於1998年創立。在非正式的場合下,「Mozilla」這個名字常用於不同的事物上。這些事物大都與現已歇業的網景通訊公司及其旗下的應用軟體相關。許多其它「Mozilla」名詞的用法請見下方敘述。.

Mozilla和Unicode · Mozilla和字符编码 · 查看更多 »

Punycode

Punycode(譯為:域名代码)是一种表示Unicode码和ASCII码的有限的字符集。例如:“münchen”(德国慕尼黑)会被编码为“mnchen-3ya”。 Punycode的目的是在于国际化域名标签(IDNA)的框架中,使这些(多语言)的域名可以编码为ASCII。编码语法在文档RFC3492中规定。.

Punycode和Unicode · Punycode和字符编码 · 查看更多 »

UTF-16

UTF-16是Unicode字符编码五层次模型的第三层:字符编码表(Character Encoding Form,也称为"storage format")的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数(即码元)的--,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。 UTF是"Unicode/UCS Transformation Format"的首字母缩写,即把Unicode字符转换为某種格式之意。UTF-16正式定義於ISO/IEC 10646-1的附錄C,而RFC2781也定義了相似的做法。.

UTF-16和Unicode · UTF-16和字符编码 · 查看更多 »

UTF-32

UTF-32是32位Unicode转换格式(Unicode Transformation Formats, 或UTF)的缩写。UTF-32是一种用于编码Unicode的协定,该协定使用32位比特对每个Unicode码位进行编码(但前导比特数必须为零,故仅能表示221个Unicode码位)。与其他可变长度的Unicode转换格式(UTF)相比,UTF-32编码长度是固定的,UTF-32中的每个32位值代表一个Unicode码位,并且与该码位的数值完全一致。 UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下,其他可变长度编码需要进行循序存取操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中,编码序列中的字符位置可以用一个整数来表示,整数加一即可得到下一个字符的位置,就和ASCII字符串一样简单。 UTF-32的主要缺点是每个码位使用四个字节,空间浪费较多。在大多数文本中,非基本多文種平面的字符非常罕见,这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍(具体取决于文本中ASCII字符的比例)。 尽管每一個碼位使用固定長度的位元組看似方便,但UTF-32並不如其它Unicode編碼使用廣泛。與UTF-8及UTF-16相比,UTF-32更容易遭到截斷。即使使用了"定寬"字型,在大多数情况下用UTF-32計算顯示字串的寬度也并不比其他编码更加容易。主要原因是,存在著一個字符位置會有多於一種可能的碼點(結合字符)或一個碼點用多於一個字符位置(如CJK表意字符)。結合符號也意味著,文書編輯者不能將一個码位視同一個編輯上的單位。.

UTF-32和Unicode · UTF-32和字符编码 · 查看更多 »

UTF-7

UTF-7(全称:7位元Unicode轉換格式)是一種可變長度字元編碼方式,用以將Unicode字元以ASCII編碼的字元串來呈現,可以應用在電子郵件傳輸之類的應用。 SMTP為基本的電子郵件傳輸標準之一,其指明了傳輸格式為US-ASCII,並且不允許超過ASCII所定義的字元範圍以外的位元值,也就是說八位元的字串將無法正常的被傳輸。MIME(RFC 2045 ~ 2049)擴展了網路郵件以支援不同的媒體類型以及字元集,包含UTF-8與UTF-16的字元集皆可被指定使用。但由於MIME並未明確將Unicode定義為可支援的字元集,並且也沒有說明其應如何編碼,這使得既有的SMTP傳輸架構下仍舊無法保證可正確的處理8位元資料。base64編碼也有其問題,例如甚至連純英文的US-ASCII字元也可能會變成不可辨認;至於像是UTF-8與quoted-printable的編碼結合,則需要6~9個位元來為非ASCII的字元(Unicode的基本多文種平面中定義的字元)進行編碼,至於在基本多文種平面(BMP)以外的字原則需要多達12位元的長度才能完成編.

UTF-7和Unicode · UTF-7和字符编码 · 查看更多 »

UTF-8

UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,也是一种前缀码。它可以用來表示Unicode標準中的任何字元,且其編碼中的第一個位元組仍與ASCII相容,這使得原來處理ASCII字元的軟體無須或只須做少部份修改,即可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。 UTF-8使用一至六個位元組為每個字符編碼(尽管如此,2003年11月UTF-8被RFC 3629重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF,也就是说最多四個字节):.

UTF-8和Unicode · UTF-8和字符编码 · 查看更多 »

XML

可扩展标记语言(Extensible Markup Language,简称:XML),是一种标记语言。标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种信息的文章等。如何定义这些标记,既可以选择国际通用的标记语言,比如HTML,也可以使用像XML这样由相关人士自由决定的标记语言,这就是语言的可扩展性。XML是从标准通用标记语言(SGML)中简化修改出来的。它主要用到的有可扩展标记语言、可扩展样式语言(XSL)、XBRL和XPath等。.

Unicode和XML · XML和字符编码 · 查看更多 »

文字

原始文字是人类用来紀錄特定事物、簡化圖像而成的書寫符號。文字在发展早期都是图画形式的,有些是以形表意,有些是以形表音,其中有表意文字(象形文字,即以形表意的文字),與語音無甚關係,中國文字便是從此漸次演變而成。有些中文字可以從表面、部首、字旁看到一些聯繫旁通的字義。而這些特色是拼音文字所沒有的。所以古代中國文字在不同的語系區域是擁有不同發音的,即方言的存在。漢朝已經被鄰近的族群借用其文字用作為書寫紀錄。一般认为,文字是文明社会的标志。马克思主义者认为文字是在阶级社会出現后产生的。 有些文字是以形表音的图画文字,其后歷經不同演變,部分發展成语言的符号系统,後亦可用來紀錄人生經驗與見聞。 以形表音的图画文字经过不断的发展,從古埃及文、羅馬文字、及拉丁文字則发展到后期都成为語音符號,即外文的字母,不同的外文字母合併成一個外國文字。由於不同字母分別付予一個音,不同的字母合併成切音(混音),形成音節,合併不合的音節,成為了记录语音的表音文字。.

Unicode和文字 · 字符编码和文字 · 查看更多 »

拉丁字母

拉丁字母(也稱為罗马字母)是多數歐洲語言采用的字母系统,是世界上最通行的字母文字系統。拉丁字母作為羅馬文明的成果之一,隨著征服推廣到西歐廣大地區。.

Unicode和拉丁字母 · 字符编码和拉丁字母 · 查看更多 »

上面的列表回答下列问题

Unicode和字符编码之间的比较

Unicode有187个关系,而字符编码有79个。由于它们的共同之处28,杰卡德指数为10.53% = 28 / (187 + 79)。

参考

本文介绍Unicode和字符编码之间的关系。要访问该信息提取每篇文章,请访问:

嘿!我们在Facebook上吧! »