什么是Unicode


本文作者: jsweibo

本文链接: https://jsweibo.github.io/2020/08/10/%E4%BB%80%E4%B9%88%E6%98%AFUnicode/

摘要

本文主要讲述了:

  1. 什么是 Unicode
  2. 字符集
  3. 字符编码方案

正文

什么是 Unicode

Unicode,中文意为统一码。

Unicode 是计算机科学领域的一项国际标准,它包括字符集和字符编码方案。Unicode 由 Unicode 委员会进行维护。

Unicode 委员会的目的是创建一个涵盖古今中外所有书写系统中的所有字符的字符集,并以其字符集和字符编码方案替代各个国家地区所使用的互不兼容的字符集和字符编码方案。

字符集

Unicode 字符集在[U+0000, U+10FFFF]范围内为每一个字符分配唯一的 Unicode 码点。例如:的 Unicode 码点为U+4E2D

[U+0000, U+10FFFF]可划分为 17 个平面:

  • [U+0000, U+FFFF] 0号平面 BMP 基本多文种平面
  • [U+10000, U+1FFFF] 1号平面
  • [U+20000, U+2FFFF] 2号平面
  • [U+30000, U+3FFFF] 3号平面
  • [U+F0000, U+FFFFF] 15号平面
  • [U+100000, U+10FFFF] 16号平面

每个平面可以编码 65536 个字符

字符编码方案

Unicode 字符集可以通过不同的字符编码方案来实现。这些字符编码方案被称作 Unicode Transformation Format(Unicode 转换格式),简称为UTF。例如:UTF-8UTF-16UTF-32

示例:

  • 的 Unicode 码点为U+4E2D
  • 的 UTF-8 的十六进制编码为E4 B8 AD
  • 的 UTF-16BE 的十六进制编码为4E 2D
  • 的 UTF-16LE 的十六进制编码为2D 4E
  • 的 UTF-32BE 的十六进制编码为00 00 4E 2D
  • 的 UTF-32LE 的十六进制编码为2D 4E 00 00

参考资料

本文作者: jsweibo

本文链接: https://jsweibo.github.io/2020/08/10/%E4%BB%80%E4%B9%88%E6%98%AFUnicode/


本文对你有帮助?请支持我


支付宝
微信