本文作者: jsweibo
本文链接: https://jsweibo.github.io/2020/08/10/%E4%BB%80%E4%B9%88%E6%98%AFUnicode/
摘要
本文主要讲述了:
- 什么是 Unicode
- 字符集
- 字符编码方案
正文
什么是 Unicode
Unicode,中文意为统一码。
Unicode 是计算机科学领域的一项国际标准,它包括字符集和字符编码方案。Unicode 由 Unicode 委员会进行维护。
Unicode 委员会的目的是创建一个涵盖古今中外所有书写系统中的所有字符的字符集,并以其字符集和字符编码方案替代各个国家地区所使用的互不兼容的字符集和字符编码方案。
字符集
Unicode 字符集在[U+0000, U+10FFFF]
范围内为每一个字符分配唯一的 Unicode 码点。例如:中
的 Unicode 码点为U+4E2D
[U+0000, U+10FFFF]
可划分为 17 个平面:
[U+0000, U+FFFF]
0
号平面 BMP 基本多文种平面[U+10000, U+1FFFF]
1
号平面[U+20000, U+2FFFF]
2
号平面[U+30000, U+3FFFF]
3
号平面- …
[U+F0000, U+FFFFF]
15
号平面[U+100000, U+10FFFF]
16
号平面
每个平面可以编码 65536 个字符
字符编码方案
Unicode 字符集可以通过不同的字符编码方案来实现。这些字符编码方案被称作 Unicode Transformation Format(Unicode 转换格式),简称为UTF
。例如:UTF-8
、UTF-16
、UTF-32
示例:
中
的 Unicode 码点为U+4E2D
中
的 UTF-8 的十六进制编码为E4 B8 AD
中
的 UTF-16BE 的十六进制编码为4E 2D
中
的 UTF-16LE 的十六进制编码为2D 4E
中
的 UTF-32BE 的十六进制编码为00 00 4E 2D
中
的 UTF-32LE 的十六进制编码为2D 4E 00 00
参考资料
本文作者: jsweibo
本文链接: https://jsweibo.github.io/2020/08/10/%E4%BB%80%E4%B9%88%E6%98%AFUnicode/
本文对你有帮助?请支持我
- 本文链接: https://jsweibo.github.io/2020/08/10/%E4%BB%80%E4%B9%88%E6%98%AFUnicode/
- 版权声明: 除非另有说明,否则本网站上的内容根据署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 进行许可。