您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

为什么只有Unicode是不够的,UTF-8如何解决编码问题?

时间:2024-01-04 15:20:56  来源:微信公众号  作者:沐雨花飞蝶

Unicode

Unicode是一种字符编码标准,它为世界上几乎所有的文字和符号分配了唯一的数字编码。这使得不同的计算机系统和软件能够正确地显示和处理各种语言的文字。Unicode采用16位或32位编码,可以表示超过130万个字符。

「为什么只有Unicode是不够的」

  1. 「编码长度不一致」:在Unicode中,字符的编码长度可以是1个字节、2个字节、3个字节或4个字节,这使得在存储和传输时需要考虑编码长度的不一致性。
  2. 「存储和传输效率」:由于Unicode字符集非常庞大,使用Unicode编码可能会导致存储和传输效率低下,特别是对于只包含少量字符的文本而言。
  3. 「兼容性」:许多现有的系统和软件可能仍然使用其他编码方式,如ASCII、ISO-8859等,因此需要与这些编码方式进行兼容。

举个例子,假如我们自己为字符编码,编码规则如下:

a -- 1
b -- 2
c -- 3
...
z -- 26

如果用上面的编码表示add,结果就是144。而当我们要表示hello时没结果就是85121215。此时85121215还可以表示为heababo、heababae、heablo等,此时这个编码结果就不正确了。

为什么只有Unicode是不够的,UTF-8如何解决编码问题?图片

此时的12和15就可以表示为不同的组合,这就会导致结果差异。这里仅仅只是表示了26个字母,再加入其他字符的情况下Unicode远远是不够的。

我们看看UTF-8如何解决上面的编码问题,此时有两种思路:

  1. 第一种是固定位数解析:如固定两位解析,不足的补0。这时 hello的编码结果就为0805121215。
  2. 第二种是增加标志位:如最简单的加空格,这时hello的编码就是8 5 12 12 15。

在Unicode中,解决方案叫UTF(Unicode transformation format),有三种编码方式分别是UTF-8、UTF-16、UTF-32。UTF-32是第一种思路,固定32位解析,不足补0;UTF-8、UTF-16则是第二种思路。

UTF-8

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,它可以用来表示世界上几乎所有的字符。在UTF-8编码中,每个字符的编码长度可以是1个字节、2个字节、3个字节或4个字节,这使得UTF-8编码非常灵活,可以节省存储空间。UTF-8编码通过灵活的字节长度来表示Unicode字符,使得它成为一种广泛应用的字符编码方式。

UTF-8编码的特点:

  • 对于英文字符,使用1个字节表示,与ASCII兼容;
  • 对于常见的其他语言(如西欧语言、中文、日文等)的字符,使用2个或3个字节表示;
  • 对于较少使用的字符,使用4个字节表示。

UTF-8使用1至4个字节来表示一个字符。其编码规则如下:

为什么只有Unicode是不够的,UTF-8如何解决编码问题?图片

  • 对于单字节字符(即ASCII字符),UTF-8编码和ASCII编码是相同的。
  • 对于多字节字符,UTF-8使用不同的字节序列来表示不同的Unicode码位。具体规则如下:
  • 对于码位在U+0000至U+007F范围内的字符,使用一个字节表示,最高位为0。
  • 对于码位在U+0080至U+07FF范围内的字符,使用两个字节表示,最高三位为110。
  • 对于码位在U+0800至U+FFFF范围内的字符,使用三个字节表示,最高四位为1110。
  • 对于码位在U+10000至U+10FFFF范围内的字符,使用四个字节表示,最高五位为11110。

这种编码方式保证了对于不同范围的Unicode字符,UTF-8编码的字节数是不同的,从而实现了对Unicode字符集的高效编码和兼容性。

我们用汉这个字为例:

**汉**的 Unicode 编码为:U+6C49
**汉**对应的二进制为:01101100 01001001

汉的Unicode为U+6C49,所以对应规则多字节中的三个字节,此时编码规则为1110xxxx 10xxxxxx 10xxxxxx。

为什么只有Unicode是不够的,UTF-8如何解决编码问题?图片

将对用的二进制带入编码规则中得到编码为:11100110 10110001 10001001。

总结

Unicode是一种字符集,它为世界上几乎所有的字符分配了一个唯一的标识符,以便计算机可以理解和处理各种语言的文本。Unicode的目标是为全球范围内的每个字符提供一个唯一的标识符。

UTF-8是一种Unicode的实现方式,它是一种可变长度的字符编码方式,可以用来表示Unicode标准中的字符。UTF-8编码使用1到4个字节来表示一个字符,根据字符的不同范围来确定使用的字节数,这样可以节省存储空间并提高传输效率。

Unicode的提出解决了传统字符编码方案的局限性,使得计算机可以更好地处理全球范围内的多语言文本。而UTF-8作为Unicode的一种实现方式,为文本的存储和传输提供了高效的解决方案。



Tags:编码   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
为什么只有Unicode是不够的,UTF-8如何解决编码问题?
UnicodeUnicode是一种字符编码标准,它为世界上几乎所有的文字和符号分配了唯一的数字编码。这使得不同的计算机系统和软件能够正确地显示和处理各种语言的文字。Unicode采用1...【详细内容】
2024-01-04  Search: 编码  点击:(91)  评论:(0)  加入收藏
Google Play谷歌开发者公司邓白氏编码办理流程
Google Play是谷歌公司推出的一款应用程序市场,为开发者提供了一个平台,让他们可以将自己的应用程序发布到全球用户手中。在Google Play上发布应用程序需要邓白氏编码(邓白氏编...【详细内容】
2023-12-20  Search: 编码  点击:(69)  评论:(0)  加入收藏
5 个让日常编码更简单的 Python 库
如果曾经在 Python 中使用过 subprocess 库,那么我们很有可能对它感到失望,它不是最直观的库,可能还有些复杂,并且很难处理底层系统调用的输出。但是 sh 库结束了低效使用子进程...【详细内容】
2023-12-14  Search: 编码  点击:(155)  评论:(0)  加入收藏
Protobuf编码原理及优化技巧探讨
作者:carmark本文将在proto3语法背景下,介绍protobuf的编码原理,并结合业务场景探讨部分优化技巧。1、Protobuf编码原理介绍序列化算法被广泛应用于各种通信协议中,本文对序列化...【详细内容】
2023-12-06  Search: 编码  点击:(44)  评论:(0)  加入收藏
使用 CodeWhisperer 作为 AI 编码助手,重新构想软件开发
在 Amazon CodeWhisperer 正式发布后,许多客户都已经使用它来简化和精简其软件开发方式。CodeWhisperer 使用由根基模型提供支持的生成式人工智能来理解代码的语义和上下文,并...【详细内容】
2023-11-30  Search: 编码  点击:(117)  评论:(0)  加入收藏
邓白氏编码如何查询
邓白氏编码,即D-U-N-S编号,是一个全球公认的九位数字商业标识符号,被广泛应用于企业识别、风险管理和市场研究等领域。对于需要了解企业邓白氏编码的人来说,如何进行查询是一个...【详细内容】
2023-11-21  Search: 编码  点击:(72)  评论:(0)  加入收藏
CSS 新功能:让编码更高效
CSS 是一种不断发展的语言。每一次迭代,它都会变得越来越好。因此,了解最新的 CSS 功能非常重要,这样你才能在项目中使用它们,减少对第三方库的依赖。本文将介绍一些即将推出的...【详细内容】
2023-11-16  Search: 编码  点击:(158)  评论:(0)  加入收藏
避免Python乱码陷阱:字符编码详解
在Python编程中,处理字符编码和乱码问题是一个常见的挑战。特别是在处理文本数据、文件输入/输出和网络通信时,可能会遇到各种字符编码问题。这篇文章将深入探讨Python中的乱...【详细内容】
2023-11-13  Search: 编码  点击:(270)  评论:(0)  加入收藏
碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星
新智元报道编辑:桃子【新智元导读】AutoGPT之后,AutoGen逆袭成功。AI智能体热度,只增不减。发布仅2周,微软、PSU和华盛顿大学等团队开发的智能体AutoGen瞬间登顶GitHub热榜,狂揽1...【详细内容】
2023-10-16  Search: 编码  点击:(356)  评论:(0)  加入收藏
Redis类型(Type)与编码(Encoding)
Redis是一款开源的高性能key-value数据库,广泛应用于各种场景。在Redis中, 数据类型(Type)和编码(Encoding) 是非常重要的概念。本篇博客将详细介绍Redis支持的数据类型以及相应的...【详细内容】
2023-10-16  Search: 编码  点击:(291)  评论:(0)  加入收藏
▌简易百科推荐
即将过时的 5 种软件开发技能!
作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈(微信号:blog51cto) 时至今日,AI编码工具已经进化到足够强大了吗?这未必好回答,但从2023 年 Stack Overflow 上的调查数据来看,44%...【详细内容】
2024-04-03    51CTO  Tags:软件开发   点击:(5)  评论:(0)  加入收藏
跳转链接代码怎么写?
在网页开发中,跳转链接是一项常见的功能。然而,对于非技术人员来说,编写跳转链接代码可能会显得有些困难。不用担心!我们可以借助外链平台来简化操作,即使没有编程经验,也能轻松实...【详细内容】
2024-03-27  蓝色天纪    Tags:跳转链接   点击:(12)  评论:(0)  加入收藏
中台亡了,问题到底出在哪里?
曾几何时,中台一度被当做“变革灵药”,嫁接在“前台作战单元”和“后台资源部门”之间,实现企业各业务线的“打通”和全域业务能力集成,提高开发和服务效率。但在中台如火如荼之...【详细内容】
2024-03-27  dbaplus社群    Tags:中台   点击:(8)  评论:(0)  加入收藏
员工写了个比删库更可怕的Bug!
想必大家都听说过删库跑路吧,我之前一直把它当一个段子来看。可万万没想到,就在昨天,我们公司的某位员工,竟然写了一个比删库更可怕的 Bug!给大家分享一下(不是公开处刑),希望朋友们...【详细内容】
2024-03-26  dbaplus社群    Tags:Bug   点击:(5)  评论:(0)  加入收藏
我们一起聊聊什么是正向代理和反向代理
从字面意思上看,代理就是代替处理的意思,一个对象有能力代替另一个对象处理某一件事。代理,这个词在我们的日常生活中也不陌生,比如在购物、旅游等场景中,我们经常会委托别人代替...【详细内容】
2024-03-26  萤火架构  微信公众号  Tags:正向代理   点击:(10)  评论:(0)  加入收藏
看一遍就理解:IO模型详解
前言大家好,我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢,先问问大家几个问题哈~什么是IO呢?什么是阻塞非阻塞IO?什么是同步异步IO?什么是IO多路复用?select/epoll...【详细内容】
2024-03-26  捡田螺的小男孩  微信公众号  Tags:IO模型   点击:(8)  评论:(0)  加入收藏
为什么都说 HashMap 是线程不安全的?
做Java开发的人,应该都用过 HashMap 这种集合。今天就和大家来聊聊,为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说,HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】
2024-03-22  Java技术指北  微信公众号  Tags:HashMap   点击:(11)  评论:(0)  加入收藏
如何从头开始编写LoRA代码,这有一份教程
选自 lightning.ai作者:Sebastian Raschka机器之心编译编辑:陈萍作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大...【详细内容】
2024-03-21  机器之心Pro    Tags:LoRA   点击:(12)  评论:(0)  加入收藏
这样搭建日志中心,传统的ELK就扔了吧!
最近客户有个新需求,就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的...【详细内容】
2024-03-20  dbaplus社群    Tags:日志   点击:(4)  评论:(0)  加入收藏
Kubernetes 究竟有没有 LTS?
从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年,一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】
2024-03-15  云原生散修  微信公众号  Tags:Kubernetes   点击:(5)  评论:(0)  加入收藏
站内最新
站内热门
站内头条