2024年11月26日

快速搞懂Unicode,ASCII,UTF-8,代码点，编码

上一篇关于这个话题讲到了总结法则，这篇就来具体看一看吧！

第一，要将一串的字节翻译成人类理解的字位。首先必须要知道原始编码。

第二，在Unicode中字位非代码点，非字节，这个是非常重要的，因为在很多语言中，字符串操作库只对字节生效。在ASCII中没问题，因为字位与字节一一对应，Unicode中就不行了，这个例子是Python2的原生字符串，len()函数返回字符串中字节数即4，而不是字位或者代码点的1，此外如果我们查看字符串索引，得到点赞表情每个代码点的UTF-8字节，其实没有什么用，这些函数称为“Unicode不知所云/un''，因为他们操纵字节，却不知背后含义，你可能更希望用代码点来索引字符，要实现就要用到u指定符，使其成为可识别的Unicode字符串，这样len()和索引就是我们要的了，来看另一个例子：点赞结合如上色块，一个字位两个代码点，应该像这样，但我的终端实际无法正确渲染，使用len(s)得到8，因为两个代码点每个占四字节，当我们使用u(),得到代码点长度为2。

2024年11月26日

Java基础复习笔记

一、Java的基本数据类型有哪些？

整数型: byte,short,int,long。

浮点型: float,double。

字符型： char。

逻辑型: boolean。

2024年11月26日

网抓爬虫遇到Unicode编码如何用vba解码?

在做爬虫、网抓项目时，必不可少的要寻找目标资源的URL。

有时候找到的URL是形如这样的

http:\/\/archive.cdn.fonts.net.cn\/font-38195-191216220816.zip?response-content-disposition=attachment%3Bfilename%3D%22FenPinYinTi.zip%22\u0026auth_key=1576547567-5df834d15f8337x03953276-0-86e044b4c94a2e46060223996a036d6e

2024年11月26日

Unicode，UTF-8和UTF-16的区别与联系

Unicode，UTF-8，UTF-16完整的说明请参考Wiki（Unicode，UTF-8，UTF-16）。用比较简单的话来说就是，Unicode定义了所有可以用来表示字符的数值集合（称之为Code Point）。UTF-8和UTF-16等UTF标准定义了这些数值和字符的映射关系。

UTF-8

优势

UTF-8最大的优势是，没有字节序的概念。所以特别适合用于字符串的网络数据传输，不用考虑大小端问题。对于非英文网页（对于我们而言，简单说东亚文字网页），能够避免各种乱码问题。

2024年11月26日

家人们，10分钟大家了解Unicode,ASCII，UTF-8，代码点，编码

接着上一篇文章的话题继续，记住ASCII只有一种编码策略，获取ASCII值将其转为一字节（8比特）的二进制数，Unicode实际有几种编码策略不止一种，因为其各有利弊。

来看一种名为UTF-32，UTF-32将每个代码点值转为四字节的二进制数即32位，因此叫UTF-32。和ASCII类似，将ASCII值映射到一字节，只是占用了四倍空间，当用UTF-32编码，值就像这样，

我们为了简洁，我用等价的十六进制代替二进制来进行表示。这种编码的优势，每个代码点有相同尺寸的字节，不管它的值是什么，例如第一个代码点总是索引为0的字节，第二个在4，第三个在8，以此类推。它的缺点是有些浪费。

2024年11月26日

Unicode,GBK和UTF8

前言

其实这是个老生常谈的问题了,相信大家在第一次遇到Unicode编码问题时,都会在网上搜索一通,

找到几个解释,虽然有点杂乱,但还是感觉自己明白了些什么,然后就继续忙别的事情.

而我之所以就这个问题专门写一篇文章,原因是前两天在与公司一位有十几年工作经验的JAVA程序员对接

API时, 我问他返回的汉字是什么编码的, 而他回答说"直接返回unicode". 一个如此有经验的老程序员

对这种基本问题都不甚清楚, 因此我觉得还是有必要好好说一下这个问题的.

2024年11月26日

Emoji总是不嫌多，Unicode可能推出过敏食物表情符号

Emoji 总不嫌多，毕竟这是互联网时代人们的共同语言。

上个月有消息称，统一码联盟（Unicode Consortium，一个统筹统一码发展的非营利机构，其宗旨为最终以统一码替换现存的字符编码）发布了 Unicode 8.0，更新后的版本总共含有 7716 个脚本和符号。其中，新增加了 37 个emoji，此外还有 4 个 emoji 表情得到了更改。除了食物、大型飞鸟之外，Unicode 8.0 还涉及到笑脸、宗教以及多种运动符号。

但是，要等到 8 月 26 日正式推出的 Unicode 8.0，有可能在最后时刻再次有所改动。

2024年11月26日

帮你搞清ASCII、Unicode和UTF-8区别，拿走不谢

首先说一下背景：由于计算机是美国人发明的，因此最早只有127个字母被编码到计算机中，也就是大小写英文字母、数字和一些符号，这个编码表称为ASCII编码。

例如：大写字母A的编码是65，小写字母z的编码时122。

要处理中文，显然一个字节是不够的，至少需要两个字节，且不能和ASCII编码冲突，所以我国制定了GB2312编码，用于把中文编进去。

可以想象，全世界上有上百种语言，日本把日文编写到Shift_JIS里，韩国把韩文编写到Euc-kr里，各国有各国的标准，就不可避免出现冲突，结果就是，在多语言混合的文本中就会显示乱码。

2024年11月26日

「精简Unicode」BIN格式文件图文详解一

精简Unicode，按unicode编码方式存储检索，又称为Simple Unicode。主要目的：极致优化检索表空间。

设置选项：Simple Unicode + Height Fixed

2024年11月26日

了不起的 Unicode

本文精心挑选了许多优秀的Unicode小技巧、软件包和资源。

译者 | 弯月，责编 | 郭芮

出品 | CSDN（ID：CSDNnews）

以下为译文：

Unicode非常了不起！在Unicode出现之前，国际交流是一团糟——每个人都在ASCII码表的后半部分区域（称为“代码页”）定义了自己的扩展和字符集，从而导致各种冲突。想想就知道，德国人要与韩国人只使用127个字符组成的代码页进行交流会有多么困难。

李成笔记网

专注域名、站长SEO知识分享与实战技巧

快速搞懂Unicode,ASCII,UTF-8,代码点，编码

Java基础复习笔记

一、Java的基本数据类型有哪些？

网抓爬虫遇到Unicode编码如何用vba解码?

Unicode，UTF-8和UTF-16的区别与联系

家人们，10分钟大家了解Unicode,ASCII，UTF-8，代码点，编码

Unicode,GBK和UTF8

前言

Emoji总是不嫌多，Unicode可能推出过敏食物表情符号

帮你搞清ASCII、Unicode和UTF-8区别，拿走不谢

「精简Unicode」BIN格式文件图文详解一

了不起的 Unicode