李成笔记网

专注域名、站长SEO知识分享与实战技巧

Emoji总是不嫌多,Unicode可能推出过敏食物表情符号

Emoji 总不嫌多,毕竟这是互联网时代人们的共同语言。

上个月有消息称,统一码联盟(Unicode Consortium,一个统筹统一码发展的非营利机构,其宗旨为最终以统一码替换现存的字符编码)发布了 Unicode 8.0,更新后的版本总共含有 7716 个脚本和符号。其中,新增加了 37 个emoji,此外还有 4 个 emoji 表情得到了更改。除了食物、大型飞鸟之外,Unicode 8.0 还涉及到笑脸、宗教以及多种运动符号。

但是,要等到 8 月 26 日正式推出的 Unicode 8.0,有可能在最后时刻再次有所改动。

帮你搞清ASCII、Unicode和UTF-8区别,拿走不谢

首先说一下背景:由于计算机是美国人发明的,因此最早只有127个字母被编码到计算机中,也就是大小写英文字母、数字和一些符号,这个编码表称为ASCII编码。

例如:大写字母A的编码是65,小写字母z的编码时122。

要处理中文,显然一个字节是不够的,至少需要两个字节,且不能和ASCII编码冲突,所以我国制定了GB2312编码,用于把中文编进去。

可以想象,全世界上有上百种语言,日本把日文编写到Shift_JIS里,韩国把韩文编写到Euc-kr里,各国有各国的标准,就不可避免出现冲突,结果就是,在多语言混合的文本中就会显示乱码。

「精简Unicode」BIN格式文件图文详解一

精简Unicode,按unicode编码方式存储检索,又称为Simple Unicode。主要目的:极致优化检索表空间


设置选项:Simple Unicode + Height Fixed


了不起的 Unicode

本文精心挑选了许多优秀的Unicode小技巧、软件包和资源。

译者 | 弯月,责编 | 郭芮

出品 | CSDN(ID:CSDNnews)

以下为译文:

Unicode非常了不起!在Unicode出现之前,国际交流是一团糟——每个人都在ASCII码表的后半部分区域(称为“代码页”)定义了自己的扩展和字符集,从而导致各种冲突。想想就知道,德国人要与韩国人只使用127个字符组成的代码页进行交流会有多么困难。

char字符总结

1、char占用两个字节

2、char的取值范围是[0 ~ 65535]

3、char采用unicode编码方式

4、char类型的字面量采用单引号括起来

package com.bjpowernode.controller;
public class Demo1 {
	public static void main(String[] args) {
		//正确
		char c1 = '中';
		//正确
		char c2 = 'a';
		//错误:cannot convert from String to char
		char c3 = "中";
		//错误: 未结束的文字字符
		char c4 = 'ad';
		
	}
}

Unicode码点小知识

概念

 # 码点、键码为十进制数值数据
 键码 = 码点 = Unicode键码 

0x

关于Unicode,看这一篇就够了

无论是用Python还是其它语言,处理字符编码都是一件极其痛苦的事情。我们无法忘记被UnicodeDecodeError和UnicodeEncodeError支配的恐惧。本文将以Python3为例,带你了解Unicode的基本概念,以及字符串编码解码的工作原理,让你从根本上理解字符编码。

首先,我们来看一看什么是字符编码。我们知道,计算机里所有的信息都是以数字的形式来表示的,字符也不例外。要想表示一个字符,首先要把它转换成对应的数字。

全国各国编码范围

0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)

Unicode介绍

Unicode是一种通用的字符编码标准,旨在为世界上所有脚本和语言中的每个字符提供一个唯一的数值标识,称为代码点(code point)。它包含了几乎所有已知的语言、符号、标点符号、技术符号等字符。

Unicode的目标是解决以前存在的字符编码问题,因为不同的编码方案之间存在互不兼容的情况。在过去,不同的编码标准(如ASCII、ISO 8859等)只能表示特定范围的字符,无法满足全球范围内的字符需求。

Unicode使用十六进制数值表示每个字符的代码点,例如,拉丁字母大写字母'A'的代码点是U+0041,希腊字母大写字母'Ω'的代码点是U+03A9。Unicode标准定义了超过143,000个已分配的代码点,其中包括各种文字系统,如拉丁字母、希腊字母、西里尔字母、中日韩汉字、象形文字等。

Unicode编码

以上我们介绍了中文和西欧的字符与编码,但世界上还有很多其他国家的字符,每个国家的各种计算机厂商都对自己常用的字符进行编码,在编码的时候基本忽略了其他国家的字符和编码,甚至忽略了同一国家的其他计算机厂商,这样造成的结果就是,出现了太多的编码,且互相不兼容。
世界上所有的字符能不能统一编码呢?可以,这就是Unicode。


Unicode做了一件事,就是给世界上所有字符都分配了一个唯一的数字编号,这个编号范围从0x000000~0x10FFFF,包括110多万。但大部分常用字符都在0x0000~0xFFFF之间,即65536个数字之内。每个字符都有一个Unicode编号,这个编号一般写成十六进制,在前面加U+。大部分中文的编号范围为U+4E00~U+9FFF,例如,“马”的Unicode是U+9A6C。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言