当前位置:文档之家› 20081024Unicode字符集扩展及Surrogate

20081024Unicode字符集扩展及Surrogate

20081024Unicode字符集扩展及Surrogate
20081024Unicode字符集扩展及Surrogate

山东师范大学硕士研究生《XML 技术》课程2008年10月25日216=65536个字符

冷玉龙1994年《中华字海》

86000 字

Unicode 字符有多少?

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

?《说文解字》(公元100年)收9353字;?《声类》(227-239年)收11520字;?《玉篇》(5 43年)收22726字;?《唐韵》(751年)收26194字;?《类篇》(1066年)收31319字;?《字汇》(1 615年)收33179字;?《康熙字典》(1716年)收47043字;?《中华大字典》(1915年)收48000字;?《中文大字典》(1968年)收49905字;?《汉语大字典》(1986年)收56000字。

逐渐增多!

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

汉字的总数在不断增大

字书名

编者字数年代《苍颉篇》李斯3300 秦代《训篇》杨雄5340 汉代,1-5年《续训篇》班固6180 汉代,60-70年《说文解字》许慎

10516(重文1163字)汉代,100年《广雅》张揖16150 汉代《声类》李登11520 魏代,230年《字林》吕忱12824 晋代,400年《字统》杨承庆13734 北魏,500年《玉篇》顾野王16917 南梁,534年《切韵》陆法言12158 隋代,601年《韵海镜源》颜真卿26911 唐朝,753年《龙龛手鉴》释行均26430 辽代,997年《广韵》陈彭年26194 宋朝,1008年《字汇》梅膺祚33179 明朝,1615年《正字通》张自烈33440 明朝,1675年《康熙字典》陈廷敬47043 清朝,1716年《大汉和辞典》诸桥辙次49964 1959年《中文大辞典》张其昀49888 1971年《汉语大字典》徐中舒54678 1990年《中华字海》

冷玉龙86000 1994年

山东师范大学硕士研究生《XML 技术》课程2008年10月25日大型综合性辞典《辞海》从今年

开始将展开2009版修订工作。2006年10月17日,记者从《辞海》的出版社——上海辞书出版社了解到,新版辞海将增加近万条新词,“巴金”这一词条将被收录其中。

2009版《辞海》已展开修订

根据以往惯例,《辞海》10年修订一次,上一版为1999年版。17日,记者从上海辞书出版社了解到,2009版《辞海》编辑工作

已经开始,目前正在征求各学科专家的意见,初步整理词目单。据了解,2009版《辞海》词目单将在原有词目的基础上增加10%至20%,大约增加上万条词目。

上海辞书出版社相关人士透露,2009版《辞海》由102岁高龄的学者夏征农先生担任主编。夏老曾任1979年版、1989年版和1999年版《辞海》主编。2009版《辞海》将汇集几百名各学科的专家学者为其把脉。

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

Unicode 的扩展

国际标准化组织在ISO10646-2000 的基本平面

(BMP 或者Unicode 3.0)中编入了2000年3月在GB18030颁布时所建议支持的字汇的27,564 汉字。

其中在U+4E00~U+9FFF (共20992个码位)中有(U+4E00~U+9FA5连续区间)的20902个CJK 汉字。其中U+3400~U+4DFF 部分(共6656个码位)中的(U+3400~U+4DB5连续区间)的6582个汉字又称为扩展A 。

国际标准化组织还在ISO10646-2000 的第二平面扩展了42,711汉字,又称为扩展B 。

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

Unicode 4.0 2003年4月推出

山东师范大学硕士研究生《XML 技术》课程2008年10月25日山东师范大学硕士研究生《XML 技术》课程2008年10月25日

山东师范大学硕士研究生《XML 技术》课程2008年10月25日山东师范大学硕士研究生《XML 技术》课程2008年10月25日

# BEGIN Valid UniHan Ranges for this release (5.0):# U+3400..U+4DB5 : CJK Unified Ideographs Extension A # U+4E00..U+9FA5 : CJK Unified Ideographs # U+9FA6..U+9FBB : CJK Unified Ideographs (4.1)# U+F900..U+FA2D : CJK Compatibility Ideographs (a)# U+FA30..U+FA6A : CJK Compatibility Ideographs (b)# U+FA70..U+FAD9 : CJK Compatibility Ideographs (4.1)# U+20000..U+2A6D6 : CJK Unified Ideographs Extension B # U+2F800..U+2FA1D : CJK Compatibility Supplement # END Valid UniHan Ranges for this release (5.0)

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

CJK 扩展A

国际标准化组织(ISO )在ISO/IEC 10646-1:2000 的基本平面(简称Unicode )编入了GB18030建议的汉字,其中超出GBK 部分的6582个汉字,又称为扩展A 。

0x4DB5-0x3400+1=0x19B6=6582

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

CJK 扩展A

国际标准化组织(ISO )在ISO/IEC 10646-1:2000 的基本平面(简称Unicode )编入了GB18030建议的汉字,其中超出GBK 部分的6582个汉字,又称为扩展A 。

0x4DB5-0x3400+1=0x19B6=6582

山东师范大学硕士研究生《XML技术》课程2008年10月25日

GB18030中的彝文

0xA4C6-0xA000+1=0x4C7=1223

山东师范大学硕士研究生《XML技术》课程2008年10月25日

GB18030中的藏文与蒙古文山东师范大学硕士研究生《XML技术》课程2008年10月25日

Unicode 的Surrogate 机制

ISO在ISO/IEC 10646-1:2000第二平面上又扩展了

42711汉字,也称为扩展B。由于这42,711汉字编排在

ISO10646-2000 的第二平面,所以编码需要4个字节。

为了能够存取处理这些4字节字符,在Unicode 中

引入了Surrogate 机制(在ISO10646-2000中命名为

UTF-16)。根据这样一种机制, 在Unicode中用两个16

位编码就可以对扩展B中的汉字进行存取。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

代理项对(Surrogate pair)

代理项对是由两代码单元序列组成的单个抽象字

符的编码字符表示形式,代理项对中的第一个单元是

高代理项,第二个单元是低代理项。高代理项是范围

U+D800 到U+DBFF 中的Unicode 代码点,低代理项

是范围U+DC00 到U+DFFF 中的Unicode 代码点。

需要记住的关键一点是代理项对表示32 位单个字

符,不能假定一个16 位Unicode 编码值恰好映射为

一个字符。通过使用代理项对,16 位Unicode 编码系

统可以表示另外一百万个代码数据点,而Unicode 标

准将为它们分配字符。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

代理项对(Surrogate pair) (续)

在Unicode代码区高端,预留了两个区域:

U+D800—U+DBFF 这1024个字符用于高端代理

U+DC00—U+DFFF 这1024个字符用于低端代理

一个高端值与一个低端值构成一个代理对。

可表示210×210=220

=1,048,576 即一百万个字符

CJK Extension B 可以通过代理对来访问。

因此,有了再支持多达一百万个字符的余地。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

Unicode与Windows 2000

Unicode 是一种16 位国际字符编码,

Unicode 允许在同一个数据流中存储不同的语

言。这一种编码可以表示64,000 多个字符。引

入代理项后,它可以表示更多的字符。在

Windows 中使用Unicode 可以更容易地创建世

界通用的代码,因为这种情况下不再需要引用

代码页或组字符数据点来表示一个字符。

使用Unicode 编码表示所有国际字符使

Windows 2000 能够支持超过64 种脚本和数百

种语言。

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

代理字符的Unicode 值

一个高端值(high )与一个低端值(low)构成一个代理项对。此代理对所表示字符的Unicode 值N 如何计算?

N=(high-0xD800)*0x400+(low-0xDC00)+0x10000

high 范围:U+D800—U+DBFF 这1024个字符用于高端代理low 范围:U+DC00—U+DFFF 这1024个字符用于低端代理

注:0x10000=164=216=28×28=65536,

0x400=4×162=210=1024 可见:N 介于216与220+216-1之间

即N 介于0x10000与0x10FFFF 之间。

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

高端代理与低端代理的计算

若代理字符的Unicode 值为N ,

N(0x10000~0x10FFFF),则其代理对为:

高端代理high=

(N-0x10000)/0x400+0xD800

注:0x10000=65536,0x400=1024

低端代理low=

(N-0x10000)%0x400+0xDC00

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

字符的Unicode 值N(0x10000~0x10FFFF)其代理对为:

高端代理: (N-0x10000)/0x400+0xD800低端代理: (N-0x10000)%0x400+0xDC00例:汉字“ ”读ying 代表“着急”的意思。“ ”为扩展B 汉字,其Unicode 值为0x201BB 其高端代理为:

0xD840=(0x201BB -0x10000)/0x400+0xD800

其低端代理为:

0xDDBB=(0x201BB -0x10000)%0x400+0xDC00

又例:汉字“ ”的Unicode 值为0x2002F 其高端代理为:

0xD840=(0x2002F-0x10000)/0x400+0xD800

其低端代理为:

0xDC2F=(0x2002F-0x10000)%0x400+0xDC00

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

处理代理项对

每一个代理对都是由两个16位的值组成,即由高位和低位组合而成,所以有简单的方法处理代理对序列。

.NET Framework 为Unicode 字符串提供统一的支持,不管它们是否包含代理。

Windows 窗体Web 窗体都能够正确地输出代理。安装了Visual Studio .NET 2003&2005之后,代理对汉字并不能显示,需要字符集支持。

GB18030支持包不能满足要求,需要更大字符集。

山东师范大学硕士研究生《XML 技术》课程2008年10月25日DBCS字符的解析

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

微软发布的中文简体版Office XP(又称Office 2002)

及相应的多语言包中专门开发了包括全部6万余个汉字的超大字符集中文字体(宋体-方正超大字符集),以及用于输入这些汉字的增强型区位码,该超大字符集包括了GB18030标准支持的全部27564个汉字,以及在第二平面(扩展B ,42711个汉字)中选出的36,862个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括了65531个字符。

但由于一般Windows 应用程序并不支持Surrogate 机制,因此扩展B 内的汉字除了在Office 2002、2003系列应用程序中可以使用外,在其他多数应用程序中并不支持。

宋体—方正超大字符集

微软的解决方案是使用:

增强区位输入法

宋体—方正超大字符集中

字符的输入

微软的解决方案是使用:

增强区位输入法

宋体—方正超大字符集中字符的输入

微软的超大字符集中文字体(宋体-方正超大字符集)与增强型区位码是一起提

供的,可利用Office XP或2003安装程序安装在Windows 2000、XP、Server

2003之下。但即使是Windows Server 2003,只要未装“宋体-方正超大字符

集”,则也将没有“增强型区位码”即“Enhanced Unicode IME”供选用。

山东师范大学硕士研究生《XML技术》课程2008年10月25日

尽管宋体-方正超大字符集中包括了6万4千多汉字,但是由于

其中相当多的汉字读音很难确定,使得按拼音输入的方法难以

实现。为此,微软公司专门扩展了原区位/内码/Unicode输入

法,开发了增强型区位码。

?对于GBK中的汉字(即在Unicode 中U+4E00~U+9FFF),用

户可以继续按原来的方式输入(通过输入区位码,GBK内码或

Unicode码)。

?对于扩展A的汉字只能通过输入Unicode码,

?对于扩展B的汉字只能通过输入Surrogate码。

总之,通过增强型区位码用户不仅可以输入GBK的汉字,

而且可以顺利输入扩展A及扩展B的汉字。关键在于如何得到这

些汉字的Unicode及Surrogate的码位。

宋体—方正超大字符集中字符的输入

山东师范大学硕士研究生《XML技术》课程2008年10月25

可以直接在Word 2002或Word 2003中输入

Unicode码,然后按Alt+X 转换成汉字。

对于扩展B的汉字,请将前面两个“0”去掉。

比如说,(若某字的Unicode 是00020000),则

输入020000 ,然后按Alt+X即可。

要想知道每个字符的Unicode,也可以将光标

定位在汉字后面,然后按ALT+X,相应的

Unicode码则会显示出来。

Word 2002及2003中情形

山东师范大学硕士研究生《XML技术》课程2008年10月25日

如何得到欲输入汉字的Unicode及Surrogate

的码?方法是利用增强区位码提供的宋体-方正

超大字符集支持的扩展A及扩展B汉字的码表。

如何得到Unicode及Surrogate码?

注:不建议用户直接到浩如烟海的码表中直接去找有关汉字

山东师范大学硕士研究生《XML技术》课程2008年10月25日

下面的第1个字:?U+3400 0078.010 10015.030 (扩展A

的汉字,在《康熙字典》78页,第1个字。输入该汉字,只须在

Unicode输入模式下输入3400)。

下面的第2个字:?U+3462 0106.041 10156.141 (扩展A

的汉字,不在《康熙字典》中。但是按偏旁部首及比画数,该

汉字应排在《康熙字典》106页,第4个字。输入该汉字,只须

在Unicode输入模式下输入3462)。

注:1958年1月第一版的《康熙字典》。

如何得到Unicode及Surrogate码?

注:不建议用户直接到浩如烟海的码表中直接去找有关汉字

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

下面的第3个字:D840DDBB 000201BB 0096.070 10117.130(扩展B 的汉字,在《康熙字典》96页,第7个字。这里D840DDBB 是它的Surrogate 编码,000201BB 是它的Unicode 码。输入该汉字,只须在Unicode 输入模式下输入Surrogate 码D840DDBB )

下面的第4个字是扩展B 的汉字,不在宋体-方正超大字符集中,也可用其Surrogate 编码输入,但如何得知该字的Surrogate 编码?

如何得到Unicode 及Surrogate 码?

注:不建议用户直接到浩如烟海的码表中直接去找有关汉字

宋体-方正超大字符集中未包括扩展B 中的全部汉字。

36,862/42711≈86%

所以,尚需更大字符集。

例如:扩展B 中的(D840DC2A )与

(D840DC2B )对应的汉字(“其”字缺下面的撇)

等5849个汉字就没收录到宋体-方正超大字符集及其码表中。

宋体—方正超大字符集的不足

上面的字是扩展B 的汉字,不在宋体-方正超大字符集中,也可用其Surrogate 编码输入,但如何得知该字的Surrogate 编码?可通过该字在宋体-方正超大字符集中的相邻字获取该字的Surrogate 码?因此需要一个比上述码表更大的一个码表。

山东师范大学硕士研究生《XML 技术》课程2008年10月25日UNICODE 字符集7万字的几种显示方案:?“宋体GB18030”+“新细明体ExtB”

?“宋体-方正超大字符集”+“其它5849汉字用新细明体EXTB”

?“宋体-方正超大字符集”+“其它5849汉字用中易宋体EXTB”

UNICODE 中7万汉字显示

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

要系统支持输入七万多汉字,请下载以下输入法。海峰五笔输入法9.0版(可录入70244个汉字) (下载)https://www.doczj.com/doc/8e2152241.html,/software/SunWb.exe

菩提五笔Unicode 单字版(可录入70244个汉字) (下载)https://www.doczj.com/doc/8e2152241.html,/tools/putiwb60.rar 新概念五笔输入法(可录入70244个汉字) (下载)https://www.doczj.com/doc/8e2152241.html,/download.htm

五笔输入七万汉字

山东师范大学硕士研究生《XML 技术》课程2008年10月25日五笔输入七万汉字

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

微软官方于2005年4月27日提供了一个“新細明體更新套件1.0”,这个套件中就包括了新概念五笔企业版Unicode 字符集7万字所需字体“新细明体-EXTB”。使用新概念五笔企业版UNICODE 字符集7万字版本时需要安装一个新细明体-ExtB 字体,该字体支持UNICODE 4.1字符集中ExtB 全部四字节汉字。

新细明体更新套件1.0

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

中日韩汉字超大字符集

中日韩汉字超大字符集(SuperCJK

)通用字体支持包V2.0

☆通用于Windows 98/NT/2000/ME/XP/2003系统的Unicode 字体支持包。

☆完美结合大陆的"宋体-18030"与台湾

"MingLiU-ExtB"两种标准字体。

☆支持GBK 、GB-18030、CJK-B 各大字符集内全部简、繁体汉字的显示。https://www.doczj.com/doc/8e2152241.html, (海峰别墅)

山东师范大学硕士研究生《XML

技术》课程2008年10月25日

安装中日韩汉字超大字符集

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

安装中日韩汉字超大字符集

山东师范大学硕士研究生《XML 技术》课程2008年10月

25日

代理项对的使用

String s1="\uD840\udc0b";String

s2="\uD840\udc2a\uD840\udc2b\uD840\udc2c\uD840\udc2d\uD840\udc2e\uD840\udc2f";

Label1.Text=s1;Label2.Text=s2;

山东师范大学硕士研究生《XML 技术》课程2008年10月25日

代理项对的使用

上面第一行的字读ying ,表示“着急”的意思。在康熙词典中。上面第二行的第1字读tian ,第2字读qi 。在康熙词典中。string s=""+(char)0xd840+(char)0xdc2a;s=s+"\ud840\uddbb";label1.Text=s;

Question & Answer

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、...

ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。 GB2312 GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般用10进制数来表示,如1601就表示16区1位,对应的字符是“啊”。在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。 区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。 GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持GB2312编码。 GB2312的编码范围是0xA1A1-0x7E7E,去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。 EUC-CN可以理解为GB2312的别名,和GB2312完全相同。 区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。HZ和ISO- 2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉字。区位码和GB2312编码的关系有点像Unicode和UTF-8。 GBK GBK编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同GB2312一样,GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。 GBK的整体编码范围是为0x8140-0xFEFE,不包括低字节是0×7F的组合。高字节范围是0×81-0xFE,低字节范围是0x40-7E和0x80-0xFE。

Unicode汉字编码表

Unicode汉字编码表 1 unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码,看一下Unicode对汉字的编码: ------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

字符编码方式介绍及编码方式测试

第一部分编码方式介绍 一、编码: 美国标准信息交换标准码( , ) 在计算机内部,所有地信息最终都表示为一个二进制地字符串.每一个二进制位()有和两种状态.一个字节()共由八个二进制位来组成,共有种状态,从到. 阿拉伯数字、英文字母、标点符号等这些字符,怎么定义才能让计算机识别呢?因为计算机只识别二进制位和,所以以上这些字符就必须与二进制位(和)建立关系,才能让计算机识别. 年代初,计算机界制定了一套统一地字符编码,来表示字符与二进制位之间地关系.这种统一地字符编码就叫做编码.码一共规定了个字符地编码,比如空格是(二进制),大写地字母是(二进制).这个符号(包括个不能打印出来地控制符号),只占用了一个字节地后面位,最前面地位统一规定为. 在英语国家,个编码足以表达所有字符,但其它非英语国家,字符不是由英文字符组成,这样就需要增加编码以表达这些字符,对于超过个字符地编码被称为非编码.比如:在中国,我们用简体中文,字符编码方式为.个人收集整理勿做商业用途 二、编码: 看到上面地介绍后,我们了解了最早编码是码.它只用个二进制位来表示,由于那个时期生产地大多数计算机使用位大小地字节,因此用户不仅可以存放所有可能地字符,而且有整整一位空余下来.如果你技艺高超,可以将该位用做自己离奇地目地:中那个发暗地灯泡实际上设置这个高位,以指示一个单词中地最后一个字母,同时这也宣示了只能用于英语文本. 由于字节有多达位地空间,因此许多人在想:“呀!我们可以把之间地编码用做个人地应用目地.”问题在于,同时产生这种想法地人相当多,而且在之间地各个位置上应该存放什么这一问题上,真是仁者见仁智者见智.事实上,只要人们开始在美国以外地地方购买计算机,那么各种各样地不同字符集都会进入规划设计行列,并且各人都会根据自己地需要使用高位地个字符.如此一来,甚至在同语种地文档之间就不容易实现互换. 可被扩展,最优秀地扩展方案是,通常称之为.包括了足够地附加字符集来写基本地西欧语言. 最后,这个人参与地终于以标准地形式形成文件.在标准中,每个人都认同如何使用低端地个编码,这与相当一致.不过,根据所在国籍地不同,处理编码以上地字符有许多不同地方式.这些不同地系统称为代码页. 同时,甚至更为令人头疼地事情正在逐步上演,亚洲国家地字符表有成千上万个字符,这样地字符表是用位二进制无法表示地.该问题地解决通常有赖于称为(,双字节字符集)地繁杂字符系统. 不过,仍然需要指出一点,多数人还是姑且认为一个字节就是一个字符,以及一个字符就是个二进制位,并且只要确保不将字符串从一台计算机移植到另一台计算机,或者说一种以上地语言,那么这几乎总是可以凑合.当然,只要一进入,从一台计算机向另一台计算机移植字符串就成为家常便饭了,而各种复杂状况也随之呈现出来.令人欣慰地是,随即问世了.个人收集整理勿做商业用途 字符集(简称为),国际标准组织于年月成立工作组,针对各国文字、符号进行统一性编码.年美国跨国公司成立,并于年月与达成协议,采用同一编码字集.目前是采用位编码体系,其字符集内容与地()相同.于年月通过(),目前版本于公布,内容包含符号个,汉字个,韩文拼音个,造字区个,保留个,共计个.编码后地大小是一样地.例如一个英文字母"" 和一个汉字"好",编码后都是占用地空间大小是一样地,都是两个字节!个人收集整理勿做商业用途 可以用来表示所有语言地字符,而且是定长双字节(也有四字节地)编码,包括英文字

常用字符集介绍和编码转换原理

常用字符集介绍和编码转换原理 目录 1. GB2312编码介绍 (2) 1.1 基本信息 (2) 1.2 GB标准 (2) 1.3 分区表示 (2) 1.4 字节结构 (2) 2. 通用字符集UCS (3) 2.1 定义 (3) 2.2 概要 (3) 2.3 实现级别 (3) 2.4 与UNICODE的兼容关系 (3) 3. unicode编码介绍 (3) 3.1 基本简介 (4) 3.2 编码实现 (4) 3.2.1 编码方式 (4) 3.2.2 实现方式 (5) 4. UTF-8介绍 (5) 4.1 基本介绍 (5) 4.2 编码原理 (5) 4. 转换原理 (7)

1. GB2312编码介绍 1.1 基本信息 1.2 GB标准 GB2312或GB2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。 GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。 GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。 对于人名、古汉语等方面出现的罕用字,GB2312不能处理,这导致了后来GBK及GB18030汉字字符集的出现。 1.3 分区表示 GB 2312中对所收汉字进行了―分区‖处理,每区含有94个汉字/符号。这种表示方式也称为区位码。 01-09区为特殊符号。 16-55区为一级汉字,按拼音排序。 56-87区为二级汉字,按部首/笔画排序。 10-15区及88-94区则未有编码。 举例来说,―啊‖字是GB2312之中的第一个汉字,它的区位码就是1601。 1.4 字节结构

信息交换用汉字编码字符集

〇信息交换用汉字编码字符集--基本集〈—即国家标准 GB2312-80 从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。 1980年颁布了〇信息交换用汉字编码字符集—基本集〈的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。以前我国大陆的各种中文DOS版本、Windows3.1 /3.2版本,装入的字库都是国标一二级字库。 〇GB2312-80〈对 7445 个图形字符作了二进制数编码,这些图形字符是: 6763 个汉字,字体为简化字,分成两级。第一级汉字 3755 个,按拼音排序,约占近代文献汉字累计使用频度 99.9% 左右;二级汉字 3008 个,按部首、笔画排序。一、二级汉字约占累计使用频度 99.99% 以上。 202 个一般符号。其中包括 1.~20.,(1)~(20),?~?,(-)~(+) 等。 22 个数字。其中 0~9 共 10 个,‥~‰ 共 12 个。 52 个拉丁字母。其中大写字母A~Z 26 个,小写字母a~z 26 个。 169 个日文假名。其中平假名 83 个,片假名 86 个。 48 个希腊字母。其中大写字母Α~Χ24 个,小写字母α~ω24 个。 66 个俄文字母。其中大写字母А~Я33 个,小写字母а~я 33 个。 26 个汉语拼音符号,包括带声调符号和其它符号的字母。 37 个汉语注音字母,?~ㄗ。 GB2312简体中文编码表 code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A1A0 、。? í ì ¨ 〃?—~‖ … ‘ ’ A1B0 “ ” 【】々〆〇〈〉《》「〒〓」『 A1C0 a ? ? ? ?  ̄ ? ? ? ? ‵ ? ? ? ? ※ A1D0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? A1E0 ? ? ? ? ? ? ? $¤ ??? § ? ? ? A1F0 ? ? ? ? ? ? ? ? ? ? ″ ? ′ ? 』 code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F A2A0 ⅰ ⅱ ⅲ ⅳ ⅴ ⅵ ⅶ ⅷ ⅸ ⅹ A2B0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

字符集与编码

字符集与编码 一.字符集与编码之间的关系 1.为了在计算机中存储与处理,必须对字符进行数字化编码。 2.字符集规定了包含哪些字符,每个字符的值是什么 3.编码规定了对于这些值,如何存储 4.有些标准同时规定了字符集及其编码 如:目前使用最广泛的西文字符集及其编码是ASCII 字符集和ASCII码(ASCII是American Standard Code for Information Interchange的缩写),它同时也被国际标准化组织(International Organization for Standardization, ISO)批准为国际标准 5.有些标准同一个字符集可以有多种编码格式 二.字符集及编码 1.SBCS (single byte character set) 1.1 ASCII (1).7位编码,范围0x00-0x7F (2).码值32-127(0x20-0x7F) (3).0x00-0x1F 之间的为控制字符,每个字符有一个缩写的名字 (4).数字,大写字母,小写字母的编码都是连续的 目前使用最广泛的西文字符集及其编码是 ASCII 字符集和 ASCII 码( ASCII 是American Standard Code for Information Interchange 的缩写),它同时也被国际标准化组织( International Organization for Standardization, ISO )批准为国际标准。 基本的 ASCII 字符集共有 128 个字符,其中有 96 个可打印字符,包括常用的字母、数字、标点符号等,另外还有 32 个控制字符。标准 ASCII 码使用 7 个二进位对字符进行编码,对应的 ISO 标准为 ISO646 标准。下表展示了基本 ASCII 字符集及其编码: 字母和数字的 ASCII 码的记忆是非常简单的。我们只要记住了一个字母或数字的ASCII 码(例如记住 A 为 65 , 0 的 ASCII 码为 48 ),知道相应的大小写字母之间差 32 ,就可以推算出其余字母、数字的 ASCII 码。 虽然标准 ASCII 码是 7 位编码,但由于计算机基本处理单位为字节( 1byte = 8bit ),所以一般仍以一个字节来存放一个 ASCII 字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为 0 (在数据传输时可用作奇偶校验位)。 由于标准 ASCII 字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了 ISO2022 标准,它规定了在保持与 ISO646 兼容的前提下将ASCII 字符集扩充为 8 位代码的统一方法。 ISO 陆续制定了一批适用于不同地区的扩充 ASCII 字符集,每种扩充 ASCII 字符集分别可以扩充 128 个字符,这些扩充字符

信息技术 汉字编码字符集(基本集) 64点阵字型 第2部分:黑体(标

I C S35.040 L71 中华人民共和国国家标准 G B14245.2 2008 代替G B/T14242 1993 信息技术汉字编码字符集(基本集) 64点阵字型第2部分:黑体 I n f o r m a t i o n t e c h n o l o g y C h i n e s e i d e o g r a mc o d e d c h a r a c t e r s e t(b a s i c s e t) 64- d o tm a t r i x f o n t P a r t2:H e i T i 自2017年3月23日起,本标准转为推荐性 标准,编号改为G B/T14245.2 2008三 2008-08-06发布2009-07-01实施中华人民共和国国家质量监督检验检疫总局

目次 …………………………………………………………………………………………………………前言Ⅲ…………………………………………………………………………………………………………引言Ⅳ1范围1………………………………………………………………………………………………………2规范性引用文件1…………………………………………………………………………………………3术语和定义1………………………………………………………………………………………………4汉字图形字符1……………………………………………………………………………………………5标准数据的管理2…………………………………………………………………………………………6点阵字型的表示方法2 …………………………………………………………………………………… ………………………………………………………………………附录A(规范性附录)补充的字符25附录B(规范性附录)64点阵字型数据26 ………………………………………………………………… ……………………………………………………………………………………………………参考文献29

UNICODE字符集中特有汉字的输入方法

例说UNICODE字符集中特有汉字的输入方法 有个字读音“xi”字型为上“亩”下“心”,遇到手写不了的证件,只能用拼音代替,或者打成其他的字再到单位开证明,有时要跑好几趟才能办成诸如存取款、买保险、购机票等事情。下面结合这个“上‘亩’下‘心’”的汉字为例,谈谈UNICODE字符集中特有汉字的输入方法: 1.这个汉字属于超大字符集《CJK统一汉字扩充B》,Unicode字符代码是20164。 2.为了顺利处理UNICODE汉字中特有汉字,在Windows XP操作系统中需安装“配套超大字集支持包”(https://www.doczj.com/doc/8e2152241.html,/software/UniFonts.exe,目前版本是6.0版),不过安装支持包时选择“完全安装”的话会影响到一极少部分软件的使用(例如会引起“企业电子报税管理系统”的申报主界面出现重复图形按钮及字体变大的现象,影响正常显示和使用,又如会引起中国电信“天翼宽带客户端V1.1.5”拨号软件在拨号过程中显示的字体变小,经测试,多个版本都有这个问题,但在卸载这个“超大字集支持包”并重启后,可以恢复正常,如果安装时不选择“自动链接系统外文显示字体”也不会出现这些异常),因此建议选择“核心安装”或在选择“自定义安装”后不选择“自动链接系统外文显示字体”。另外在Windows 2000中系统还需要首先安装补丁(surreg.exe)方可使用超大字符集。 3.Windows Viata和Windows 7中都支持UNICODE汉字(包括CJK、CJK-ExtA、CJK-ExtB),用海峰五笔(目前最新版本为9.5,官方下载地址:1. https://www.doczj.com/doc/8e2152241.html,/software/SunWb.exe)可以直接打出来,86版和98版的五笔编码都是ylnu,还有一些五笔输入法,例如菩提五笔、新概念五笔输入法等都能完成UNICODE汉字的输入,在word、Excel等中输入后,会自动调用“宋体-方正超大字符集”显示。 4.使用郑码输入法 5.0版或 6.0版也可以免费输入:windows xp和windows7中均内置了郑码输入法(xp为5.0版、windows7为6.0版),可以替换码表为“全汉字集郑码码表”(本郑码码表包含CJK、CJK-A、CJK-B、CJK-C、CJK-D 全汉字集单字、以及简体、繁体词组,附目前可用下载地址:https://www.doczj.com/doc/8e2152241.html,/)或者“超大字集郑码【官方大字集郑码】+扩展B,70296个字35000条(windows7下使用,附目前可用下载地址:https://www.doczj.com/doc/8e2152241.html,/)”(xp的码表是winzm.MB,window 7的码表是TableTextServiceSimplifiedZhengMa.txt)然后轻松输入。这个“上‘亩’下‘心’” 的汉字“”的郑码是skwz,具体资源如果不可下载时请通过搜索得到。 5.在系统已支持UNICODE字符集时,不使用输入法,也可以直接在文档中插 入Unicode字符代码,例20164就是“”的Unicode字符代码,可以将代码20164 输入文档,然后按Alt+X将其转换成字符。 6.操作系统支持的字符集正在一步步地扩大,当年只支持GB-2312,现在已广泛支持GBK了,而且Windows Viata和Windows 7都开始支持UNICODE汉字(包括CJK、CJK-ExtA、CJK-ExtB)了。能全面输入、显示或者说广泛支持UNICODE汉字,只是迟早的事。 7.目前,要让更多的人也能顺利打出此字,需要大家一起努力。要让人家会处理你要的汉字,必要时要能说服人家,安装一些你早已准备好的软件等。

计算机中最常用的字符信息编码是(

练习题 第1章 1-1选择: 1.计算机中最常用的字符信息编码是() A ASCII B BCD码 C 余3码 D 循环码 2.要MCS-51系统中,若晶振频率8MHz,一个机器周期等于( ) μs A 1.5 B 3 C 1 D 0.5 3.MCS-51的时钟最高频率是( ). A 12MHz B 6 MHz C 8 MHz D 10 MHz 4.以下不是构成的控制器部件(): A 程序计数器、B指令寄存器、C指令译码器、D存储器 5.以下不是构成单片机的部件() A 微处理器(CPU)、B存储器C接口适配器(I\O接口电路) D 打印机6.下列不是单片机总线是() A 地址总线 B 控制总线 C 数据总线 D 输出总线 7.-49D的二进制补码为.( ) A 11101111 B 11101101 C 0001000 D 11101100 8.十进制29的二进制表示为原码() A 11100010 B 10101111 C 00011101 D 00001111 9. 十进制0.625转换成二进制数是() A 0.101 B 0.111 C 0.110 D 0.100 10 选出不是计算机中常作的码制是() A 原码 B 反码C补码 D ASCII 1-2填空 1.计算机中常用的码制有。 2.十进制29的二进制表示为。 3.十进制数-29的8位补码表示为. 。 4.单片微型机、、三部分组成. 5.若不使用MCS-51片内存器引脚必须接地. 6. 是计算机与外部世界交换信息的载体. 7.十进制数-47用8位二进制补码表示为. 。 8.-49D的二进制补码为. 。 9.计算机中最常用的字符信息编码是。 10.计算机中的数称为机器数,它的实际值叫。 1-3判断 1.我们所说的计算机实质上是计算机的硬件系统与软件系统的总称。() 2.MCS-51上电复位时,SBUF=00H。()。SBUF不定。 3.使用可编程接口必须处始化。()。 4.8155的复位引脚可与89C51的复位引脚直接相连。()

《统一的中日韩汉字编码字符集》(CJK)字根系统研究

《统一的中日韩汉字编码字符集》(CJK)字根系统研究 《统一的中日韩汉字编码字符集》(CJK)作为新的汉字信息处理国际标准,使汉字信息处理向国际化方向迈出了重要的一步,对汉字字形的定量定性研究也提出了更高的要求。在此基础上,依靠计算机字形技术的支持,采用字根分解与合成的方法,有可能表示出CJK的全部字符从而实现其无字库化处理。因此,研究CJK字根系2统,对于CJK的工程应用具有重要作用。 中日韩汉字字形有别而音义互异,但都是可分析的文字,其基本构形单位都是笔画或字根,因此,字根分析法对其同样适用。本文认为,要得出一个较为科学的CJK字根系统,在理论和实践上必须着重解决两个问题,一个是笔画与字根的分野即单笔字根的问题,另一个就是字根变体的问题。本文主要分析了CJK的单笔字根和字根变体,并对统计得出的CJK676个字根的有关数据进行了系统的分析,希望能为CJK的相关研究提供参考。 一、CJK的单笔字根 (一)为什么要提出"单笔字根" 字根是汉字字符的直接构形成分,是可以独立运用的最小构形单位。一般说来,字根包含两个以上笔画,但当单一笔画与字根直接参与汉字字符构形时,这一笔画由于具备了字根的价值和功能而上升到字根层级,称为"单笔字根"。提出这一概念主要基于以下考虑: 1、汉字字符的构形成分中确实存在许多相对独立的单一笔画,归入邻近的任一字根都不合适,CJK中就有400多个字符包含这种笔画。如果说汉字字符都是由作为笔画组合体的字根构成的,显然不符合事实;如果说汉字字符是由字根与笔画组成的,固然也未尝不可,但这样就难以清晰地体现字符构形的层级性,故"单笔字根"的提出有其现实的必要性。 2、CJK字符集收入了"一丨丶丿乀乁乙乚乛亅"十个单笔画的字符,如果不引入"单笔字根"的概念,则这十个字符无法进行字根分析。 3、适当拆出字符中的单笔字根,可以大大简化字根系统。 (二)如何析出单笔字根 笔画与字根毕竟是不同层级的构形成分,因此单笔字根以尽量少析出为宜。我们在分析CJK单笔字根的过程中,主要采用了以下方法: 1、某一单笔画如果与字符中其它笔画处于相交或相接的关系,则不能析为单笔字根。如"子、孑、孓"都是由字根"了"与单笔画相交或相接而成,故不再析出单笔字根。 2、如果单笔画与字符中其它笔画均处于相离的关系,则根据以下情况处理: (1)对于点笔来说,若其与某一字根呈内聚之势,且作为整体具有构字能力,则合为一个字根,如"犬、太、刃、玉"等;反之,若作为整体无构字能力,则立点笔为单笔字根,如"乓"。这样处理可使字根系统的层级性得以体现,同时也照顾了通常的字根拆分习惯。 (2)如果某一单笔画用另一笔画或字根替换后成了另一字符,则只能析为单笔字根,如"糺"中的"乚"替换为"工"后成了另一字符"紅",因此"乚"为单笔字根。能用这种方法来判断的单笔字根在CJK单笔字根中约占24%。 (3)偏旁部首通常使用频率较高,一般作为整体进入字根系统,不再拆出单笔字根,如"纟"、"刂"、"寸"、"灬"等。 为简化字根系统,有时也需要作变通处理,如"示"中与第一横笔相邻的也不是分笔字根,但将其析出后,余部分无构字能力,为简化字根系统,"示"拆为"二、小",不涉及单笔字根问题。 (三)CJK的单笔字根统计 我们采用上述方法得出了CJK单笔字根的有关数据,详见下表: 如果把提归入横,捺归入点,竖钩归入竖,其它的归入折,则五种基本笔画在CJK中

计算机常见编码

计算机常见编码 一.有关编码的基础知识 1. 位bit 最小的单元 字节byte 机器语言的单位 1byte=8bits 1KB=1024byte 1MB=1024KB 1GB=1024MB 2. 二进制binary 八进制octal 十进制decimal 十六进制hex 3. 字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符 号,数字等。 字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。 字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一 个字符用多少字节表示等问题,则是由编码来决定的。计算机要 准确的处理各种字符集文字,需要进行字符编码,以便计算机能 够识别和存储各种文字。 二.常见字符集的编码介绍: 常见的字符集有:ASCII 字符集,GB2312 字符集,BIG5 字符集,GB18030 字符集,Unicode 字符集,下面一一介绍: 1. ASCII 字符集: 定义: 美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示 英语和一些西欧语言,是现今最通用的单字节编码系统。 包含内容: 控制字符(回车键,退格,换行键等) 可显示字符(英文大小写,阿拉伯数字,西文符号) 扩展字符集(表格符号,计算符号,希腊字母,拉丁符号) 编码方式: 第0-31 号及127 号是控制字符或通讯专用字符; 第32-126 号是字符,其中48-57 号为0-9 十个阿拉伯数字,65-90 号为26 个 大写英文字母,97-122 号为26 个英文小写字母,其余为一些标点符号,运 算符号等。 在计算机存储单元中,一个ASCII 码值占一个字节(8 个二进制位),最高位 是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否 出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代 码一个字节中1 的个数必须是奇数,若非奇数,则在最高位添1;偶校验规 定:正确的代码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添 1。

各种文字编码简介+常见的编码都有介绍

各种文字编码简介 ASCII ASCII码是7位编码,编码范围是0×00-0×7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0×00-0×20和0×7F共33个控制字符。 只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码方式。 GB2312 GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个位,每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般用10进制数来表示,如1601就表示16区1位,对应的字符是“啊”。在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。 区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定义的空白区。它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。一级汉字是按照拼音排序的,这个就可以得到某个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个原理编写的。 GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0×7E7E,去掉未定义的区域之后可以理解为实际编码范围是 0xA1A1-0xF7FE。 EUC-CN可以理解为GB2312的别名,和GB2312完全相同。 区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。HZ和ISO-2022-CN是对应区位码字符集的另外两种编码,都是用7位编码空间来支持汉字。区位码和GB2312编码的关系有点像 Unicode和UTF-8。GBK GBK编码是GB2312编码的超集,向下完全兼容GB2312,同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同 GB2312一样,GBK也支持希腊字母、日文假名字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。 GBK的整体编码范围是为0×8140-0xFEFE,不包括低字节是0×7F的组合。高字节范围是 0×81-0xFE,低字节范围是0×40-7E和0×80-0xFE。 低字节是0×40-0×7E的GBK字符有一定特殊性,因为这些字符占用了ASCII码的位置,这样会给一些系统带来麻烦。 有些系统中用0×40-0×7E中的字符(如“|”)做特殊符号,在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节,这样就会造成错误判断。在支持GB2312的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0×80的某个字节未必就是ASCII符号;另外就是

Unicode码

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版,ISBN-10: 0321480910)对外发表。 2006年6月的最新版本的 Unicode 是 2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta已于2005年12月12日推出,以供各会员评价。 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。 1.编码方式 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 Unicode字符集可以简写为UCS(Unicode Character Set)。早期的Unicode 标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码,UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。 每个平面有2^16=65536个码位。Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode 5.0.0版本中,已定义的码位只有238605

编码字符集标准及分类研究_谢谦

中 文 信 息 学 报 第20卷第5期 J OURNAL OF CH I NESE I NF OR MATI O N P ROCESSI NG V ol.20N o.5文章编号:1003-0077(2006)05-0083-08 编码字符集标准及分类研究 谢 谦1,2,芮建武1,吴 健1 (1.中国科学院软件研究所开放系统与中文信息处理中心,北京 100080;2.河南大学计算机与 信息工程学院,河南开封 475001) 摘要:编码字符集标准是计算机处理文字信息的基础,本文提出了编码字符集三元组抽象,对现有编码字符集标准进行了简单回顾和总结,深入剖析了影响巨大的ISO2022标准及其派生标准,对ISO2022编码机制应用于多语言环境的局限性进行了探讨,阐明了使用通用编码字符集UCS的必要性,并对其进行了分析。探讨了现有编码分类方法存在的问题,引入了一种对编码字符集以及实现方法进行分类的新方法,使用该方法对现有标准进行了归类;最后对汉字字符集相关的国家标准进行了分析评介。 关键词:计算机应用;中文信息处理;编码字符集 中图分类号:TP391 文献标识码:A Research on Coded Character Set Standards and C lassification X I E Q ian1,2,RU I Jian-wu1,W U Jian1 (1.Open Syste m and Ch i nes e Infor m ati on Processi ng Cen ter,Institute of Soft w are,C h i nes e A cade m y of S ci en ces,B eiji ng100080, Ch i na;2.S chool of Compu t er and In for m ation Engineeri ng,H enan Un i versity,Kaifeng,H enan475001,Ch ina) Ab strac t:Coded character se t standa rd are t he base s of t he co m puter t ex t infor m ati on processing.In t his pape r,a3-turples m ode l is proposed t o descibe the coded character se.t The ex isting code standards are reviewed and su mma-rized.A nd t he ISO2022and it's deriv i ng standards are ana l y zed in de tail;incl uding the li m ita tion o f u tilizi ng IS O 2022in m ultili ngua l env iron m en.t N ecessit y o f foundi ng UCS(U niversa lCha racter Se t)is present ed,a long w it h an outline ana l y sis o f UCS.A ft e r eva l uating current c l assifica tion m e t hods o f coded character set standa rds,a new m eth-od is produced w ith applica tion i n ca talogu i ng existing standa rds.W e c l o se ou r paper w ith a brief ana l ysis of i m po r-tan t Chinese na tiona l st andards on Han character se.t K ey word s:compu t e r applicati on;Ch i nese inf o r m ati on processing;coded character se t 计算机应用从单纯的科学计算转向信息处理,是引发二十世纪信息革命的里程碑事件,而支撑这一转变的重要基础就是字符编码;通过制定字符编码标准,在人能理解的文字信息与计算机内部表达之间建立了一个基本的沟通桥梁,直到今天,基于文字的交互途径仍然是最主要的人机界面。正如Unicode标准中所言[1],“对计算机软件系统而言,字符编码就像螺钉和螺母———虽然微小,却以各种方式被普遍使用。” 收稿日期:2005-07-08 定稿日期:2006-05-22 基金项目:国家863计划资助项目(2003AA1Z2110);中国科学院知识创新工程资助项目(KGCX2-S W-504) 作者简介:谢谦(1968—),男,博士生,主要研究领域为系统软件国际化,X W i ndow系统,L inux标准化.

国家标准信息技术汉字编码字符集基本集-全国信息技术标准化

《信息技术通用编码字符集(基本多文种平面)汉字15×16点阵字型》(征求意见稿)编制说明 一、工作简况 1、任务来源 随着信息技术的不断发展,中文信息技术产品所使用硬件设备得到提升,中文信息处理设备对点阵字型出现了新的需求,为了满足信息处理设备对15×16点阵的需求,国家标准化管理委员会在2015年第三批“制、修订国家标准项目计划”中安排了本标准的制定工作,计划代号为20153659-T-469,标准名称为《信息技术通用编码字符集(基本多文种平面)汉字15×16点阵字型》。 本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司等单位负责起草,标准主要起草人有代红、熊涛等。 2、主要工作过程 标准计划任务下达后,由中国电子技术标准化研究院牵头成立了标准编制组和专家组,并制定了详细的标准研究实施方案。中国电子技术标准化研究院主要负责字型设计、组织协调和标准文本起草,北京仓颉博雅信息技术有限公司负责字型设计,火箭军装备研究院第四研究所和潍坊北大青鸟华光照排有限公司负责字型纠错修改,专家组负责字型审查工作。 按照标准实施方案的要求,标准编制组于2016年6月底,分批提供了15×16点阵字型的设计初稿,并将字型设计初稿提供给字型专家审查,在设计点阵字型时对有疑问的字进行查证讨论,做到每个字的修改确定有据可查。根据字型专家提出的修改意见,标准编制组对字型设计初稿进行修改,于2017年7月底前完成了对字型设计初稿的修改整理。在对字型设计稿修改的同时,标准编制组还进行了标准文本的起草工作,2017年10月完成了标准草案。2017年11月标准草案提交中国电子技术标准化研究院进行标准专家内审,标准起草组根据标准内审专家提出的意见对草案进行修改,形成了标准的征求意见稿,现向各位征求意见。 3、标准编制的主要成员单位及其所做的工作 本标准由中国电子技术标准化研究院、北京仓颉博雅信息技术有限公司、火箭军装备研究院第四研究所等单位负责起草。中国电子技术标准化研究院主要负责标准文本的起草、标准研究的组织协调,北京仓颉博雅信息技术有限公司负责

中文字符集、编码

前言
由于工作的需要,参考了好多资料整理出来一份计算机汉字处理报告,不敢独享,希 望与大家共享。Ziggler 现代计算机技术虽然先进, 但大多数人只知录入 GB-2313 字符集内的 6763 个简体汉字, 对包含 21003 个简繁体汉字的 GBK 字符集的文字录入、字体 显示就已不甚了解(市面上 绝大多数所谓的繁体字体,其实采用的是 GB2313 字符集简体字的编码,用字体显示为繁体 字,而不是直接用 GBK 字符集中繁体字 的编码,错误百出) 。而汉字总数至少有近 10 万 个,目前计算机能处理的,也有 70244 个,已非一般人所能知能用了。 由于汉字总数非常庞大。 汉字总共有多少字?到目前为止, 恐怕没人能够答得上来精确 的数字。据估计,汉字数量达到 11 万左右。 这里所说的七万多汉字, 是指 UNICODE 超大字集全部七万多中日韩汉字。 (注: Unicode 是指用两个字节表示每个字符的字符编码方案。 ) 那一般计算机能够显示多少个汉字呢?比如大陆这边普遍安装简体 Windows 系统,而 简体 windows 以宋体为系统字型,宋体支持 GBK 编码,所以能显示 20902 个汉字。 要显示 71564 个汉字, 可以采取多种方案, 如: 宋体-方正超大字符集+新细明体 EXTB、 宋体-方正超大字符集+中易宋体 EXTB、宋体 GB18030+新细明体 ExtB、宋体 18030+宋体 ExtB 等等。
中文字符集、编码
字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符 集是多个字符的集合,字符集 种类较多,每个字符集包含的字符个数不同。 计算机要准确的处理各种字符集文字, 需要进行字符编码, 以便计算机能够识别和存储 各种文字。 中文文字数目大, 而且还分为简体中文和繁体中文两种不同书写规则的文字, 而计算机 最初是按英语单字节字符设计的, 因此, 对中文字符进行编码, 是中文信息交流的技术基础。 以下是常见的一些字符集介绍,部分字符集中包括编码介绍。
GB2312 字符集
1.名称的由来 GB2312 又称为 GB2312-80 字符集,全称为《信息交换用汉字编码字符集·基本集》 ,由原中 国国家标准总局发布,1981 年 5 月 1 日实施。 2.特点 GB2312 是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖 99.75%的使用频率,

相关主题
文本预览
相关文档 最新文档