汉字编码及国标码GB2312.doc
《汉字编码及国标码GB2312.doc》由会员分享,可在线阅读,更多相关《汉字编码及国标码GB2312.doc(62页珍藏版)》请在冰豆网上搜索。
汉字国标码
每个汉字有个二进制编码,叫汉字国标码。
在我国汉字代码标准GB2312-80中有6763个常用汉字规定了二进制编码。
每个汉字使用2个字节。
GB2312-80GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。
01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。
GB2312将收录的汉字分成两级:
第一级是常用汉字计3755个,置于16-55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于56-87区,按部首/笔画顺序排列。
故而GB2312最多能表示6763个汉字。
汉字机内码
汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。
输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。
机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。
汉字在计算机内部其内码是唯一的。
因为汉字处理系统要保证中西文的兼容,当系统中同时存在ASCII码和汉字国标码时,将会产生二义性。
例如:
有两个字节的内容为30H和21H,它既可表示汉字“啊”的国标码,又可表示西文“0”和“!
”的ASCII码。
为此,汉字机内码应对国标码加以适当处理和变换。
GB码的机内码为二字节长的代码,它是在相应GB码的每个字节最高位上加“1”,即
汉字机内码=汉字国标码+8080H
例如,上述“啊”字的国标码是3021H,其汉字机内码则是B0A1H。
汉字机内码的基础是汉字国标码。
机内码:
为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。
这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。
汉字机内码、国标码和区位码三者之间的关系为:
区位码(十进制)的两个字节分别转换为十六进制后加20H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。
举例:
机内码位BEDF,求区位码?
有两种解法:
1.BEDFH-A0A0H=1E3FH=7743D;
2.BEDFH-8080H=3E5FH(国标码),3E5FH-2020H=1E3FH=7743D
查找说明
所谓汉字编码,就是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。
在此介绍的是《国家标准信息交换汉字编码》。
这种编码经过加工整理一律以汉语拼音的字母为序,音节相同的字以使用频率为序,其查找方法与一般汉语字典的汉字拼音音节索引查找法相同。
(1)按音序查
常用汉字按音序几乎都可查到,例如:
“白”字,首先,按其发音bai查在汉字编码表中的位置,然后在bai范围内查“白”字,找到“白”字后,其汉字右侧的数字1655就是“白”的汉字编码。
(2)关于多音字的查找
由于汉字编码是一种无重码的汉字编码,所以多音字只有一个编码。
在查多音字时,如果用某个音查不到,可换另外的音去查。
例如:
重庆的“重”和重量的“重”,字同音不同,汉字“重”的编码是按Zhong音编码的。
(3)生僻字的填涂方法
对于姓名汉字或单位不在给定的编码表中的情况的考生,让考生涂写编码0000代替该字。
a
啊1601
阿1602
吖6325
嗄6436
腌7571
锕7925
ai
埃1603
挨1604
哎1605
唉1606
哀1607
皑1608
癌1609
蔼1610
矮1611
艾1612
碍1613
爱1614
隘1615
捱6263
嗳6440
嗌6441
嫒7040
瑷7208
暧7451
砹7733
锿7945
霭8616
an
鞍1616
氨1617
安1618
俺1619
按1620
暗1621
岸1622
胺1623
案1624
谙5847
埯5991
揞6278
犴6577
庵6654
桉7281
铵7907
鹌8038
黯8786
ang
肮1625
昂1626
盎1627
ao
凹1628
敖1629
熬1630
翱1631
袄1632
傲1633
奥1634
懊1635
澳1636
坳5974
拗6254
嗷6427
岙6514
廒6658
遨6959
媪7033
骜7081
獒7365
聱8190
螯8292
鏊8643
鳌8701
鏖8773
ba
芭1637
捌1638
扒1639
叭1640
吧1641
笆1642
八1643
疤1644
巴1645
拔1646
跋1647
靶1648
把1649
耙1650
坝1651
霸1652
罢1653
爸1654
茇6056
菝6135
岜6517
灞6917
钯7857
粑8446
鲅8649
魃8741
bai
白1655
柏1656
百1657
摆1658
佰1659
败1660
拜1661
稗1662
捭6267
呗6334
掰7494
ban
斑1663
班1664
搬1665
扳1666
般1667
颁1668
板1669
版1670
扮1671
拌1672
伴1673
瓣1674
半1675
办1676
绊1677
阪5870
坂5964
钣7851
瘢8103
癍8113
舨8418
bang
邦1678
帮1679
梆1680
榜1681
膀1682
绑1683
棒1684
磅1685
蚌1686
镑1687
傍1688
谤1689
蒡6182
浜6826
bao
苞1690
胞1691
包1692
褒1693
剥1694
薄1701
bao—ce
雹1702
保1703
堡1704
饱1705
宝1706
抱1707
报1708
暴1709
豹1710
鲍1711
爆1712
葆6165
孢7063
煲7650
鸨8017
褓8157
趵8532
龅8621
bei
杯1713
碑1714
悲1715
卑1716
北1717
辈1718
背1719
贝1720
钡1721
倍1722
狈1723
备1724
惫1725
焙1726
被1727
孛5635
陂5873
邶5893
埤5993
萆6141
蓓6177
悖6703
碚7753
鹎8039
褙8156
鐾8645
鞴8725
ben
奔1728
苯1729
本1730
笨1731
畚5946
坌5948
贲7458
锛7928
beng
崩1732
绷1733
甭1734
泵1735
蹦1736
迸1737
嘣6452
甏7420
bi
逼1738
鼻1739
比1740
鄙1741
笔1742
彼1743
碧1744
蓖1745
蔽1746
毕1747
毙1748
毖1749
币1750
庇1751
痹1752
闭1753
敝1754
弊1755
必1756
辟1757
壁1758
臂1759
避1760
陛1761
匕5616
俾5734
芘6037
荜6074
荸6109
薜6221
吡6333
哔6357
狴6589
庳6656
愎6725
滗6868
濞6908
弼6986
妣6994
婢7030
嬖7052
璧7221
睥7802
畀7815
铋7873
秕7985
裨8152
筚8357
箅8375
篦8387
舭8416
襞8437
跸8547
髀8734
bian
鞭1762
边1763
编1764
贬1765
扁1766
便1767
变1768
卞1769
辨1770
辩1771
辫1772
遍1773
匾5650
弁5945
苄6048
忭6677
汴6774
缏7134
煸7652
砭7730
碥7760
窆8125
褊8159
蝙8289
笾8354
鳊8693
biao
标1774
彪1775
膘1776
表1777
婊7027
骠7084
杓7228
飑7609
飙7613
飚7614
镖7958
镳7980
瘭8106
裱8149
鳔8707
髟8752
bie
鳖1778
憋1779
别1780
瘪1781
蹩8531
bin
彬1782
斌1783
濒1784
滨1785
宾1786
摈1787
傧5747
豳6557
缤7145
玢7167
bin-chan
槟7336
殡7375
膑7587
镔7957
髌8738
鬓8762
bing
兵1788
冰1789
柄1790
丙1791
秉1792
饼1793
炳1794
病1801
并1802
禀5787
邴5891
摒6280
bo
玻1803
菠1804
播1805
拨1806
钵1807
波1808
博1809
勃1810
搏1811
铂1812
箔1813
伯1814
帛1815
舶1816
脖1817
膊1818
渤1819
泊1820
驳1821
亳5781
啵6403
饽6636
檗7362
擘7502
礴7771
钹7864
鹁8030
簸8404
跛8543
踣8559
bu
捕1822
卜1823
哺1824
补1825
埠1826
不1827
布1828
步1829
簿1830
部1831
怖1832
卟6318
逋6945
瓿7419
晡7446
钚7848
钸7863
醭8519
ca
擦1833
嚓6474
礤7769
cai
猜1834
裁1835
材1836
才1837
财1838
睬1839
踩1840
采1841
彩1842
菜1843
蔡1844
ca