中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京...

27
中中中中中中 中中中中中中中中中中中中中中 中中 中中 中中中中中中 2008-11-06 中中中 中中中中中 中中中中中 中中中中中中中中中

description

中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士 中 华排检码研发公司. 中 华 排 检 码. 汉字无序之苦。 汉字有序之难。. 中 华 排 检 码. 报告 大纲 1. 定题 - 中华排检码 2. 几个设计参数 3. 结构和组成细节 4. 特性及优点 5. 总结. 定 题. 汉字排检”是排序和检索两 个 步骤, 是 两 个 用法 不同但却有密切关系的步骤。 排序是指按照某一种规律将字库内汉字排列成先后有序的一条汉字龙。 - PowerPoint PPT Presentation

Transcript of 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京...

Page 1: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中 华 排 检 码

中国索引学会第三次会员代表大会暨学术论坛

中国 北京

研究成果报告2008-11-06

宋安华博士 柴大定博士 林星雄博士中华排检码研发公司

Page 2: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中 华 排 检 码

汉字无序之苦。 汉字有序之难。

Page 3: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中 华 排 检 码

报告大纲

1. 定题 - 中华排检码

2. 几个设计参数

3. 结构和组成细节

4. 特性及优点

5. 总结

Page 4: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

定 题

汉字排检”是排序和检索两个步骤,是两个用法不同但却有密切关系的步骤。

排序是指按照某一种规律将字库内汉字排列成先后有序的一条汉字龙。

而检索是指按照汉字排序的规律,来查到要找的汉字。

汉字排序的最重要的两个基本要求是:

1. 有一个简单且实用的排序规律;

2. 汉字代码对汉字有单一性 。就是一个汉字代码只对一个汉字。

Page 5: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 几个设计参数

适合于电子计算机操作

不用固定二字节或多字节形式

使用现今通用亚司基码( ASCII ,美国信息互换 标准代码)

可用为内码

可满足将来信息化的需求

Page 6: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 结构和组成细节

 

辨別码 字形 字音 第三部份 第二部份 第一部份

中 华 排 检 码

辨別码 四角号码 + 笔划数 汉语拼音 第三部份 第二部份 第一部份

中 华 排 检 码

列表 1 - 中华排检码的结构

列表 2 - 中华排检码具体组成部件

Page 7: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 举例之一

ma317621762ma3 码

jian348914891jian3 检

pai251015101pai2 排

hua224402440hua2 华

zhong150005000zhong1 中

中 华 排 检 码 第三部份 第二部份 第一部份

列表 3 中华排检码例子之一

Page 8: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 举例之二

第一部份 第二部份 第三部份 中 华 排 检 码

辨 bian4 0044 16 bian4004416

辮 bian4 0044 20 bian4004420

辯 bian4 0044 21 bian4004421

列表 4 中华排检码例子之二

Page 9: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

第一部份 第二部份 第三部份 中 华 排 检 码

糜 mi2 0029 17 mi2002917

麋 mi2 0029 17 a mi2002917a

縻 mi2 0029 17 b mi2002917b

列表 5 中华排检码例子之三

中华排检码 - 举例之三

Page 10: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 代码和汉字之间无重字率的关系

中华排检码部件 无重字率 % 无重字率 %

(统计结果系根据右列两字库) 大五码

(13053字) 大五码+国标码* (13053+6763字)

只用汉语拼音 1. 4% 1. 2%

只用汉语拼音+四角号码 92. 4% 92. 1%

只用汉语拼音+四角号码+笔划数 99. 3% 99. 1%

使用中华排检码 (汉语拼音+四角号码+笔划数+辨别码)

100. 0% 100. 0%

* 国标码 (GB2312)

列表 6 中华排检码无重字率

Page 11: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 汉字和汉字代码对照表

汉字 中华排检码 汉字 中华排检码 汉字 中华排检码

6071 餽 kui 48671 6081 崑 kun12271 6091 錕 kun18611

6072 箦 kui 4888014 6082 鲲 kun12611 6092 锟 kun18671

6073 簣 kui 4888018 6083 鯤 kun12631 6093 惃 kun19601

6074 篑 kui 4888015 6084 菎 kun14471 6094 焜 kun19681

6075 簀 kui 4888017 6085 坤 kun14510 6095 硱 kun31660

6076 愦 kui 4950812 6086 猑 kun14621 6096 齫 kun32670

6077 憒 kui 4950815 6087 晜 kun16022 6097 綑 kun3269013

6078 愧 kui 49601 6088 昆 kun16071 6098 稛 kun3269013a

6079 琨 kun11611 6089 髡 kun17221 6099 裍 kun33620

6080 醌 kun11661 6090 騉 kun17631 6100 阃 kun33760

列表 7 汉字和汉字代码对照表

( 举例 - 第 6071 到 6100 字 )

Page 12: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之一

1. 简单且实用的汉字排序规律

要解决汉字排检问题,最基本也是最重要的要求之一是要有一个简单且实用的排序规律。中华排检码是达到这一个要求。

Page 13: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之二

2. 单一性

要解决汉字排检问题,汉字单一性这一个最基本也是最重要的要求之一是必须要满足的。

中华排检码是能够 100% 的达到这一个要求。

Page 14: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之三

3. 繁体与简体字兼容

第一部份 第二部份 第三部份 中 华 排 检 码

华 hua2 2440 hua22440

華 hua2 4450 hua24450

检 j i an3 4891 j i an34891

檢 j i an3 4898 j i an34898

码 ma3 1762 ma31762

碼 ma3 1162 ma31162

列表 8 繁体与简体字兼容举例

Page 15: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之四

4. 多音字兼容 在汉字里,有一些汉字会有不同的读法。例如在“行动”和“银行”二个名词中的“行”字,就有不同的读法。在中华排检码字库中,这一种汉字是完全可以兼容的。它们各有各的中华排检码代码。

第一部份 第二部份 第三部份 中 华 排 检 码

行 xing2 2122 xing22122

行 hang2 2122 hang22122

华 hua2 2440 hua22440

华 hua4 2440 hua42440

列表 9 多音字兼容举例

Page 16: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之五

5. 与国标码、大五码与统一码有一一对应

中华排检码的字库可以收集在国标码、大五码与统一码字库中的汉字。有一一对应这一点,便可以用中华排检码来做码与码之间的转换。

例如将已有的国标码档案,可利用电脑自动转换为中华排检码档案。

Page 17: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之六

6. 汉字有序

中华排检码字库中的汉字是依照其汉字代码的顺序存档。这个顺序在各种汉字文字处理操作上是非常有用的。诸如在列表、电子数据报表、字典编纂、名册编制等等。

Page 18: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之七

7. 适合文本识读 (text-to-speech)

文本识读技术就是使用文字转语音系统技术。 这种技术能把文字转化为自然语音,语调。

应用举例 : 卫星定位系统 , 电话及电脑应用中,可以与使用人语音对话。

Page 19: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之八

8. 加补新字方便

添加新字极端方便。随时可加添新字。每一个新字都可以按次排序插入字库。使字库中的汉字经常保持字序。

Page 20: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之九

9. 有效地避免乱码

中华排检码使用 26 个英文字母和 10 阿拉伯数字来拼出汉字代码,即使用现今通用亚司基码。

中华排检码码长不定,不用二字节或四字节定长内码方法。完全不同于国际码,大五码或统一码。

中华排检码的档案在电脑文字处理或网际传输操作下,可以有效避免乱码。中华排检码非常适合于电子计算机操作。

Page 21: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之十

10. 内码即外码 中华排检码的内码和外码是一致的,所以中华排检码也可以用来做输入法。

更因为中华排检码的代码与汉字之间有单一性这一点可使中华排检码输入适合盲打。

Page 22: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

中华排检码 - 特性及优点之十一

11. 现有输入法仍然可用于输入中华排检码 中华排检码与国标码、大五码与统一码的汉字均有一一对应。

无论使用者用何种输入法,当使用者输入汉字之后,文字处理系统可以存入与其汉字对应的中华排检码。

Page 23: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

总 结

基于上述中华排检码的结构与多项优点,从全部优点整体来看,使用中华排检码在中文信息化发展过程中,有极大的优势。

我们相信中华排检码的确是可称为“近乎理想且实用”的汉字排检方法。

中华排检码有种种优点,也非常适用于电脑操作。这些可以让我们在此指出编制中文索引栏已不再是一件难事。在现有的条件下,利用中华排检码可以很方便地为已有电子本的中文书籍,加添索引栏。

Page 24: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

致 谢

我们有一种共同地认识:就是就一般而言,研究工作的成果多半是会引用到一些先进专家过去的经验和成果。而所谓的新成果也仅只是一些旧成果的累积再加上一点点自己的新东西。

我们在此要向做汉字排检研究工作的先进专家们致谢。在过去几年里,有许多贝尔实验室的先后同事们不断地给我们鼓励和关注,我们特别在此致谢。

Page 25: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

声 明

中华排检码已获得中国智慧产权局颁发智慧产权证书。产权证书号码: No. ZL200410039250.2 ,发证日期: 2008-4-16 。

中华排检码亦获得美国智慧产权局颁发智慧产权证书。产权证书 号 码 : No.7,359,850-B2 , 发证日期:2008-4-15 。

中华排检码汉字与汉字代码对照表已向中国国家版权局登记,且已获得颁发著作权登记证书。证书号码: No. 2004-L-02025, 发证日期: 2004-12-12 。

上列三项智慧产权及著作权,均为三位作者及在美国成立的中华排检码研发公司所拥有。

Page 26: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

联络地址

中华排检码研发公司CSC Research, LLC23 Seven Oaks CircleHolmdel, J 07733 USA

www.CSCResearch.com

宋安华 博士 Andrew Soong , Ph.D. [email protected]

柴大定 博士 David Chai, Ph.D. David@ CSCResearch.com

林星雄 博士 Sing Lin, Ph.D.Sing@ CSCResearch.com

宋安华 [email protected]

Page 27: 中 华 排 检 码 中国索引学会 第三次会员代表大会暨学术论坛 中国 北京 研究成果 报告 2008-11-06 宋安 华 博士 柴大定博士 林星雄博士

参考资料

四角号码 新华字典, 2001 年 ,大字本,商务印书馆,北京。内附四角号码检字表

四角号码及其用法 http://www.4jhm.com/tsghm/2007/0814/article_5.html