香港中文大學圖書館系統 University Library System

36
香香香香香香香香香香香 University Library System The Chinese University of Hong Kong 香香 Innovative 香香香香香香 香香 CCCII/EACC 香香香– 香香香香香 INNOPAC 香香香香香香 , 2004 香 11 香 9-10 香 – 香香香香香香香香– 香香香 2004 年 11 年 9 年

description

香港中文大學圖書館系統 University Library System. The Chinese University of Hong Kong. 何以業. 2004 年11月9日. 香港 Innovative 用户协会重订 《单一码与 CCCII/EACC 对应表》 – 第五届中国 INNOPAC 用户协会年会 , 2004年11月9-10日 – – 上海华东师范大学–. 鸣谢. - PowerPoint PPT Presentation

Transcript of 香港中文大學圖書館系統 University Library System

Page 1: 香港中文大學圖書館系統 University Library System

香港中文大學圖書館系統University Library System

The Chinese University of Hong Kong

香港 Innovative 用户协会重订

《单一码与 CCCII/EACC 对应表》

– 第五届中国 INNOPAC 用户协会年会 , 2004 年 11 月 9-10 日 –

– 上海华东师范大学–何以業2004 年 11 月 9 日

Page 2: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

2

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

鸣谢• 重订工作由 香港 Innovative 用户协会 (Hong Kong

Innovative Users Group) 下的单一码计划工作小组 (HKIUG Working Group on Unicode Project) 负责。 小组成员馆的代表为:

林纪达先生 ( 香港科技大学 )

黄秉杰先生 ( 香港城市大学 )

陈伟明先生 ( 香港大学 )

何以业 ( 香港中文大学 )

• 以下的报告内容取材自黄秉杰先生与我在 2003 年 12 月第4 届 Hong Kong Innovative Users Group Meeting 中的报告http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt

Page 3: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

3

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

報告梗概1.背景2.难题3.目标与方法4.工序5.对 Innovatives 的要求6.尚未解决的问题7.用户注意事项8.将来

Page 4: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

4

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

1. 背景 汉字编码字符集多种字符集支援中日韩字 (CJK)

资料来源 :

林纪达 , “Overview of Chinese Character Encoding”, http://www.lib.cuhk.edu.hk/seminar/unicode/kt_lam_files/frame.htm

字符集名称 (character sets) 流行范围GB ( 国标 ) 中国BIG5 ( 大五码 ) 香港,台湾等地CCCII (Chinese Character Code for Information Interchange 中文信息交换码 )

图书馆

EACC (East Asian Character Code 东亚字码 )

美国国会图书馆字码标准 (MARC 21 standard) http://www.loc.gov/marc/specifications/specchareacc.html

Unicode ( 单一码 ) 电脑操作系统广泛采用, e.g. : Windows 2000, XP

Page 5: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

5

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

1. 背景 字符集支援范围

字符数 码点 版本发布 支援繁简

连结特质

BIG5 13,053 14,758 1984 繁体 无

GB 18030

27,000 1.6 百万 2000 繁简 无

CCCII 75,684 830,584 1980 繁简 有

EACC 15,728 830,584 1983 繁简 有

Unicode

82,270 1.1 百万 2000 (v. 3)

繁简 无

Page 6: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

6

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

1. 背景 ( 代 ) 码点 (code point)

同一个字形,在不同字符集会使用不同的码点

字符集 [ 余 ] 的码点

备考

BIG5 A745

GB 18030

5164

CCCII 213131276076 [ 餘 ] 216076 後 4 碼連結 :

余杭 <-> 餘杭EACC 276076 [ 餘 ] 216076 後 4 碼連結 :

余杭 <-> 餘杭Unicode 4F59

Page 7: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

7

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

1. 背景 内存代码 (internal code)

• Innopac 以 EACC/CCCII 形式存储 CJK 字符

• Innopac 内存代码不是 Unicode100 1 余秋雨

100 1 {276076}{214f29}{215f51}

Page 8: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

8

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

1. 背景 对应表 (mapping table)

• Innopac 用对应表把内存代码在客户端与系统之间往来转换

接口 ( 界面 ) 客户端编码 Innopac 内存代码

Telnet BIG5

WebPAC BIG5

BIG5 ( 大五码 ) EACC/CCCII

Millenium

WebPAC UTF-8

UTF-8 ( 单一码 ) EACC/CCCII

Page 9: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

9

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

2. 难题 ( 一 ) 复数对应难题 1• UTF-8 对应表 (diac.utf8) 中 , 有多个内存代码对应同一个客户端编

码• 查询用的代码不一定是所期望的代码• 对应次序各馆不同, Z39.50 查找结果不定

UTF-8 表中 [ 台 ] 的复数变换EACC - 内存代码 Unicode -- 客户端编

码字义

283b7d 53F0 [ 檯 ] 的简体27605d 53F0 [ 颱 ] 的简体213538 53F0 [ 台 ] 本身是正字27542b 53F0 [ 臺 ] 的简体

Page 10: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

10

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

2. 难题 ( 二 )EACC 与 CCCII 重叠

难题 2• EACC 与 CCCII 用码不同, 各馆内存不一,资料交换带来麻烦。

EACC/CCCII BIG5 UTF-8 备考

余 213131 (CCCII) A745 4F59 独立代码,不与 [ 餘 ] 216076 连结

276076 (EACC) A745 4F59 与 [ 餘 ] 216076 连结

Page 11: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

11

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

2. 难题 ( 三 ) 错误与缺漏

难题 3 UTF8 (Release 2002 Phrase 3) 中有小毛病

错误• 27615F <> U+53CB [ 友 ]• 该对应 U+53D1 [ 发 ]

缺漏• 缺 213F30 <> U+3007 [ 〇 ]

Page 12: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

12

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

2. 难题 ( 四 ) 选取不一致

难题 4

BIG5 和 UTF-8 产生的复数对应不一致,香港 Innovative 用户协会决定进行此单一码计划:

• BIG5 客户端 对应表选前一个对应码• UTF8 客户端 对应表选后头一个对应码

Page 13: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

13

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

2. 难题 ( 四 ) 选取不一致 ( 续 )

[ 才 ] 的对应 BIG5 (WebPAC 或 Telnet) 对应表选前一个对应码

内存 BIG5

213f7b A47E BIG5 选前一个28736d A47E

UTF-8 (WebPAC 或 Millennium) 对应表选后一个对应码

内存 UTF-8

213f7b 624D

28736d 624D UTF-8 选后一个

Page 14: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

14

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

3. 目标与方法 .

香港中文大学于 2003 年 7 月举行了讨论会 : http://www.lib.cuhk.edu.hk/seminar/unicode/

单一码计划工作小组 (HKIUG Working Group on Unicode Project) 亦于同年 7 月成立

目标1. 解决 BIG5 和 UTF-8 选取不一致的难题2. 决定对应表中的那些应是 ‘一对一’ 或是 ‘多对

一’3. 决定对应表 应否只用 ‘纯粹 EACC’ 或是

‘ EACC+CCCII’

4. 清除错误与缺漏5. 为将来‘以单一码为内存的资料库’做好准备

Page 15: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

15

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

3. 目标与方法 (续 )

单一码计划工作小组研究后提出如下方案: 不再修订 BIG5 对应表 (因为 : 字符集字量少 ; 只支援

繁体字 ; 复数对应太多… . 等等 ) 建议重订一张新的 UTF-8 对应表 (diac.utf8)

EACC<>Unicode 以美国国会图书馆 MARC 21 为标准 尾 4 码相同者,容许复数对应;尾 4 码不同者,需决

定优先选取者;例: [ 台 ] (见 2. 难题 1) EACC 与 CCCII 重叠时,删除 CCCII 将馆内以该 CCCII 为内码的资料转换为对应的 EACC 对应表需包括 ‘纯粹 CCCII’ 以照顾不常用字

Page 16: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

16

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

4. 工序 建成 diac.utf8.hkiug

• 以下部分直接摘用黄秉杰先生在 2003 年12 月第 4 届 Hong Kong Innovative Users Group Meeting 报告内的 Procedures 部分参见:

http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt

Page 17: 香港中文大學圖書館系統 University Library System

ProceduresProcedures

diac.utf8.hkiug

created diac.utf8.hkiug

diac.utf8

LC EACC

22717EACC/CCCII

Subtracted 66 Substitutes for Missing (U+3013)

15673EACC

7044 pureCCCII

+

• Remapped 287 PUA• Selected preferences in

multi-mapping linked and unlinked cases

• Corrected LC mappings• prepared list for CCCII to

EACC data conversionSubtracted 955 with

EACC equivalent

15739 EACC merged

7999 CCCII extracted

Page 18: 香港中文大學圖書館系統 University Library System

ProceduresProcedures source from LC• Merged tables from LC's EACC to UCS/Unicode Mappings

http://www.loc.gov/marc/specifications/specchareacc.html

Page 19: 香港中文大學圖書館系統 University Library System

Procedures Procedures

• Included pure CCCII from UTF-8 table (Rel 2002 Phase 3)

CCCII with no EACC equivalents (pure CCCII)

e.g.

217455 坓22483E 洣

7,044 Added to new table

CCCII with EACC equivalents

e.g.

213131 (CCCII) 余276076 (EACC) 余

955 Excluded from new table.

Sent to III for data conversion

source from diac.utf8

Page 20: 香港中文大學圖書館系統 University Library System

ProceduresProcedures re-mapped PUA

• Re-mapped 297 Private User Area (PUA) to suggested alternates

Page 21: 香港中文大學圖書館系統 University Library System

ProceduresProcedures

• Selected preference in multiple mapping EACC

Multiple mapping

Example # of cases

Enhanced indexing?

Labeled as Preference

Linked

same lower order bytes

4B3178 倩213178 倩

160

(320 char)

Yes "multi-mapping linked"

not matter

Unlinked

different lower order bytes

283B7D 台27605D 台213538 台27542B 台

49

(108 char)

No "multi-mapping unlinked"

selected case by case (based on HKUST study on word frequency & meaning)

selected preference

Page 22: 香港中文大學圖書館系統 University Library System

ProceduresProcedures

Linked cases: HKIUG preference indicated

selected preference (cont)

• Selected preference in EACC multiple mapping linked

Page 23: 香港中文大學圖書館系統 University Library System

Procedures Procedures

Unlinked cases: HKIUG preference indicated

selected preference (cont)

• Selected preference in EACC multiple mapping unlinked

Page 24: 香港中文大學圖書館系統 University Library System

Procedures Procedures

• Updated LC mappings Referenced from other sources

UnihanOCLCUSMARC Character Set for Chinese, Japanese, Korean (printed)

Examples:

273C67 LC mapped to U+E9D8

Remapped to U+5E72 (干 )

4B3C2b LC mapped to U+E9C7

Remapped to U+67C3 (柃 )

updated LC mapping

Page 25: 香港中文大學圖書館系統 University Library System

ProceduresProcedures

CCCII with EACC Equivalents- for data conversion

CCCII EACC

list for conversion

• Prepared list for data conversion

Page 26: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

26

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

5. 对 Innovatives 的要求 .• 交给 Innovatives 的 付项

1. diac.utf8.hkiug – 是 HKIUG 设定的 EACC/CCCII<>UTF-8 对应表

EACC 15,673

纯粹 CCCII 7,044

合共 22,717

2. hasEACC.txt – CCCII 重叠 EACC 表 (955)

3. 单一码计划工作小组的报告

• Innovatives 可做的工作 (IUG CN 可参照实行 )1. 为各馆的 Innopac 安装 diac.utf8.hkiug

2. 依照 hasEACC.txt 所示 , 把图书馆资料库内的 CCCII 转换成对应的 EACC ( 各馆可自行转换 )

Page 27: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

27

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

6. 尚未解决的问题 LC 的错误

• 美国国会图书馆 (LC) MARC 21 标准中有一个错误 : 23355C

LC MARC21 标准 23355C <> U+86C3

[蛃 ]

USMARC character set for Chinese, Japanese, Korean.Washington, D.C. : Library of Congress, 1986.

23355C [豣 ] U+8C63

Page 28: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

28

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

7. 用户注意事项 复数对应选字

• 复数对应 : [ 历 ] U+5386

• 请参考香港科技大学的复数对应选择表 : lc-multi-eacc.xls

歷 21462A

历 27462A

设定为优先对应歷的简体

274349

设定为非优先对应曆的简体

曆 214349

Page 29: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

29

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

7. 用户注意事项 复数对应选字 (续1)

• 数据正确性书名 : 历法… 内存代码 备考 数据

正确 ?

以字符输入 : 历 27462A 与 [歷 ] 21462A 连结索引

错误

若以代码输入 : 274349

274349 与 [曆 ] 214349 连结索引

正確

* 可用附加追寻项,以字符输入:历

27462A 与 [歷 ] 21462A 连结索引

Page 30: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

30

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

7. 用户注意事项 复数对应选字 (续2)

• Millenium editor 暂依 UTF-8 对应表在储存目录时修改内码。这会使数据不正确。

• 此为 Millennium 的软件缺点,由于目录从 server 交到 client ,在 client 重存时,内存代码会依对应表的优先对应的规定来改码。

• 如果只是修改 item, checkin, order, global update 等,由于不会在 client 重存 bib 目录,内存代码不会改变。

内存代码 数据正确 ?

Telnet 以代码输入 : 274349 {274349} 正确Millennium 中 , 不做任何修改,储存后 , 在 Telnet 中检看 :

{27462A} 错误

Page 31: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

31

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

7. 用户注意事项 复数对应选字 (续3)

• Innovatives 打算在 Sliver version 中修正软件缺点。非优先对应的内存代码,会在 Millenium editor 以字符显示,而且不会在重存目录时修改内码。

内存代码 数据正确 ?

Telnet 以代码输入 : 274349 {274349}

Millennium 中 , 不作任何修改,储存后还保留並显示为 :

{274349} 正确

Page 32: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

32

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

7. 用户注意事项 复数对应选字 (续4)

• 暂时可用 Anzio-Win 作 Telnet client1. 设定可参考香港中文大学图书馆网页 :

http://www.lib.cuhk.edu.hk/cataw/Internet/System_DIY.pdf

2. 上述网页提到的 CCCII.UNI , 香港中文大学愿意提供。

3. 但 ANZIO-Win 有缺点:CCCII.UNI 为 1 EACC <> 1 Unicode. 非优

先对应者,一概不用

Page 33: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

33

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

7. 用户注意事项 复数对应选字 (续5)

EACC diac.utf8.hkiug 资料

Webopac / Millennium 显示

Anzio-Win 显示

备考

214857 非优先对应

漢 汉 由于 214857 为非优先对应,故在 CCCII.UNI 中无效, Anzio-Win 会找近似值274857 [ 汉 ] 为显示字符

4b4857 优先对应

漢 漢 漢

Page 34: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

34

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

8. 将来 ( 一 ) 提升混合索引能力

• CJK 字符中,繁简体和异体字甚多,不能光靠尾 4 码相同来连结索引。 Innovatives 将以 Tool-database 形式达到混合索引的功能。

• 香港科技大学的林纪达先生已准备向 Innovatives 提供资料,供 Tool-database 作混合索引之用:

213538 台 |21542B 臺 |27542B 台 |21605D 颱 |27605D 台 |223B7D 檯 |283B7D 台 |3A3B7D 枱 |#U+53F0

• 输入以上任何一个字符,均可把载有以上代码的目录全部找出来。

Page 35: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

35

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

8. 将来 ( 二 ) 跟 EACC/CCCII 为内存的资料库进行交换

• 往后数年,图书馆界 (北美和 OCLC 等 ) 仍然以 EACC/CCCII 为内存代码及作为交换码。 Innopac 用户馆与此等以 EACC/CCCII 为内存的资料库进行交换时,不会出问题。

• 将来如果 Innopac 改为纯以 Unicode 为内存代码,与此等 EACC/CCCII 为内存代码的资料库进行交换时,会输出错码:

Innopac 纯 Unicode 内存代码 输出 EACC/CCCII

历 U+5386

(例如 :历法 )

以 27462A 输出 (歷的简体 )

不以 274349 输出 (曆的简体 )

Page 36: 香港中文大學圖書館系統 University Library System

Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表

004 11 9 , 年 月 日 何以業

36

U

niv

ers

ity L

ibra

ry S

yst

em

, C

UH

K

香港中文大學 大學圖書館系統

谢谢聆听!敬希指正!

何以业[email protected]