香港中文大學圖書館系統 University Library System
description
Transcript of 香港中文大學圖書館系統 University Library System
香港中文大學圖書館系統University Library System
The Chinese University of Hong Kong
香港 Innovative 用户协会重订
《单一码与 CCCII/EACC 对应表》
– 第五届中国 INNOPAC 用户协会年会 , 2004 年 11 月 9-10 日 –
– 上海华东师范大学–何以業2004 年 11 月 9 日
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
2
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
鸣谢• 重订工作由 香港 Innovative 用户协会 (Hong Kong
Innovative Users Group) 下的单一码计划工作小组 (HKIUG Working Group on Unicode Project) 负责。 小组成员馆的代表为:
林纪达先生 ( 香港科技大学 )
黄秉杰先生 ( 香港城市大学 )
陈伟明先生 ( 香港大学 )
何以业 ( 香港中文大学 )
• 以下的报告内容取材自黄秉杰先生与我在 2003 年 12 月第4 届 Hong Kong Innovative Users Group Meeting 中的报告http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
3
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
報告梗概1.背景2.难题3.目标与方法4.工序5.对 Innovatives 的要求6.尚未解决的问题7.用户注意事项8.将来
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
4
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
1. 背景 汉字编码字符集多种字符集支援中日韩字 (CJK)
资料来源 :
林纪达 , “Overview of Chinese Character Encoding”, http://www.lib.cuhk.edu.hk/seminar/unicode/kt_lam_files/frame.htm
字符集名称 (character sets) 流行范围GB ( 国标 ) 中国BIG5 ( 大五码 ) 香港,台湾等地CCCII (Chinese Character Code for Information Interchange 中文信息交换码 )
图书馆
EACC (East Asian Character Code 东亚字码 )
美国国会图书馆字码标准 (MARC 21 standard) http://www.loc.gov/marc/specifications/specchareacc.html
Unicode ( 单一码 ) 电脑操作系统广泛采用, e.g. : Windows 2000, XP
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
5
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
1. 背景 字符集支援范围
字符数 码点 版本发布 支援繁简
连结特质
BIG5 13,053 14,758 1984 繁体 无
GB 18030
27,000 1.6 百万 2000 繁简 无
CCCII 75,684 830,584 1980 繁简 有
EACC 15,728 830,584 1983 繁简 有
Unicode
82,270 1.1 百万 2000 (v. 3)
繁简 无
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
6
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
1. 背景 ( 代 ) 码点 (code point)
同一个字形,在不同字符集会使用不同的码点
字符集 [ 余 ] 的码点
备考
BIG5 A745
GB 18030
5164
CCCII 213131276076 [ 餘 ] 216076 後 4 碼連結 :
余杭 <-> 餘杭EACC 276076 [ 餘 ] 216076 後 4 碼連結 :
余杭 <-> 餘杭Unicode 4F59
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
7
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
1. 背景 内存代码 (internal code)
• Innopac 以 EACC/CCCII 形式存储 CJK 字符
• Innopac 内存代码不是 Unicode100 1 余秋雨
100 1 {276076}{214f29}{215f51}
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
8
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
1. 背景 对应表 (mapping table)
• Innopac 用对应表把内存代码在客户端与系统之间往来转换
接口 ( 界面 ) 客户端编码 Innopac 内存代码
Telnet BIG5
WebPAC BIG5
BIG5 ( 大五码 ) EACC/CCCII
Millenium
WebPAC UTF-8
UTF-8 ( 单一码 ) EACC/CCCII
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
9
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
2. 难题 ( 一 ) 复数对应难题 1• UTF-8 对应表 (diac.utf8) 中 , 有多个内存代码对应同一个客户端编
码• 查询用的代码不一定是所期望的代码• 对应次序各馆不同, Z39.50 查找结果不定
UTF-8 表中 [ 台 ] 的复数变换EACC - 内存代码 Unicode -- 客户端编
码字义
283b7d 53F0 [ 檯 ] 的简体27605d 53F0 [ 颱 ] 的简体213538 53F0 [ 台 ] 本身是正字27542b 53F0 [ 臺 ] 的简体
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
10
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
2. 难题 ( 二 )EACC 与 CCCII 重叠
难题 2• EACC 与 CCCII 用码不同, 各馆内存不一,资料交换带来麻烦。
EACC/CCCII BIG5 UTF-8 备考
余 213131 (CCCII) A745 4F59 独立代码,不与 [ 餘 ] 216076 连结
276076 (EACC) A745 4F59 与 [ 餘 ] 216076 连结
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
11
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
2. 难题 ( 三 ) 错误与缺漏
难题 3 UTF8 (Release 2002 Phrase 3) 中有小毛病
错误• 27615F <> U+53CB [ 友 ]• 该对应 U+53D1 [ 发 ]
缺漏• 缺 213F30 <> U+3007 [ 〇 ]
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
12
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
2. 难题 ( 四 ) 选取不一致
难题 4
BIG5 和 UTF-8 产生的复数对应不一致,香港 Innovative 用户协会决定进行此单一码计划:
• BIG5 客户端 对应表选前一个对应码• UTF8 客户端 对应表选后头一个对应码
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
13
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
2. 难题 ( 四 ) 选取不一致 ( 续 )
[ 才 ] 的对应 BIG5 (WebPAC 或 Telnet) 对应表选前一个对应码
内存 BIG5
213f7b A47E BIG5 选前一个28736d A47E
UTF-8 (WebPAC 或 Millennium) 对应表选后一个对应码
内存 UTF-8
213f7b 624D
28736d 624D UTF-8 选后一个
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
14
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
3. 目标与方法 .
香港中文大学于 2003 年 7 月举行了讨论会 : http://www.lib.cuhk.edu.hk/seminar/unicode/
单一码计划工作小组 (HKIUG Working Group on Unicode Project) 亦于同年 7 月成立
目标1. 解决 BIG5 和 UTF-8 选取不一致的难题2. 决定对应表中的那些应是 ‘一对一’ 或是 ‘多对
一’3. 决定对应表 应否只用 ‘纯粹 EACC’ 或是
‘ EACC+CCCII’
4. 清除错误与缺漏5. 为将来‘以单一码为内存的资料库’做好准备
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
15
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
3. 目标与方法 (续 )
单一码计划工作小组研究后提出如下方案: 不再修订 BIG5 对应表 (因为 : 字符集字量少 ; 只支援
繁体字 ; 复数对应太多… . 等等 ) 建议重订一张新的 UTF-8 对应表 (diac.utf8)
EACC<>Unicode 以美国国会图书馆 MARC 21 为标准 尾 4 码相同者,容许复数对应;尾 4 码不同者,需决
定优先选取者;例: [ 台 ] (见 2. 难题 1) EACC 与 CCCII 重叠时,删除 CCCII 将馆内以该 CCCII 为内码的资料转换为对应的 EACC 对应表需包括 ‘纯粹 CCCII’ 以照顾不常用字
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
16
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
4. 工序 建成 diac.utf8.hkiug
• 以下部分直接摘用黄秉杰先生在 2003 年12 月第 4 届 Hong Kong Innovative Users Group Meeting 报告内的 Procedures 部分参见:
http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt
ProceduresProcedures
diac.utf8.hkiug
created diac.utf8.hkiug
diac.utf8
LC EACC
22717EACC/CCCII
Subtracted 66 Substitutes for Missing (U+3013)
15673EACC
7044 pureCCCII
+
• Remapped 287 PUA• Selected preferences in
multi-mapping linked and unlinked cases
• Corrected LC mappings• prepared list for CCCII to
EACC data conversionSubtracted 955 with
EACC equivalent
15739 EACC merged
7999 CCCII extracted
ProceduresProcedures source from LC• Merged tables from LC's EACC to UCS/Unicode Mappings
http://www.loc.gov/marc/specifications/specchareacc.html
Procedures Procedures
• Included pure CCCII from UTF-8 table (Rel 2002 Phase 3)
CCCII with no EACC equivalents (pure CCCII)
e.g.
217455 坓22483E 洣
7,044 Added to new table
CCCII with EACC equivalents
e.g.
213131 (CCCII) 余276076 (EACC) 余
955 Excluded from new table.
Sent to III for data conversion
source from diac.utf8
ProceduresProcedures re-mapped PUA
• Re-mapped 297 Private User Area (PUA) to suggested alternates
ProceduresProcedures
• Selected preference in multiple mapping EACC
Multiple mapping
Example # of cases
Enhanced indexing?
Labeled as Preference
Linked
same lower order bytes
4B3178 倩213178 倩
160
(320 char)
Yes "multi-mapping linked"
not matter
Unlinked
different lower order bytes
283B7D 台27605D 台213538 台27542B 台
49
(108 char)
No "multi-mapping unlinked"
selected case by case (based on HKUST study on word frequency & meaning)
selected preference
ProceduresProcedures
Linked cases: HKIUG preference indicated
selected preference (cont)
• Selected preference in EACC multiple mapping linked
Procedures Procedures
Unlinked cases: HKIUG preference indicated
selected preference (cont)
• Selected preference in EACC multiple mapping unlinked
Procedures Procedures
• Updated LC mappings Referenced from other sources
UnihanOCLCUSMARC Character Set for Chinese, Japanese, Korean (printed)
Examples:
273C67 LC mapped to U+E9D8
Remapped to U+5E72 (干 )
4B3C2b LC mapped to U+E9C7
Remapped to U+67C3 (柃 )
updated LC mapping
ProceduresProcedures
CCCII with EACC Equivalents- for data conversion
CCCII EACC
list for conversion
• Prepared list for data conversion
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
26
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
5. 对 Innovatives 的要求 .• 交给 Innovatives 的 付项
1. diac.utf8.hkiug – 是 HKIUG 设定的 EACC/CCCII<>UTF-8 对应表
EACC 15,673
纯粹 CCCII 7,044
合共 22,717
2. hasEACC.txt – CCCII 重叠 EACC 表 (955)
3. 单一码计划工作小组的报告
• Innovatives 可做的工作 (IUG CN 可参照实行 )1. 为各馆的 Innopac 安装 diac.utf8.hkiug
2. 依照 hasEACC.txt 所示 , 把图书馆资料库内的 CCCII 转换成对应的 EACC ( 各馆可自行转换 )
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
27
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
6. 尚未解决的问题 LC 的错误
• 美国国会图书馆 (LC) MARC 21 标准中有一个错误 : 23355C
LC MARC21 标准 23355C <> U+86C3
[蛃 ]
USMARC character set for Chinese, Japanese, Korean.Washington, D.C. : Library of Congress, 1986.
23355C [豣 ] U+8C63
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
28
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
7. 用户注意事项 复数对应选字
• 复数对应 : [ 历 ] U+5386
• 请参考香港科技大学的复数对应选择表 : lc-multi-eacc.xls
歷 21462A
历 27462A
设定为优先对应歷的简体
274349
设定为非优先对应曆的简体
曆 214349
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
29
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
7. 用户注意事项 复数对应选字 (续1)
• 数据正确性书名 : 历法… 内存代码 备考 数据
正确 ?
以字符输入 : 历 27462A 与 [歷 ] 21462A 连结索引
错误
若以代码输入 : 274349
274349 与 [曆 ] 214349 连结索引
正確
* 可用附加追寻项,以字符输入:历
27462A 与 [歷 ] 21462A 连结索引
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
30
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
7. 用户注意事项 复数对应选字 (续2)
• Millenium editor 暂依 UTF-8 对应表在储存目录时修改内码。这会使数据不正确。
• 此为 Millennium 的软件缺点,由于目录从 server 交到 client ,在 client 重存时,内存代码会依对应表的优先对应的规定来改码。
• 如果只是修改 item, checkin, order, global update 等,由于不会在 client 重存 bib 目录,内存代码不会改变。
内存代码 数据正确 ?
Telnet 以代码输入 : 274349 {274349} 正确Millennium 中 , 不做任何修改,储存后 , 在 Telnet 中检看 :
{27462A} 错误
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
31
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
7. 用户注意事项 复数对应选字 (续3)
• Innovatives 打算在 Sliver version 中修正软件缺点。非优先对应的内存代码,会在 Millenium editor 以字符显示,而且不会在重存目录时修改内码。
内存代码 数据正确 ?
Telnet 以代码输入 : 274349 {274349}
Millennium 中 , 不作任何修改,储存后还保留並显示为 :
{274349} 正确
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
32
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
7. 用户注意事项 复数对应选字 (续4)
• 暂时可用 Anzio-Win 作 Telnet client1. 设定可参考香港中文大学图书馆网页 :
http://www.lib.cuhk.edu.hk/cataw/Internet/System_DIY.pdf
2. 上述网页提到的 CCCII.UNI , 香港中文大学愿意提供。
3. 但 ANZIO-Win 有缺点:CCCII.UNI 为 1 EACC <> 1 Unicode. 非优
先对应者,一概不用
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
33
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
7. 用户注意事项 复数对应选字 (续5)
EACC diac.utf8.hkiug 资料
Webopac / Millennium 显示
Anzio-Win 显示
备考
214857 非优先对应
漢 汉 由于 214857 为非优先对应,故在 CCCII.UNI 中无效, Anzio-Win 会找近似值274857 [ 汉 ] 为显示字符
4b4857 优先对应
漢 漢 漢
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
34
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
8. 将来 ( 一 ) 提升混合索引能力
• CJK 字符中,繁简体和异体字甚多,不能光靠尾 4 码相同来连结索引。 Innovatives 将以 Tool-database 形式达到混合索引的功能。
• 香港科技大学的林纪达先生已准备向 Innovatives 提供资料,供 Tool-database 作混合索引之用:
213538 台 |21542B 臺 |27542B 台 |21605D 颱 |27605D 台 |223B7D 檯 |283B7D 台 |3A3B7D 枱 |#U+53F0
• 输入以上任何一个字符,均可把载有以上代码的目录全部找出来。
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
35
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
8. 将来 ( 二 ) 跟 EACC/CCCII 为内存的资料库进行交换
• 往后数年,图书馆界 (北美和 OCLC 等 ) 仍然以 EACC/CCCII 为内存代码及作为交换码。 Innopac 用户馆与此等以 EACC/CCCII 为内存的资料库进行交换时,不会出问题。
• 将来如果 Innopac 改为纯以 Unicode 为内存代码,与此等 EACC/CCCII 为内存代码的资料库进行交换时,会输出错码:
Innopac 纯 Unicode 内存代码 输出 EACC/CCCII
历 U+5386
(例如 :历法 )
以 27462A 输出 (歷的简体 )
不以 274349 输出 (曆的简体 )
Innopac <香港 用户协会重订 单 CCCII/EACC >. 2一码与 对应表
004 11 9 , 年 月 日 何以業
36
U
niv
ers
ity L
ibra
ry S
yst
em
, C
UH
K
香港中文大學 大學圖書館系統
谢谢聆听!敬希指正!