鈔本・木版本からの OCR テキストファイルの整理 …1...

10
1 鈔本・木版本からの OCR テキストファイルの整理と加工(續) 笠井 直美 拙稿「鈔本・木版本からの OCR テキストファイルの整理と加工」 1 において述べたように、 白話文學研究においては、一般の鑑賞に供される校訂された電子テキストのみでなく、木 版本や鈔本を基にしたできるだけ「生」のデータが殘されている電子テキストも必要であ るが、これが缺如している現狀に鑑み、この科研プロジェクトでは一部の白話小・戲曲 作品につき、試行的に「木版本や鈔本を基にした、できるだけ『生』に近いデータを殘し た電子テキスト」の作成・公開を行った。本プロジェクト(2011-2013 年度科研費研究「中 國近世白話文學コーパスへの文學理論研究に資する情報付與の基礎的研究」)でも、こうし たテキストの必要性は低下していないこと、情報付與を行う場合でもその基礎となる信賴 できるプレインテキストの作成という觀點から、引き續きこの作業を行い、また、一部の テキストにつき簡單な情報付與を試行した 2 1.朱有燉雜劇 OCR テキストファイルの整理・加工 明の皇族、朱有燉(周憲王:1379-1439)作の雜劇本は、周藩刊本(その多くは作者自 身による宣德年間(1426-1435)の「引」が附されている)が現存しており、中國國家圖書 館(舊北京圖書館)、中央研究院傅斯年圖書館、京都大學等に收藏されている。しかし、京 都大學藏の三種 3 を除き影印本が刊行されておらず、また、マイクロフィルム等の複製も部 分的にしか許可されていない。そこでまず、戲曲理論家でもあり實作者でもあった1884-1939)が、蒐集した周藩本に基づき校訂排印した『奢摩他室曲叢第二集』所收の作 4 OCR 外注で電子テキスト化し、その後周藩本の收藏館で(マイクロフィルムまたは畫 像ファイルと)目睹對校して修正し、「周藩本原貌版」を作成した。 各バージョンの槪要及び作業手順は以下の通り。 1-1.梅編『奢摩他室曲叢第二集』(商務印書館 1928 年排印)版 底本は梅編『奢摩他室曲叢第二集』(商務印書館 1928 年排印)「誠齋樂府二十四種」所 收本。目錄に「據宣德憲藩本校印」とあり、梅が蒐集した周藩本に基づき校訂排印した 排印本。 1 笠井直美「鈔本・木版本からの OCR テキストファイルの整理と加工」『中國近世白話文學 の電子化狀況及びコーパスの共有基盤の構築に關する基礎的研究(笠井直美『科學研究費 補助金研究成果報告書・中國近世白話文學の電子化狀況及びコーパスの共有基盤の構築に 關する基礎的研究』2008 3 月、pp.63-742 本プロジェクトの成果物も、ウェブサイト「中國白話文學の電子化情報」 http://dicom3.gsid.nagoya-u.ac.jp/bhwiki/ で公開している。 3 『周憲王樂府三種』(京都大學漢籍善本叢書第十五卷、同朋舍出版、1981 年)で影印を見 ることができる。 4 排印の底本となった梅舊藏本は現在、中國國家圖書館に收藏されている。

Transcript of 鈔本・木版本からの OCR テキストファイルの整理 …1...

  • 1

    鈔本・木版本からの OCR テキストファイルの整理と加工(續) 笠井 直美

    拙稿「鈔本・木版本からの OCR テキストファイルの整理と加工」1において述べたように、

    白話文學研究においては、一般の鑑賞に供される校訂された電子テキストのみでなく、木

    版本や鈔本を基にしたできるだけ「生」のデータが殘されている電子テキストも必要であ

    るが、これが缺如している現狀に鑑み、この科研プロジェクトでは一部の白話小說・戲曲

    作品につき、試行的に「木版本や鈔本を基にした、できるだけ『生』に近いデータを殘し

    た電子テキスト」の作成・公開を行った。本プロジェクト(2011-2013 年度科研費研究「中國近世白話文學コーパスへの文學理論研究に資する情報付與の基礎的研究」)でも、こうし

    たテキストの必要性は低下していないこと、情報付與を行う場合でもその基礎となる信賴

    できるプレインテキストの作成という觀點から、引き續きこの作業を行い、また、一部の

    テキストにつき簡單な情報付與を試行した2。 1.朱有燉雜劇 OCR テキストファイルの整理・加工 明の皇族、朱有燉(周憲王:1379-1439)作の雜劇腳本は、周藩刊本(その多くは作者自

    身による宣德年間(1426-1435)の「引」が附されている)が現存しており、中國國家圖書館(舊北京圖書館)、中央研究院傅斯年圖書館、京都大學等に收藏されている。しかし、京

    都大學藏の三種3を除き影印本が刊行されておらず、また、マイクロフィルム等の複製も部

    分的にしか許可されていない。そこでまず、戲曲理論家でもあり實作者でもあった吳梅

    (1884-1939)が、蒐集した周藩本に基づき校訂排印した『奢摩他室曲叢第二集』所收の作品4を OCR 外注で電子テキスト化し、その後周藩本の收藏館で(マイクロフィルムまたは畫

    像ファイルと)目睹對校して修正し、「周藩本原貌版」を作成した。 各バージョンの槪要及び作業手順は以下の通り。 1-1.吳梅編『奢摩他室曲叢第二集』(商務印書館 1928 年排印)版 底本は吳梅編『奢摩他室曲叢第二集』(商務印書館 1928 年排印)「誠齋樂府二十四種」所

    收本。目錄に「據宣德憲藩本校印」とあり、吳梅が蒐集した周藩本に基づき校訂排印した

    排印本。 1 笠井直美「鈔本・木版本からの OCR テキストファイルの整理と加工」『中國近世白話文學の電子化狀況及びコーパスの共有基盤の構築に關する基礎的研究(笠井直美『科學研究費

    補助金研究成果報告書・中國近世白話文學の電子化狀況及びコーパスの共有基盤の構築に

    關する基礎的研究』2008 年 3 月、pp.63-74) 2 本プロジェクトの成果物も、ウェブサイト「中國白話文學の電子化情報」 http://dicom3.gsid.nagoya-u.ac.jp/bhwiki/ で公開している。 3 『周憲王樂府三種』(京都大學漢籍善本叢書第十五卷、同朋舍出版、1981 年)で影印を見ることができる。 4 排印の底本となった吳梅舊藏本は現在、中國國家圖書館に收藏されている。

  • 2

    1-1-1.吳梅排印 OCR 版:創新力博公司から納品された狀態。UTF-16LE テキストファイル ・底本で〔 〕で圍まれている部分(曲牌及び科)は【 】で、やや小さい字になってい

    る箇所(白及び襯字)は( )で圍んである。 ・文中の改行箇所は、そのまま再現されている。 ・OCR オペレーターがどの文字と同定すべきか判斷できなかった文字については、畫像フ

    ァイルを別途作成し、テキストファイル側ではその畫像の埋め込み箇所に形式のタグを入れ、關聯づけしてある。

    ・Unicode における、以下の文字ブロックが使用されている。 * CJK 統合漢字(U+4E00~U+9FFF) * CJK 統合漢字擴張 A 集合(U+3400~U+4DBF) * 私用領域(U+E000~U+F8FF):U+E81A、U+E824 が使用されている。これは電子版『四

    部叢刊』『四庫全書』等で使用されている HT_CJK+フォントで表示すれば、底本とほぼ同じグリフとなる(U+E81A は「㑳」と、U+E824 は「㥮」と、ほぼ同じグリフ)。

    * その他:記號"○"(U+25CB)、"。"(U+3002)、"【 】"、"( )"(半角括弧)、改行コード。

    1-1-2.吳梅排印版:吳梅排印 OCR 版を UTF-8 テキストファイルに變換し、各作品ごとに分割し、"_wm.txt"のファイル名をつけたほか、以下の修正・加工を行ったもの ・OCR 版で【 】で圍まれている部分のうち、曲牌名は原則として【 】のままとするが、

    底本では一字下げで表示している、套曲に入らない曲の曲牌は〖 〗に變更し、科は〔 〕

    に變更する。

    ・OCR 版で( )で圍まれている文字のうち、襯字はそのままとするが、科白の部分は( )

    をはずす。吳梅排印本で襯字となっている(活字がやや小さくなっている)が OCR 版で

    ( )で圍まれていない部分があれば、( )で圍む。 ・改行は、題・詩・齊言句等の改行をそのまま殘すほかは削除する。 ・できるだけ OCR の際の文字の誤りを正す。 ・OCR 版でタグで表示された箇所のうち、スキャンに使用

    したのと異なる『奢摩他室曲叢第二集』本によって修正が可能なものは修正し、CJK 統

    合漢字擴張 C 集合までの範圍に相當する文字(グリフ)が見つからなかった箇所(これ

    は周藩本の字體を忠實に再現した活字であった)は、"〓"(U+3013)に置換する。 ・OCR 版で「私用領域」を利用して表示されている文字(外字)は、先行する科研費プロ

    ジェクト「中國近世白話文學の電子化狀況及びコーパスの共有基盤の構築に關する基礎

    的研究」で作成した「HT_CJK+フォントの Private Use Area で表現されているグリフとUnicode (主として CJK Unified Ideographs Extension B)で定義されている文字との對應

  • 3

    表」( http://dicom3.gsid.nagoya-u.ac.jp/bhwiki/ の「異體字」のページよりダウンロード可能)を組み込んだ簡單な perl script を使用して、字形の近い文字(CJK統合漢字擴張 B・擴張 A など、Unicode で定義された文字)に置換する。

    ・CJK 統合漢字內の異體字については、なるべく底本の字體を再現するが、OCR 版で底本

    の同じ活字に異なるコードポイントの字が選ばれている場合などはより一般的なものに

    統一する(ex. 吿・尙・䖍・夀・剎→告・尚・虔・壽・刹)。 1-2.周藩本原貌版 吳梅排印版を基に、周藩本の收藏館にて周藩本(マイクロフィルムまたは畫像ファイル)

    と目睹對校し、できるだけ周藩本に近くなるよう修正したもの(UTF-8)。今回公開分については、主として中央研究院傅斯年圖書館藏本(圖書館の PC で閱覽に供される畫像ファイ

    ル)を利用して修正を行った。以下の手順で變更を行っている。 ・周藩本の改行箇所で改行を行う。また、半葉ごとに空行と、番號(第一葉表であれば、"01a"、

    第二葉裏であれば"02b"とする方式。「引」があるものについては、引の第一葉表を"#01a"、第二葉裏であれば"#02b"とし、正文第一葉表は"01a"とする)を插入。

    ・原本には曲牌(大字白拔き)、曲辭(大)、襯字(中)、賓白(中)、科(小)の別がある。

    それぞれにつき、以下のようになるよう手作業で修正する。『奢摩他室曲叢』本の襯字の

    判定(及び斷句)は、周藩本とは異なる部分がままあり(吳梅は自身の理論によって襯

    字の判定・斷句を行ったと考えられる)、それが妥當と思われる部分も多いが、周藩本が

    稀覯書であることに鑑み、この周藩原貌版では原本をできるだけ忠實に再現するよう努

    める。 曲牌(大白拔き):【 】で圍む(『奢摩他室曲叢』本で一字下げで表示している、套曲に

    入らない曲の曲牌(吳梅排印版ファイルでは〖 〗で表示)は、周藩本では特にほか

    の曲との區別をつけていないため、一律に【 】を用いる))。 曲辭(大):特にマークアップしない。 襯字(中):( )で圍む。 賓白(中):特にマークアップしない。 科(小):〔 〕で圍む。

    ・斷句も含め、できるだけ原本に近くなるよう修正する。原本が判讀不能な文字は"?"(全角)とし、不明確で判讀に自信が持てない文字は候補の文字の次に"?"(半角)を付す。

    ・原本にある文字で、CJK 統合漢字擴張 C 集合までの範圍に、相當する文字(グリフ)が

    見つからなかった箇所は、やむを得ず"〓"とする。これらを、ISO/IEC 10646-1:2000 の IDS(Ideographic Description Sequence) 形式で示せば、以下の通りである5。

    5例えば、"⿰扌鮑"であれば「てへんに鮑」一字を示す。http://kanji.zinbun.kyoto-u.ac.jp/projects/chise/ids/ を參照。

  • 4

    「李亞仙花酒曲江池」 18a7 行目:⿰口彡 利用目的と方法によっては、テキストにこちらを埋め込む選擇肢も考えられる。 2.水滸傳(貫華堂本)OCR テキストファイルの整理・加工・情報付與 底本は『第五才子書施耐庵水滸傳 第一册~第八册』(中華書局、1975 年。封面に「金閶

    貫華堂古本/葉瑤池梓行」とあり、所謂貫華堂本の影印本)である。 2-1.OCR 版 2-1-1.OCR 版 1:創新力博公司から納品された狀態。UTF-16LE テキストファイル(shuihu_ght_u16.zip)

    上記底本の楔子~第七十回(卷五~卷七十五)6を、凱希メディアサービスを通じて創新

    力博公司に OCR 外注したもの。槪要は以下の通り。 ・底本の半葉を1ファイルとしたテキストファイル(Unicode UTF-16LE)の集合。 ・正文のほか、金聖歎による批評もテキスト化するよう依賴した。各卷冒頭の總評は底本

    で二字下げとなっているのをそのまま反映して全角二字下げ、夾批(小字雙行の批評)

    は半角括弧 "( )" で圍い、眉批は"【 】"で圍うよう依賴した。 ・正文の改行箇所、空白もそのまま再現するよう依賴した。 ・底本で缺けてはいないが OCR オペレーターがどの文字と同定すべきか判斷できなかった

    文字については、槪ね"□"(U+25A1)で表されている。 ・Unicode における、以下の文字ブロックが使用されている。

    * CJK 統合漢字(U+4E00~U+9FFF) * CJK 統合漢字擴張 A 集合(U+3400~U+4DBF) * CJK 統合漢字擴張 B 集合(U+20000~U+2A6DF) * 私用領域(U+E000~U+F8FF):U+E850、U+EC41 が使用されている。これは電子版『四部叢刊』『四庫全書』等で使用されている HT_CJK+フォントで表示すれば底本とほぼ同じグリフとなる(U+E850 であれば「䦟」とほぼ同じグリフ、U+EC41 は校訂すれば「棗」となるべきところだが、「束」字が縱に二つ重なった形のグリフ)。

    * その他:夾批に用いられている"○"(U+25CB)、"□"(U+25A1)、全角空白(U+3000)、改行コード。

    2-1-2.OCR 版 2:OCR 版 1 に以下の變更を行ったもの ・エンコーディングスキームを UTF-8(BOM 無し)に變更した。

    6 卷一~四(序一、序二、序三、宋史綱、宋史目、讀第五才子書法を含む)は、既に井上浩一氏(東北高度教養教育・學生支援機構非常勤講師)による電子テキストが公開されてい

    る(http://www003.upp.so-net.ne.jp/haoyi/guanhua/jst/text.htm)。

  • 5

    ・1 回 1 ファイルになるようファイルを結合(半葉每に空行を挾んである)した。楔子は

    00.txt とし、第一回が 01.txt、以下、順に第七十回が 70.txt となる。また、00.txt~70.txt を連結した shuihu_ght.txt も用意した。

    ・"□"(U+25A1。「OCR オペレーターがどの文字と同定すべきか判斷できなかった」と推定される文字)は一律に"〓"(U+3013)に置換した。

    ・全角空白のうち、底本では空白でない一箇所については削除した。 ・私用領域の文字 U+E850 を、ほぼ同じグリフである"䦟"(U+499F)に置換し、U+EC41

    は、CJK 統合漢字擴張 C 集合までの範圍にほぼ同じグリフが見つからなかったので、"棗"(U+68D7)に置換した。

    2-2.井上浩一氏(東北大學高度教養教育・學生支援機構非常勤講師)校訂版 2-2-1.井上浩一氏校訂版(html) 上記 OCR 版 1 をもとに井上浩一氏が校訂を行い html 化したものを、氏の同意を得て本サ

    イトよりリンクを張った。本サイトのコンテンツではない點に留意されたい。 異體字等の扱い等については、槪ね以下のようになっている。 ・異體字を含め、原文にできるだけ近い字體を使用。 ・Unicode における、以下のブロックの文字が使用されている。

    * CJK 統合漢字(U+4E00~U+9FFF) * CJK 統合漢字擴張 A 集合(U+3400~U+4DBF):「㫖」(U+3ad6)を使用。 * CJK 互換漢字(U+3400~U+4DBF):「神」(U+fa19)、「敏」(U+fa41)等、所謂舊漢字

    を示すために使用。 * その他:夾批に用いられている"○"(U+25CB)、全角空白(U+3000)、句點"。"(U+3001)、讀點"、"(U+3002)、中黑"・"(U+30fb)、改行コード。

    ・半葉ごとの空行、行末の改行は削除し、原本の旁點・圈點を參考に標點符號を加え、各

    卷冒頭の總評の空白を削除してある。 2-2-2.井上浩一氏校訂版(txt) 上記井上浩一氏校訂版(html)を、笠井直美が氏の同意を得て、總評を【 】、夾批を( )、

    眉批を[ ]で圍んだテキストファイルの形に變換したもの。 3.井上浩一氏校訂版への情報付與 上記井上浩一氏校訂版(txt)をもとに、笠井直美がメタデータ、總評、夾批、眉批など

    についての最低限のマークアップを試行した。以下、その槪要を述べる。 3-1.井上浩一氏校訂版(xml(1)) 3-1-1.XML Schema:shuihu_ght.xsd

  • 6

    3-1-1-1.メタデータに關する情報 暫定的に以下の情報を盛り込んだ。將來的にほかの作品に情報付與する場合も考慮し、

    底本にはない項目も XML Schema の方には書き込んである(『水滸傳(貫華堂本)』ファイルで『水滸傳(貫華堂本)』ファイルで未使用の要素については#で示す)。 白話文學の場合、原本の作者や作品成立の時期、底本の刊行年などの推定が困難なことが

    多い。今回は、テキスト化の基にした影印本と、影印本の印面から讀み取れる影印本底本

    に關する情報を分け、また、影印本底本の具體的な記述も併記することで、單一の「出版

    年」を無理に決めようとすることからくる弊害を避けることを試みた。 ・テキスト化の基にした影印本:圖書館の目錄に記される書誌事項を示す。

    * 書籍タイトル * 出版者 * 影印本出版年:奧付に基づいて西曆で記す。 # 影印本出版年に關わる記述:奧付無し、不明で序のみ、などの場合があるので、必要に應じて文字列型のこの項目を設け、その狀況を記す。

    # 影印本出版年(推定):奧付無し、不明で序のみ、などの場合から推定した出版年

    ・上記影印本の底本に關する情報:上記影印本の印面から讀み取れる、影印本底本に關する情報を示す。 * 卷端題 * 封面(內封)の文言:文言全體をここに記錄する。必要に應じて以下の子要素を設ける。 # 封面に記された年・年號等の文言:文字列型 # 封面に記された年:に基づいて年が特定できる場合。西曆換算。 # が干支のみ・年號のみ等の記述の場合の推定年 * 封面に記された出版者

    * 序:底本で出現する順に屬性 id番號を振る。必要に應じて以下の子要素を設ける。 * 撰者:僞託の場合も含め、序に書かれている撰者名をそのまま記す。必要に應じ、子要素として、姓、名、字、號を設ける。

    * 序に記された年・年號等の文言:文字列型。原本の表現をそのまま採用する。

    * 序に記された年:に基づいて年が特定できる場合。西曆換算。 # が干支のみ・年號のみ等の記述の場合の推定年 # 序に記された出版者

    # 刊記:封面(內封)以外の刊記につき、屬性に出現場所(卷頭、卷末、目錄末等)を記し、刊記の文言を記す。必要に應じて子要素として以下の要素を設ける。 # 刊記に記された年・年號等の文言:文字列型

  • 7

    # 刊記に記された年:に基づいて年が特定できる場合。西曆換算。 # が干支のみ・年號のみ等の記述の場合の推定年 # 刊記に記された出版者

    ・校訂者情報 ・このテキスト(ファイル)の卷數:整數型とする ・このテキスト(ファイル)の回數:整數型とする。「楔子」は"0"とする。 3-1-1-2.正文に關する情報 卷端題、開場詞、回數(文字列型。「楔子」はそのまま"楔

    子"とする)、回目、正文、を設けた。 3-1-1-3.批評に關する情報 各回首總評、夾批、眉批、を設けた。

    なお、この XML Schema(shuihu_ght.xsd)と、XML ファイル(00.xml)は、以下の Vaidator

    で有効となることを確認した。 CoreFiling XML Schema Validator http://www.corefiling.com/opensource/schemaValidate.html 3-1-2.xml ファイルをブラウザで見やすくするための css ファイル例: shuihu_ght.css

    上記スキーマ(shuihu_ght.xsd)に基づいてタグ付けされた xml

    ファイルと、この css ファイル

    を同じフォルダ(ディレクトリ)

    に置き、xml ファイルをウェブ

    ブラウザで開くと、比較的見や

    すく表示できる(圖1)。フォ

    ントの種類、大きさ、色など見

    榮えは css ファイルを變更する

    ことで調整できる。

    3-1-3.批評のみを表示させる XSLT 文書の例:shuihu_ght1.xsl 上記スキーマ(shuihu_ght.xsd)に基づいてタグ付けされた xml ファイルに對し、

    shuihu_ght1.xsl を用いて變換を行うと(圖2)、批評部分のみを表示させることができる。shuihu_ght.css を用いてブラウザで表示すればより見やすくなる(圖3)。

    圖 1

  • 8

    圖 2

    圖 3

    圖 4

  • 9

    3-1-4.批評を非表示にさせる XSLT 文書の例:shuihu_ght2.xsl 上記スキーマ(shuihu_ght.xsd)に基づいてタグ付けされた xml ファイルに對し、

    shuihu_ght2.xsl を用いて變換を行うと(圖2)、原文(批評以外の部分)のみを表示させることができる。shuihu_ght.css を用いてブラウザで表示すればより見やすくなる(圖4)。 今回行った情報付與は、これだけではあまり意味の無いものであるが、同スキーマに基

    づくまとまった量の xml ファイルが整備できれば、批評部分のみを對象として檢索を行う

    (とともに、隨時正文を確認できる)システムを作って分析の役に立てるといった方向で

    活用可能と考えられる。 3-2.井上浩一氏校訂版(xml(2))

    上記井上浩一氏校訂版(xml(1))をもとに、笠井が原本の改行・半葉ごとの區切りを插入し、表示できるようにしたもの。 3-2-1.XML Schema:shuihu_ght_o.xsd マークアップした情報は槪ね xml(1)版と同じであるが、半葉ごとの區切りをと

    し、改行をブラウザで表示しやすくするため正文部分に要素

    を設けた。 また、XML Schema(shuihu_ght_o.xsd)と、XML ファイル(00o.xml)は、3-1-1前揭の Vaidator で有効となることを確認した。 3-2-2.原本の改行・半葉ごとの區切りを表示させる XSLT 文書と css ファイルの組み

    合わせ例:shuihu_ght_o.xsl 及び shuihu_ght_o.css 上 記 ス キ ー マ

    (shuihu_ght_o.xsd)に基づいてタグ付けされた xml フ

    ァ イ ル に 對 し 、

    shuihu_ght_o.xsl を用いて變換を行い、shuihu_ght_o.cssを用いてブラウザで表示す

    れば、原本の改行を保存し、

    半葉ごとに通し番號がつい

    た(例えば第 7 葉表の初め

    に#13 と表示される)形で見ることができる(圖5)。 なお、xml(2)版のファイルは、

    shuihu_ght.css を用いてブラウザで表示すれば、xml(1)版とほぼ同樣(改行・半葉ごとの區切

    圖 5

  • 10

    り無し)のみばえになる。

    4.OCR 外注テキストの精度 前揭拙稿において、OCR 精度について、業者からは錯誤率 0.03%以下という數字が示さ

    れていたがそこまでは達成されておらず、比較的良好な水滸傳(容與堂本)第 48 回をサン

    プルとしたケースで約 0.3%の錯誤率であったことを述べた。今回、底本の狀況がよく錯誤率が低いと期待できる水滸傳(貫華堂本)66~70 回(合計 26821 字)につき、ざっとチェ

    ックして見つかった明らかな誤りは合計 12 字で(丁寧に校訂すればもう少し多くの誤りが

    發見されるかもしれないが)、これを基に計算すると約 0.045%となる。底本の狀況が良ければかなり良い精度が期待できると言えそうである7。 本プロジェクトでのテキストファイル作成數はまだ少數にとどまっており、情報付與も試

    行的・初步的な性格のものであるが、XML の柔軟性・應用範圍の廣さは魅力であり、まと

    まった量を整備できれば有効に活用できると期待できる。さらに、研究目的に應じたほか

    の情報(品詞8・異體字・ディスコース情報など)と組み合わせていくことも今後の課題と

    なろう。

    7 もっとも、納品されたファイルの誤りの中には、底本第七十回第十六葉裏の「赤髮鬼」を「赤發鬼」に誤る、第六十七回第二十四葉表「撞起鐘來」を「撞起鍾來」に誤る、第六十

    八回第十四葉表「不敢輕出」を「不敢輕去」に誤る、第六十九回第四葉表「只是」を「只

    見」に誤る、など、OCR 時の誤りというよりは、既存のファイルを修正して作成した時の修正漏れのように見える箇所もある點は若干不審が殘る。 8 拙稿「中國近世白話小說テキストへの形態素解析システムの試用」(笠井直美『科学研究費補助金研究成果報告書・中國近世白話文學コーパスへの文學理論研究に資する情報付與

    の基礎的研究』2014 年 3 月)參照。

    img-321124704-0001img-321124759-0001