CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用)...

8
CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に 現れるコマンドは,全てご自分で試されることをお勧めします。なお,分析ソフト CLAN と Miyata-Aki データの入手方法については,第2節を参照してください。 1. 用語 CHILDES (Child Language Data Exchange System): プロジェクト名であり,書き起こしと分析 のシステム全体の名前でもあります。 CHAT (Codes for the Human Analysis of Transcripts): 書き起こしのフォーマット。CLAN で 分析をするためには,書き起こしが CHAT 形式に従っていなければなりません。 CLAN (Computerized Language Analysis): CHAT 形式で書かれた書き起こしを分析するための ソフトウェアです。 2. CHILDES のウェブサイト <http://childes.psy.cmu.edu> CLAN ソフトウェア(CHILDES ホームページ → The CLAN program) - CLAN は無料で,Windows 版も Mac 版もあります。 - CLAN を使うには,ユニコード(UNICODE)という規格のフォントが必要です。CHILDES プロジェクトでは,次のフォントを推奨しています。 Arial Unicode MS (単なる Arial とは異なります): Microsoft Office Professional や,Mac OS X 10.5 (Leopard) に標準添付されています。 Charis SIL: 以下のサイトから無料でダウンロードできます。 <http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=CharisSIL_download> データ - 書き起こしデータ(ZIP 形式で圧縮されています)をダウンロードするには, CHILDES ホー ムページから,Database → Downloadable Transcripts に行ってください。 - 約50の言語のほか,バイリンガルデータ・臨床(clinical)データ・物語(narrative)データ などが無料でダウンロードできます。 - 一部ののデータに関しては,音声やビデオもダウンロードできます。 日本語データ一覧(Database → Downloadable Transcripts → East Asian → Japanese) データベース 性別 年齢 録音頻度 方言 引用情報 備考 Hamasaki 2;2.3 - 3;4.22 2-3回/ 名古屋 Hamasaki, Naomi. (2002). The Timing Shift of Two-Year-Olds' Responses to Caretakers' Yes/No Questions. In: Shirai, Y., Kobayashi, H., Miyata, S., Nakamura, K., Ogura, T. & Sirai, H. (Eds.). Studies in Language Sciences (2) - Papers from the Second Annual Conference of the Japanese Society for Language Sciences. p.193-206. Ishii 0;6.1 - 3;8.16 4回/月 京都 Ishii, Takeo 1999, The JUN Corpus, unpublished. 音声・ビデオあり Miyata-Aki 1;5.7 - 3;0 4回/月 名古屋 Miyata, S. (1995). The Aki corpus Longitudinal speech data of a Japanese boy aged 1.6-2.12 -, Bulletin of Aichi Shukutoku Junior College, 34,183‒191. Miyata-Ryo 1;4.3 - 3;0 4回/月 名古屋 Miyata, S. (1992) Wh-Questions of the Third Kind: The Strange Use of Wa- Questions in Japanese Children, Bulletin of Aichi Shukutoku Junior College, 31, 151‒155 Miyata-Tai 1;5.20 - 3;1.29 4回/月 名古屋 Miyata, Susanne (2000). The TAI Corpus: Longitudinal Speech Data of a Japanese Boy aged 1;5.20 - 3;1.1 Bulletin of Shukutoku Junior College 39, 77-85. 音声あり Noji 0-7 ? 広島 Noji, Junya. (1973-77). Yooji no gengo seikatsu no jittai I -IV. Bunka Hyoron Shuppan. 1948の日記形式の 研究データ 2008年3月30日作成  野村 潤 (University of Hawai‘i at Mānoa) nomurajun at gmail dot com

Transcript of CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用)...

Page 1: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

CHILDESの基礎(日本語用)

このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に現れるコマンドは,全てご自分で試されることをお勧めします。なお,分析ソフト CLAN と Miyata-Aki データの入手方法については,第2節を参照してください。

1. 用語• CHILDES (Child Language Data Exchange System): プロジェクト名であり,書き起こしと分析

のシステム全体の名前でもあります。• CHAT (Codes for the Human Analysis of Transcripts): 書き起こしのフォーマット。CLAN で

分析をするためには,書き起こしが CHAT 形式に従っていなければなりません。• CLAN (Computerized Language Analysis): CHAT 形式で書かれた書き起こしを分析するための

ソフトウェアです。

2. CHILDES のウェブサイト <http://childes.psy.cmu.edu>• CLAN ソフトウェア(CHILDES ホームページ → The CLAN program)

- CLAN は無料で,Windows 版も Mac 版もあります。- CLAN を使うには,ユニコード(UNICODE)という規格のフォントが必要です。CHILDES

プロジェクトでは,次のフォントを推奨しています。‣ Arial Unicode MS (単なる Arial とは異なります): Microsoft Office Professional や,Mac OS X 10.5 (Leopard) に標準添付されています。

‣ Charis SIL: 以下のサイトから無料でダウンロードできます。<http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=CharisSIL_download>

• データ- 書き起こしデータ(ZIP 形式で圧縮されています)をダウンロードするには, CHILDES ホー

ムページから,Database → Downloadable Transcripts に行ってください。- 約50の言語のほか,バイリンガルデータ・臨床(clinical)データ・物語(narrative)データ

などが無料でダウンロードできます。- 一部ののデータに関しては,音声やビデオもダウンロードできます。

• 日本語データ一覧(Database → Downloadable Transcripts → East Asian → Japanese)データベース 性別 年齢 録音頻度 方言 引用情報 備考Hamasaki 男 2;2.3 -

3;4.222-3回/月

名古屋 Hamasaki, Naomi. (2002). The Timing Shift of Two-Year-Olds' Responses to Caretakers' Yes/No Questions. In: Shirai, Y., Kobayashi, H., Miyata, S., Nakamura, K., Ogura, T. & Sirai, H. (Eds.). Studies in Language Sciences (2) - Papers from the Second Annual Conference of the Japanese Society for Language Sciences. p.193-206.

Ishii 男 0;6.1 - 3;8.16

4回/月 京都 Ishii, Takeo 1999, The JUN Corpus, unpublished. 音声・ビデオあり

Miyata-Aki 男 1;5.7 - 3;0

4回/月 名古屋 Miyata, S. (1995). The Aki corpus ̶ Longitudinal speech data of a Japanese boy aged 1.6-2.12 -, Bulletin of Aichi Shukutoku Junior College, 34,183‒191.

Miyata-Ryo 男 1;4.3 - 3;0

4回/月 名古屋 Miyata, S. (1992) Wh-Questions of the Third Kind: The Strange Use of Wa-Questions in Japanese Children, Bulletin of Aichi Shukutoku Junior College, 31, 151‒155

Miyata-Tai 男 1;5.20 - 3;1.29

4回/月 名古屋 Miyata, Susanne (2000). The TAI Corpus: Longitudinal Speech Data of a Japanese Boy aged 1;5.20 - 3;1.1 Bulletin of Shukutoku Junior College 39, 77-85.

音声あり

Noji 男 0-7 ? 広島 Noji, Junya. (1973-77). Yooji no gengo seikatsu no jittai I -IV. Bunka Hyoron Shuppan.

1948の日記形式の研究データ

2008年3月30日作成  野村 潤 (University of Hawai‘i at Mānoa) nomurajun at gmail dot com

Page 2: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

• 引用義務- CHILDES を使用した研究を発表・出版する際には,次の文献を引用しなくてはなりません。

MacWhinney, Brian. (2000). The CHILDES project: Tools for analyzing talk. Third Edition. Mahwah, NJ: Lawrence Erlbaum Associates.

- また,データ(書き起こし)ををダウンロードして使用した場合には,関連文献を引用しなければなりません(日本語データに関しては上の表参照)。

• Info-CHILDES <http://groups.google.com/group/info-childes>- CHILDES ユーザ用のメーリングリスト(英語)です。

• J-CHAT ホームページ <http://www.cyber.sist.chukyo-u.ac.jp/JCHAT/index-j.html>- 日本語のマニュアルや,ワークショップ開催の情報,日本語のメーリングリストに関する情報

などが掲載されています。

3. CHAT 形式の書き起こし• 書き起こし例(Miyata-Aki, aki24.cha)

@Begin@Languages: jp@Participants: CHI Akifumi Target_Child, AMO Okaasan Mother,

SUZ Suuze Investigator, REE Ree Brother@ID: jp|Miyata-Aki|CHI|2;3.26||||Target_Child||@ID: jp|Miyata-Aki|AMO|||||Mother||@ID: jp|Miyata-Aki|SUZ|||||Investigator||@ID: jp|Miyata-Aki|REE|||||Brother||@Date: 22-JAN-1990@Warning: recorded time: 1:00:00@Comment: using chigau also for dame or iya@Situation: looking at video camera*CHI: nani ,, koko ?%cod: $Q%gpx: pointing at Suuze's camera%act: looks through the camera*AMO: baa@o .*AMO: Reechan mo haitteru .*CHI: Reechan &=laugh .@Situation: reading books*CHI: ku(ru)m:a .*CHI: koko ne # hoshisan .%gpx: pointing at stars*SUZ: hoshisan .*CHI: &kumaSan [: kumasan] .*SUZ: kumasan mo .*CHI: shup(patsu) [//] shuppatsu .*CHI: <kore ne> [/] kore ne ame !%sit: next picture shows many candies……@End

• ヘッダ- @ で始まる行はヘッダと呼ばれ,そのファイルに関する基本的な情報が記載されます。

‣ @Begin(必須)

CHILDESの基礎(日本語用) 2/8ページ

Page 3: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

‣ @Participants(必須):会話中の話者全てを,以下の形式で記述します。

‣ @Age of XXX: 対象児の年齢を「年;月.日」の形式で記述します。上の例のように,@ID

に含めても構いません。‣ @Sex of XXX: 対象児の性別を記述します(Male または Female)。@ID に含めても構いません。

‣ @End (必須)• インディペンデント・ティア

- 実際の発話は,アスタリスク(*)で始まるインディペンデント・ティアに以下の形式で記述します。

• ディペンデント・ティア- % で始まる行はディペンデント・ティアと呼ばれ,その直前のインディペンデント・ティア

(発話)に関する補足的な情報を記述します。- よく使われるディペンデント・ティア

‣ %mor: 形態論的情報‣ %pho: 音声的情報‣ %tim: タイムコード‣ %act: 行動‣ %com: コメント‣ %exp: 説明‣ %sit: 発話の状況

4. CLAN を使った分析• 設定

1) CLAN を立ち上げると,「Command」ウィンドウが開きます。2) 作業フォルダ(working directory)の設定:分析は,同じ場所に保存された複数の CHAT

ファイルに対して行うことが多いので,Working ボタンを押して,分析対象のファイルの存在するフォルダを指定します(分析対象が単一のファイルの場合でも,そのファイルの場所を指定します)。

3) 出力フォルダ(output folder) の設定:CLAN の分析結果は,通常は出力ウィンドウに表示されます。しかし,結果が膨大になると予想される場合などは,出力ウィンドウに表示するのではなく,ファイルとして「出力フォルダ」に保存することができます。 出力フォルダ

CHILDESの基礎(日本語用) 3/8ページ

Page 4: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

は,特に指定しなければ作業フォルダと同じですが,「Output」ボタンを押して,別の場所を指定することもできます。

4) 出力ウィンドウの表示範囲の設定:CLAN の初期設定では,出力ウィンドウには最新の 500 行しか表示されません(つまり,分析結果が 500 行以上になるときは,最初の方からカットされていきます)。この設定を変更するには,Edit → CLAN Options に行き,”Limit of lines in CLAN output” の値を変更します。10000 行程度に設定しておくとよいでしょう。なお,最近のパソコンでは,0(無制限)としても問題ありません。

• コマンドのしくみ- コマンドは,Command ウィンドウ内のテキスト・ボックスに入力します。- コマンドは,必ずコマンド名で始まり,ファイル名で終わります。 これら二つの要素は必須

です。例えば,freq aki20.cha

は,作業フォルダ内の「aki20.cha」というファイルに現れる単語の出現頻度を出力ウィンドウに表示します。

- しかし上記のコマンドは,対象児の発話も母親の発話も区別せずに分析を行います。そうではなく,対象児の発話だけを見たい場合など,出力を制限・調整するためには,「オプション」を使います。「オプション」は,+ または - で始まり,コマンド名とファイル名の間に置かれます。複数のオプションを使う場合,その順番は自由ですが,必ずコマンド名とファイル名の間に置かなければなりません。

- 上記のコマンドでは,2つのオプションが使われています。+t はティア(行)の指定です。+f は,結果を出力ウィンドウに表示するのではなく,ファイルとして出力フォルダに自動保存するオプションです。つまりこのコマンドは,aki20.cha の,*CHI 行に含まれる単語の出現頻度を算出し,それをファイルとして保存します。

• よく使われるコマンド- combo は,単語の組み合わせを検索します(いわゆるフレーズ検索やAND検索)。- kwal は,OR検索に使用します。なお,単一の語を検索する場合には,combo でも kwal で

も構いません。- freq は,対象ファイルに含まれる単語の一覧を,出現頻度とともに出力します。- mlu は,平均発話長(Mean Length of Utterance)を計算します。

• よく使われるオプション- +f は,結果を出力ウィンドウに表示する代わりに,ファイルとして出力フォルダに保存しま

す。- +o は主に freq コマンドで使用します。 freq の結果は普通アルファベット順に表示され

ますが, +o を使うと,出現頻度順(高頻度→低頻度)になります。- +u は,複数のファイルの分析結果を一つにまとめます。例えば,作業フォルダ内の全ての

CHAT ファイルに関して,単語の出現頻度を見たいときに使います。- +s は,combo, kwal, freq コマンドにおいて,検索語を指定するのに使われます。例えば,

combo +snani aki20.cha

CHILDESの基礎(日本語用) 4/8ページ

Page 5: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

は,aki20.cha から,nani が含まれる発話を全て抜き出して表示します(nanika などはヒットしません)。

- +t は,特定のティア(行)だけを分析したいときに使います。対象は,インディペンデント・ティアでもディペンデント・ティアでも構いません。

- +w と -w は,発話を文脈とともに抜き出したいときに使います。例えば, combo +sdare +t*CHI +w2 -w2 aki21.cha

は,aki21.cha 内の子どもの発話から,dare が含まれる発話を,その前後2行とともに抜き出して表示します。

• ワイルドカード(*)- アスタリスク * は,CHAT(書き起こし)ファイル内ではインディペンデント・ティアの記号

ですが,コマンド内では「ワイルドカード」として,「任意の文字列」の意味で使われます。例えば,mlu +t*CHI *.cha

では,ファイル名にワイルドカードを使用しています。作業フォルダ内の「.cha で終わる全てのファイル」について,対象児の平均発話長を計算して表示します。(注:+t オプションの直後の * は,ワイルドカードではなく,インディペンデント・ティアの記号です)。もう一つ例を挙げておきます。combo +t*CHI +stabe* *.cha

では,ファイル名のほか,検索文字列にワイルドカードを使用しています。この場合は,全ての .cha ファイル内の対象児の発話に関して,「tabe で始まる単語」(taberu, tabeta など)を含む発話が表示されます。

• 「直後に続く」(^)- 単一の語ではなく,単語の組み合わせを検索したい場合もあります(フレーズ検索・OR検

索)。そのような場合は,^ という記号を用います。「直後に続く」という意味です。例えば,combo +t*CHI +sdore^tabe* *.cha

は,全ての .cha ファイル内の対象児の発話について,「dore の直後に tabe で始まる単語が続く発話」を検索します。dore tabeta, dore taberu などがヒットします。

- ^ とワイルドカード * を組み合わせることで,非連続の単語の組み合わせを検索することもできます。例えば,combo +t*CHI +skore^*^nani *.cha

は,「kore の直後に任意の文字列が続き,さらに nani が続く発話」を検索します。kore nani のような発話だけでなく,他の単語が挟まった kore wa nani などもヒットします。

CHILDESの基礎(日本語用) 5/8ページ

Page 6: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

練習問題

(この練習問題では母親の発話も分析しますが,Miyata データでは,母親の発話を実際の研究に使用する場合は注意が必要です。詳しくは,CHILDES ホームページ → Database Manuals にある East Asian のマニュアルを参照してください)

(1) Miyata-Aki データにおける,対象児と母親の3文字コードを書いてください。

(2) Aki の発話で,chitchai の直後に no が続くものを全て調べ,文法的に不自然な発話があれば以下に挙げてください。(ヒント:combo を使用し,検索文字列内に ^ を使います。また,ファイル名にワイルドカードを使用します。)

(3) Aki の発話で,dore のあとに ii が来る発話(ただし必ずしも直後でなくてよい)を全て調べ,文法的に不自然な発話があれば以下に挙げてください。(ヒント:検索文字列内に ^*^ を使います。)

(4) Aki が使用した「食べる」の活用形を全て,出現順に記述してください。「飲む」「書く」についても調べてください。(ヒント:combo または kwal を使用し,検索文字列とファイル名にワイルドカードを使用します。)

(5) Aki が疑問詞(wh-word)を最初に使ったのはいつでしょうか。 模倣を除外すればどうでしょうか。歳;月.日の形式で答えてください。(ヒント:kwal コマンドでは,+s を2回以上使って OR 検索を行うことができます。検索文字列の指定として, +snan* +sdoko +sdare +sdore +sdoo* +sdono +sitsu を使用してください。)

CHILDESの基礎(日本語用) 6/8ページ

Page 7: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

(6) Aki の発した単語のうち,頻度が最も高いものを10位まで挙げてください。母親の発話ではどうでしょうか。(ヒント:freq の結果を頻度順に並べるには +o を,全ての CHAT ファイルの結果を統合するには +u を使います。また,この分析の結果は非常に長くなりますが,必要なのは上位10位だけです。結果の表示を途中で止めたい時は,Windows: [Ctrl]+[.],Mac: [Command/Apple]+[.] を押します。)

(7) Aki の全ての発話における, ga・o・wa の頻度を調べてください。(ヒント:+s オプションは freq でも有効です。)

(8) nani が含まれる母親の質問に,Aki が最初に(理解可能な発音で)答えたのは何歳のときでしょうか。歳;月.日の形で書いてください。(ヒント:母親の発話を,それに続く文脈とともに抜き出します。)

(9) <発展問題>Aki と母親の MLU の推移を,CLAN と Excel を使ってグラフにしてください。 (ヒント: +d オプションを使うと,mlu コマンドの出力から,“Number of utterances” や “Number of morphemes” といった冗長な部分をある程度省くことができます。結果を Excel に貼付けた後,余分な行を削除し,「データ」メニューの,「区切り位置」という機能を使います。)

CHILDESの基礎(日本語用) 7/8ページ

Page 8: CHILDESの基礎(日本語用)...CHILDESの基礎(日本語用) このマニュアルは,Miyata-Aki データを使い,CHILDES の使い方の基礎を解説しています。本文中に

練習問題の解答例(1) Aki=CHI, Mother=AMO(2) combo +t*chi +schitchai^no *.cha

*CHI: chitchai (1)no &karaSu [: karasu] wa ? (2;06.29)(3) combo +t*chi +sdore^*^ii *.cha

*CHI: kore [/] kore dore de (1)ii no@fp ? (2;09.24)*CHI: dore [*] supuun ga (1)ii desu ka ? (2;09.29)*CHI: dore ga supuun [*] (1)ii desu ka ? (2;09.29)

(4) kwal/combo +t*chi +stabe* *.chatabete, tabechau, tabeteru, tabeta, tabenai, tabechatta, tabeyoo, tabetai, taberenai, tabetetakwal/combo +t*chi +snom* *.chanomitai, nomukwal/combo +t*chi +skak* *.chakakoo, kaketa, *kakita (kaita?), kaitai (= kakitai), kakeru, kakechatta, kakanai, kakoo, kaku, *kakeru, kakanakuate

(5) kwal +snan* +sdoko +sdare +sdore +sdoo* +sdono +sitsu +t*chi *.cha模倣を含む:doko (2;00.19)模倣を含まない:nani (2;03.04)

(6)freq +t*chi +o +u *.cha2333 kore1925 un1394 a1301 koko1158 ne1052 wa1018 n735 nom602 yo575 kotchi

freq +t*amo +o +u *.cha2230 ne2091 un1685 yo1430 kore1372 no@fp1244 no1225 ni1098 wa1058 ga1020 tte

(7) GA: freq +sga +t*chi +u *.cha => 342 timesO: freq +so +t*chi +u *.cha => 43 timesWA: freq +swa +t*chi +u *.cha => 1052 times

(8) kwal +t*amo +snani +w2 *.cha1;06.10*AMO: kore nani ,, kore ?*CHI: &bo: [: booru] .

(9) mlu +t*chi +d *.chamlu +t*amo +d *.cha

CHILDESの基礎(日本語用) 8/8ページ

1.0

1.5

2.0

2.5

3.0

3.5

4.0

1;5.07

1;7.04

1;9.20

1;11.29

2;0.12

2;0.26

2;1.10

2;1.24

2;2.11

2;2.22

2;3.04

2;3.18

2;4.04

2;4.18

2;5.06

2;5.20

2;6.22

2;7.05

2;7.19

2;8.03

2;8.17

2;9.

2;9.14

2;9.29

2;10.12

2;10.28

2;11.09

2;11.25

MLU: Target child and his mother