Spanish Lexical Variation and Automatic Linguistic Atlases on the … · 2019-05-15 ·...
Transcript of Spanish Lexical Variation and Automatic Linguistic Atlases on the … · 2019-05-15 ·...
How to build a corpus online and use it
第5 回上智大学研究機構FESTIVAL
2010年9月28日Antonio Ruiz Antonio Ruiz TinocoTinoco
上智大学上智大学国際言語情報研究所国際言語情報研究所
オンラインコーパスの構築と利用
2September 28, 2010
コーパスとは
“A corpus is a collection of pieces of language
that are selected and
ordered according to explicit linguistic criteria in order to be used as a sample of the language”
(John Sinclair, 1996)
3September 28, 2010
いくつかの重要なポイント
コンピュータで処理可能 (便利)
本物のテキスト (感覚に頼らない)
サンプルで充分 (バランス)
ある言語またはある変異を代表するようなサンプル(はっきりした目的)
4September 28, 2010
コーパスで何を調べるか
何でも調べられるコーパスはない
研究目的によって設計が異なる
5September 28, 2010
COVARES
の特徴 Corpus de variación del español,
http://lingua2.cc.sophia.ac.jp/covares/
スペイン語圏の作家の代表的な文学作品
オンラインで複雑な検索が可能
6September 28, 2010
COVARES スペイン語(単独)のコーパス
COrpus de VARiación del ESpañol(スペイン語のヴァリエーションコーパス)
全てのスペイン語圏の国の資料を利用する予定(23ヵ国、ヨーロッパ、中南米、アフリカ)
国別、作家別、ジャンル別、時代別、などで様々な検索可能
他のコーパスとの連携が可能
形態素情報(作成中)
7September 28, 2010
Argentina Adolfo Bioy Casares Descanso de caminantesJorge Luis Borges & Adolfo Bioy Casares Seis problemas para don Isidro ParodiErnesto Sabato Sobre héroes y tumbasJulio Cortázar La autopista del surJulio Cortázar Rayuela
Bolivia Ricardo Jaimes Freyre Cuentos
ChileIsabel Allende Hija de la fortunaJosé Donoso Taratuta, Naturaleza muerta con cachimbaLuis Sepúlveda Historia de una gaviota y del gato que le enseñó a volarMaría Luisa Bombal La AmortajadaManuel Rojas Hijo de ladrónRoberto Bolaño 2666
Colombia Álvaro Mutis Empresas y tribulaciones de maqroll el gaviero, Eduardo Caballero Calderón El Buen SalvajeGabriel García Márquez Cien años de soledadGabriel García Márquez La hojarascaLaura Restrepo Leopardo al sol
COVARES
に含まれる作品
8September 28, 2010
Lista de obras contenidas en COVARESEspaña Antonio Muñoz Molina Los misterios de MadridArturo Pérez Reverte La tabla de FlandesCamilo José Cela La colmenaEduardo Mendoza La ciudad de los prodigiosMiguel Delibes El HerejeRamón J. Sender Siete Domingos Rojos
México Carlos Fuentes Gringo viejoJuan José Arreola ConfabularioJuan Rulfo El llano en llamasJorge Volpi En busca de KlingsorMariano Azuela Los de Abajo
Paraguay Augusto Roa Bastos Yo el supremoJuan Bautista Rivarola Matto El santo de GuatambúMario Halley Mora Memoria adentro, 1989
PerúAlfredo Bryce Echenique El huerto de mi amada
9September 28, 2010
COVARESの検索インターフェースhttp://lingua2.cc.sophia.ac.jp/covares/
10September 28, 2010
COVARESの検索インターフェース
11September 28, 2010
COVARESの検索インターフェース
12September 28, 2010
検索方法
< >
El código de la categoría gramatical debe ir entre < >.más <A> que busca la secuencia “más + adjetivo + que”
como “más aburrido que”, “más agudo que”, etc.se <P> <V> busca la secuencia “se + pronombre + verbo”
como “se la acababa”, “se te enroscaron”, etc.antes que <VMS> busca la secuencia “antes que + subjuntivo”
como “antes que acabaran”, “antes que amaneciera”, etc.# Se añade a la derecha de la forma básica de la palabra que usamos como lema
querer# busca todas las formas del verbo querer, como quiero, quisiera, etc.
estar# seguro# que busca todas las formas del tipo “estoy seguro que”, “estábamos seguras que”, etc.
sospechar# de que busca secuencias como “sospecha de que”, etc.estar# feliz# busca secuencias como “están felices”, etc.
Combinaciones de lema y categoríaser#N Se añade la categoría gramatical junto a la almohadilla (#)
para buscar ejemplos de ser como sustantivo, no como verbo. Por ejemplo, “Nunca he hecho daño a un serhumano”.
gustar#V de <VMN> Busca secuencias como “Yo era el tipo de muchacha que los hombres gustan de exhibir.”
gustar#N de <VMN> Busca secuencias como “¡Qué gusto de verla!”. aunque tener#VMI Busca secuencias como “El chofer se llamaba Larrazábal y
aunque tenía un nombre propio no quiso decírselo.”aunque tener#VMS Busca secuencias como “Aunque tuviera un hijo no podría
reemplazarme, heredarme.”
13September 28, 2010
LAMPP environmentLinux, Apache, MySQL, PHP, PerlOS: SUSE Linux 10 DB: MySQL 5Interface: PHP5 Code: UTF-8 / Latin-1Libraries (FPDF, etc.)CPU: Xeon 2.8x2memory: 2GB
14September 28, 2010
COVARES データベースの構造(一部)
4 tables:
KWICAUTHORSOPUSLANGUAGES
複数のDBに容易に繋げることが可能
必要に応じてインターフェースを準備
15September 28, 2010
DB 管理用 GUI
phpMyAdminほぼ標準的な
管理用ツール
16September 28, 2010
形体情報 (Multext)Multext L0010 (510,710 Word forms)を利用(準備中)European Language Resources Association (ELRA)
17September 28, 2010
形体情報 “SVMTool”カタルーニャ工科大学(Universitat Politècnica de Catalunya)で開発されたスペイン語タガー
Primerollevaronelimán.
Primero
RGllevaron
VMIel DAimán
NC. FpPrimero
llevaron
el imán.
<RG>Primero
<VMI>llevaron
<DA>el <NC>imán.
18September 28, 2010
日本語のコーパス
テキスト:青空文庫
形態素解析システム:茶筌(ChaSen)
19September 28, 2010
phpMyAdmin Interface (complex
MySQL commands)
20September 28, 2010
西和語のパラレルコーパス構築・作成
21September 28, 2010
コーパスの使用 (1)
研究者用語彙の研究、統語論の研究、辞書学など
語学教師用目的に合う適切な用例の検索作文指導、練習問題作成、試験作成
学生用語彙、文法の勉強、オンラインの練習問題翻訳の練習
新しい使用法を探る:
専用インターフェースを作成
22September 28, 2010
コーパスの使用(2)
正規表現などを高度な使い方
作文指導の授業モデル
練習問題、クイズなどの作成のヒント集
試験用の材料として
語彙、文法の勉強
翻訳の練習
新しいデータを追加する方法のマニュアル
その他の利用方法を追加
使用目的により、利用・指導のマニュアルを作成
23September 28, 2010
Interfaz de COVARES
24September 28, 2010
COVARESの検索の結果
25September 28, 2010
entrar a/en
の比較
(文学全体)
Entrar a en a/en %España 1 122 0.8%México 25 12 67.56%Colombia 78 57 57.77%Chile 35 94 27.13%Paraguay 21 21 50%Argentina 14 107 11.57%
26September 28, 2010
大学生の調査の結果
(全体)
Ellos entraron *al edificio. (General)
País Lo digo así Lo oigo No lo digo/oigo Total
España 118 62.76% 61 32.44% 9 4.78% 188
México 19 90.47% 2 9.52% 0 0% 21
Colombia 24 96% 1 4% 0 0% 25
Chile 25 100% 0 0% 0 0% 25
Paraguay 18 90% 2 10% 0 0% 20
Argentina 20 100% 0 0% 0 0% 20
27September 28, 2010
Ciudad Lo digo así Lo oigo No lo digo/oigo Total
Oviedo 18 66.66% 9 33.33% 0 0% 27
Pamplona 16 76.19% 4 19.04% 1 4.76% 21
Alcalá 10 90.90% 1 9.09% 0 0% 11
Madrid 16 76.19% 5 23.80% 0 0% 21
Barcelona 8 40% 11 55% 1 5% 20
Sevilla 10 41.66% 13 54.16% 1 4.16% 24
Huelva 4 20% 12 60% 4 20% 20
Tenerife 17 85% 3 15% 0 0% 20
Las Palmas 19 79.16% 3 12.5% 2 8.33% 24
Ellos entraron *al edificio. (España)
大学生の調査の結果
(スペイン)
28September 28, 2010
参考文献
Equipo Varilex (Coord. Ueda, H.; Takagaki, T.; Ruiz Tinoco, A.). VARILEX, Variación léxica del español en el mundo. Vols. 1-9.Ruiz Tinoco, A. 2001. “Cartografía automática en Internet”, Bulletin of the Faculty of Foreign Studies, 36, Sophia University.Ruiz Tinoco, A. 2005. “Léxico variable en los países hispanohablantes según el sexo”, in Diccionario, Léxico y Cultura.(Josefina Prado Aragones y Mª Victoria GallosoCamacho), Universidad de Huelva Publicaciones, pp. 189-198Ruiz Tinoco, A. 2005. “Tools for Creating Online Dictionaries Judeo-Spanish: A Case Study”, Usage-Based Linguistic Informatics 1, Linguistic Informatics -State of the Art and the Future, John Benjamins Publishing Company, pp. 180-195. Ueda, H., Ruiz Tinoco, A. 2003. Pautas y Pistas en el Análisis del Léxico Hispano(americano), Iberoamericana Vervuert, Frankfurt.
Any questions?
Any suggestions?
Thank you for your attention!!
Antonio Ruiz Tinoco