Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011

download Linguística de Corpus e  Linguística Computacional:  Encontros e desencontros InPLA 2011

If you can't read please download the document

description

f. ũ. Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011. ſ. a. õ. ſ. e. b. ӕ. - PowerPoint PPT Presentation

Transcript of Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011

  • Lingustica de Corpus e Lingustica Computacional: Encontros e desencontros

    InPLA 2011

    25 de junho, 2011eabf

  • A Anotao semi-automtica de divergncias de grafia como fundamento para o processamento automtico de textos antigos: Uma experincia na Brasiliana DigitalMaria Clara Paixo de Sousa Universidade de So Paulo

    Faculdade de Filosofia, Letras e Cincias Humanas Brasiliana DigitalNUMEC - Ncleo de Matemtica, Estatsica e Complexidade

  • Nesta comunicao apresentarei uma experincia de aplicao de tcnicas da lingustica de corpus ao processo de formao de uma biblioteca digital.

    Utilizando a ferramenta E-Dictor, concebida como auxiliar da anotao de grafias divergentes para fins de etiquetagem morfossinttica automtica num corpus histrico, procuramos transformar um conjunto de seis textos portugueses escritos entre 1600-1700 em material processvel por outras ferramentas de busca e anotao automtica.

    Para isso, adotamos a tcnica originalmente utilizada na anotao de divergncia de grafias como um tratamento para o problema dos resultados sofrveis do reconhecimento automtico de caracteres naqueles textos.

    Na comunicao, mostrarei os desafios enfrentados ao longo dessa experincia, seus resultados iniciais, e os caminhos que se abrem a partir disso no sentido do aperfeioamento de processos de tratamento automtico de textos mais antigos, tanto no que remete ao reconhecimento de caracteres quanto no que tange a indexao para buscas.

    Sd

  • Um Desafio

  • Um DesafioConstruir uma biblioteca digital com textos acessveis a programas de buscaswww.brasiliana.usp.br

  • Condio material dos nossos textos mais antigosUm Desafio

  • Condio material dos nossos textos mais antigosUm Desafio

  • Condio material dos nossos textos mais antigosUm Desafio

  • Condio material dos nossos textos mais antigosUm Desafio

  • Um Desafio

  • Resultado da aplicao de programa de OCRUm DesafioOfirm aexperknctt tptedom Phdippe I U Rey de Caella por fora epodeir de armas- c- cupou antigamente a Coroa de Portugal3 e polo covftgmte prittou ao. Serenifjma ep^tQ po~ dercfo-Rey Dotn loao* (4ntesl)iiq^de l$aroan4)do indubitauel dereito desfiafie -ceffo ejuia para aditpa Coroa de "Portugal com) legitimo e pro- ximo berdeko da Serenifsima Senhora,, dona Catharina: fmuitos annos continuas per/uerarap os fifeefmes.de ditto Rey^Ca$fL (a em auiolent occupaa da ditta Coroade Portugal quebramando os concertos epafos d'amiffade , de confiana edo Comercio que os Senhora Reysda Coroa de Portugglcomos outros P/mcepes Ena- ots d'Europaftntamente fempre refpeitara prmando.aosbopsfub- ditos euaffkllos da, mefma coroa defeu dereito de fias leys ecoftumes: talem dijj carngandoos injufamete de intoleraueis mokjlias eoutras diuerfis efpecias de tirannia3juntas aexcefstuos tr'utos3os quaes os Reys de Caella juntamente como patrimnio da Coroa Real de poKtugalconfomiraedeftmira comguerras efcufadas-.coni as quaes coufasfendo os dittos bos Subditos euaffkllos daquella Coroa ei- mulados epromcados dejuo furor ^vencido o fofrimento 3 com grande animo3 oufaa eadvertena facodira aquelle intolerauel e injuflo lugo d El Rey de Caella reftituindofe afsimefmos a fia liberdade} efinalmente por applaufo comun eUegra eacclamara * deraomenagem, ejuramentode fidelidade ao tto Rey Dom Io- ao* IV , Ofmmtopoderofos Senhores Qrdes Geraes fenndo juxtamente por fua parte 3 etendo be' conhecido aintolerauel tiranya edurifsimos encargos do ditto Rey de Caella efia deteflauel deter minao para alcanar a Monanhia detanto tempo emtoda Europa

  • MOtrou aexperiencia quedom Phelippe I I, Rey de Castella por fora epoder de armas oc- cupou antigamente a Coroa de Portugal, e polo coneguinte priuou ao Serenisimo emuito po- deroo Rey Dom Ioa (antes Duque de Bargana)doindubitaueldereito de ua fuc- aa ejustia para aditta Coroa de Portugal como legitimo e pro ximo herdeiro da Serenisima Senhora dona Catharina: emuitos annos continuos pereuerara os fuccesoresde ditto Rey de Castel- la em auiolenta occupaa da ditta Coroade Portugal quebrantando os concertos epactos damiade, de confiana edo Comercio que os Senhores Reys da Coroa de Portugal com os outros Princepes Ena- os dEuropa antamenteempre repeitara priuando aos bosub- ditos euaallos da mema coroa deeu dereito de uas leys ecoftumes: ealem dio carregandoos injutamete de intoleraueis moletias eoutras diueras epecias de tirannia,juntas aexcesiuos tributos, os quaes os Reys de Castella juntamente como patrimonio da Coroa Real de Portugal conomira edeftruira comguerras ecuadas:com as quaes couas endo os dittos bos Subditos euaallos daquella Coroa esti-- mulados eprouocados dejusto furor vencido o ofrimento , com grande animo, ouadia eadvertencia acodira aquelle intolerauel e injuto Iugo d El Rey de Castella reftituindoe afsimemos a fua liberdade, efinalmente por applauo comun ellegera eacclamara , dera omenagem, ejurament defidelidade ao ditto Rey Dom Io a IV , Omnitopoderoos Senhores Ordes Geraes entindo juxtamente por ua parte, etendo be' conhecido aintolerauel tiranya edurisimos encargos do ditto Rey de Castella efua detelauel deter minaa para alcanar a Monarchia detanto tempo emtoda EuropaResultado da correo do output de OCRUm Desafio

  • Mostrou a experincia que dom Felipe II, Rei de Castela por fora e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Serenssimo e muito poderoso Rei Dom Joo (antes Duque de Bragana) do indubitvel direito de sua sucesso e justia para a dita Coroa de Portugal como legiimo e prximo herdeiro da Serenssima Senhora dona Cataarina: e muitos anos contnuos perseveraram os succesores de dito Rei de Castela em a violenta ocupao da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiana e do Comrcio que os Senhores Reis da Coroa de Portugal com os outros Prncipes e Naes da Europa santamente sempre respeitaram privando aos bons sditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e alm disso carregando-os injustamente de intolerveis molstias e outras diversas espcies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimnio da Coroa Real de Portugal consumiram e destruram com guerras escusadas: com as quais coisas sendo os ditos bons Sditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande nimo, ousadia e advertncia sacodiram aquele intolervel e injusto Jugo d El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom Joo IV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolervel tirania e durssimos encargos do dito Rei de Castela e sua detestvel determinao para alcanar a Monarquia de tanto tempo em toda EuropaTexto efetivamente legvelUm Desafio

  • Mostrou a experincia que dom Felipe II, Rei de Castela por fora e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Serenssimo e muito poderoso Rei Dom Joo (antes Duque de Bragana) do indubitvel direito de sua sucesso e justia para a dita Coroa de Portugal como legiimo e prximo herdeiro da Serenssima Senhora dona Cataarina: e muitos anos contnuos perseveraram os succesores de dito Rei de Castela em a violenta ocupao da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiana e do Comrcio que os Senhores Reis da Coroa de Portugal com os outros Prncipes e Naes da Europa santamente sempre respeitaram privando aos bons sditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e alm disso carregando-os injustamente de intolerveis molstias e outras diversas espcies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimnio da Coroa Real de Portugal consumiram e destruram com guerras escusadas: com as quais coisas sendo os ditos bons Sditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande nimo, ousadia e advertncia sacodiram aquele intolervel e injusto Jugo d El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom Joo IV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolervel tirania e durssimos encargos do dito Rei de Castela e sua detestvel determinao para alcanar a Monarquia de tanto tempo em toda EuropaCondio material dos nossos textos mais antigosUm Desafio

  • Estratgias

  • Estratgias1. Correo de OCRAbbyy 10.0

  • - Ferramenta treinvel: - Resultados transferveis para o total do acervo - Resultados transferveis para outros projetos e acervosVantagens previstas: EstratgiasEstratgias1. Correo de OCRAbbyy 10.0

  • - Ferramenta treinvel: - Resultados transferveis para o total do acervo - Resultados transferveis para outros projetos e acervosVantagens previstas: Estratgias1. Correo de OCRAbbyy 10.0Desvantagens previstas: - Software proprietrio: - Impossibilidade de trabalho no cdigo-fonte - Imprevisibilidade de continuidade do programa - Transferibilidade comprometida pelo alto preo - Resultado s pode ser parcial: - Necessidade de novo tratamento para variao de grafiaEstratgias1. Correo de OCRAbbyy 10.0

  • 2. Correo de OCR e Edio filolgica (Edictor*) Estratgias1. Correo de OCRAbbyy 10.0* Paixo de Sousa, Kepler e Faria (2010)

  • EstratgiasVantagens previstas: - Software livre: - Possibilidade de trabalho no cdigo-fonte - Previso de continuidade do programa - Transferibilidade garantida- Ferramenta completa: - O resultado combina correo do reconhecimento e edio de variao de grafia2. Correo de OCR e Edio filolgica (EDictor) 1. Correo de OCRAbbyy 10.0

  • EstratgiasVantagens previstas: - Software livre: - Possibilidade de trabalho no cdigo-fonte - Previso de continuidade do programa - Transferibilidade garantida- Ferramenta completa: - O resultado combina correo do reconhecimento e edio de variao de grafia- Ferramenta no-treinvel: - Resultados no transferveis para o total do acervo - Resultados no transferveis para outros projetos e acervosDesvantagens previstas: 2. Correo de OCR e Edio filolgica (EDictor) 1. Correo de OCRAbbyy 10.0

  • Resultados

  • Financiamento: Pr-reitoria De Graduao - USP Programa Ensinar com Pesquisa

    Tempo de pesquisa: 12 meses Pesquisadores envolvidos: 7 (Bruna Baldini de Miranda Fabiana Ferraz Fabio Kepler Jderson Porto Mrcia Ap. Santos MendesMaria Clara Paixo de Sousa (coord.)Mariane Cristine de Almeida

    Resultados:Nmeros

  • Financiamento: Pr-reitoria De Graduao - USP Programa Ensinar com Pesquisa

    Tempo de pesquisa: 12 meses Pesquisadores envolvidos: 7

    Textos corrigidos: 6Total de palavras processadas: 39.000- Total de tokens de variao: 11.500

    Resultados:Nmeros

  • Resultados:NmerosCf. relatrio de pesquisa: http://lampiao.brasiliana.usp.br/lingua/node/92

  • Resultados:Esquema GeralVerses Disponveis Para Cada Texto:

    - Texto com OCR corrigido (equivalente a uma edio paleogrfica)

    - Edio Semi-diplomtica

    - Edio Modernizada

    - Glossrio de correes de OCR

    - Glossrio de edies

    - Verso com Etiquetao Morfossinttica

  • Verses Disponveis Para Cada Texto

    - Texto com OCR corrigido (equivalente a uma edio paleogrfica) XML, Html, TXT- Edio Semi-diplomtica XML, Html, TXT- Edio Modernizada XML, Html, TXT- Glossrio de correes de OCR XML, Html, TXT, CSV - Glossrio de edies XML, Html, TXT, CSV- Verso com Etiquetao Morfossinttica XML, TXT

    Resultados:Esquema Geral

  • Resultados:Exemplos- Documento submetido ao OCR

  • Resultado do OCR (treinado para o Portugus Clssico)

    Trelado do Latin na lin- goa Portugeza .Trattado das " Tregoas efuspena de todo o acto de hoti / idadoebemai de navegao , Comrcio ejuntamente Soccorro , ei- io , comefado eaccabado emHayadeHollandeaxj . de Junho 164 . por tempo de des annos entre o Senhor Trita de Mcndoa Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijtmo Dom Ioao' I V dete nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoos Senhores EJtados Geras das Provincias Vndas dos Pai % es Baxos . Em a HAYA ,Em caza da Viuva e Erdeiros de Ilebrandt Iacobon van Wbuw , Impri- midor Ordinario dos Muy altos e poderoos Snnores EJlados Ge- nerais , Anno 1 642 . Curn Privilegio .

    Resultados:Exemplos

  • Trelado do Latin na lin- goa Portugeza .Trattado das " Tregoas efuspena de todo o acto de hoti / idadoebemai de navegao , Comrcio ejuntamente Soccorro , ei- io , comefado eaccabado emHayadeHollandeaxj . de Junho 164 . por tempo de des annos entre o Senhor Trita de Mcndoa Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijtmo Dom Ioao' I V dete nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoos Senhores EJtados Geras das Provincias Vndas dos Pai % es Baxos . Em a HAYA ,Em caza da Viuva e Erdeiros de Ilebrandt Iacobon van Wbuw , Impri- midor Ordinario dos Muy altos e poderoos Snnores EJlados Ge- nerais , Anno 1 642 . Curn Privilegio .

    Resultados:ExemplosTaxa mdia de acerto inicial:59%

    Taxa mdia de acerto aps treinamento:86%

  • Texto com OCR corrigido no E-Dictor

    Trelado do Latin na lin- goa Portugeza .Trattado das Tregoas e uspena de todo o acto de hotilidade e bem ai de navegaa , Comercio ejuntamente Soccorro , fei-to ,comeado eaccabado em Haya de Hollande a x . de Iunho 1641 . por tempo de des annos entre o Senhor Trita de Mendoa Furtado , do Conelho e Embaixador do Sereniimo e poderoiimo Dom Ioao' I V dete nome Rey de Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoos Senhores Etados Geras das Provincias Vnidas dos Paizes Baixos . Em a HAYA .Em caza da Viuva e Erdeiros de Ilebrandt Iacobon van Wouw , Impri- midor Ordinario dos Muy altos e poderoos Snnores Etados Ge- nerais , Anno 1 642 . Cum Privilegio .

    Resultados:Exemplos

  • - Edio Modernizada

    Tratado das trguas e suspenso de todo o ato de hostilidade e bem assim de navegao , comrcio e juntamente socorro , feito, comeado e acabado em Haya de Hollande a XII . de Junho 1641 . por tempo de dez anos entre o senhor Tristo de Mendoa Furtado , do conselho e embaixador do serenssimo e poderosssimo Dom Joo IV deste nome rei de Portugal e dos Algarvos , e os senhores deputados dos muito poderosos senhores estados gerais das provncias vindas dos pases baixos . .

    Resultados:ExemplosTreslado do latim na lngua portuguesa .

    Em a HAYA .Em casa da viva e herdeiros de Ilebrandt Iacobon van Wouw , imprimidor ordinrio dos mui altos e poderosos senhores estados generais, Ano 1642 . Com privilgio

  • - Glossrio de edies XML, Html, TXT, CSV

    Resultados:Exemplos

  • - Glossrio de edies XML, Html, TXT, CSV

    Resultados:Exemplosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditosfubditos,,, ubditos,,,subditos,,sditos

  • - Anotao XML

    amijade amiade amissade amizade Resultados:Exemplos

  • amijade amiade amissade amizade Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento capazes de tratar textos escritos em portugus clssico.Resultados:Produtos1Banco de erros de reconhecimentoResultados:Produtos

  • Estes dados poderiam ser utilizados como base para um programa de buscas no acervo de textos antigos.2Banco de grafias em variaoResultados:Produtos amijade amiade amissade amizade

  • MARQVEZMARQUS

    DE

    MONTALVAMMONTALVO

    Jorge de Mascarenhas, Marqus de Montalvo. Fidalgo e administrador colonial portugus. Foi governador de Mazago (1615-1619), de Tnger (1622-1624) e do Algarve. No contexto da Dinastia Filipina, tendo cado em desgraa o conde da Torre (sucedido por uma Junta Governativa trplice), Mascarenhas foi nomeado por Filipe IV de Espanha como 1 vice-rei do Brasil (1640).

    Banco de entidades nomeadas3Resultados:Produtos

  • Banco de entidades nomeadas3Resultados:Produtos

  • Banco de entidades nomeadas3Resultados:Produtos

  • Resultados:AplicaesPossveisAplicaes no acervo1Resultados:Aplicaes Possveis

  • Aplicaes no acervo 1Resultados:Aplicaes Possveis

  • Aplicaes no estudo lingustico2Resultados:Aplicaes Possveis

  • Novos Desafios

  • O banco de palavras formado pela nossa anotao XML combina correo de reconhecimento automtico, variao de grafia e classe de palavras.

    Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automtico capazes de tratar textos escritos em portugus clssico.Novos Desafios

  • O banco de palavras formado pela nossa anotao XML combina correo de reconhecimento automtico, variao de grafia e classe de palavras.

    Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automtico capazes de tratar textos escritos em portugus clssico.Novos DesafiosQuem precisa de programas de reconhecimento automtico capazes de tratar textos escritos em portugus clssico?

  • Novos DesafiosQuem precisa de programas de reconhecimento automtico capazes de tratar textos escritos em portugus com ampla variao de grafias?

  • Novos DesafiosAs pesquisas em lingustica de corpus dedicadas s fases antigas da lngua portuguesa precisam unir-se s pesquisas em lingustica de corpus dedicadas a lngua atual - em especial, lngua escrita sujeita ampla variao de grafia (a lngua no-padro).

  • mas... e os Encontros e Desencontros ?

  • Novos Desafios amijade amiade amissade amizade Itens gerados automaticamente pelas ferramentas (OCR, EDictor)

  • Novos Desafios amijade amiade amissade amizade Itens gerados automaticamente pelas ferramentas (OCR, EDictor)Itens anotados semi-automaticamente pelos editores com auxlio do EDictor

  • Novos Desafios amijade amiade amissade amizade Itens gerados automaticamente pelas ferramentas (OCR, EDictor)Itens anotados semi-automaticamente pelos editores com auxlio do EDictorItens acrescentados manualmente pelos editores

  • Novos Desafios amijade amiade amissade amizade Plano: Gerao automtica das alteraes

  • Novos Desafios amijade amiade amissade amizade Plano: Gerao automtica das alteraes EDictor

  • Novos Desafios amijade amiade amissade amizade Plano: Gerao automtica das alteraes EDictorOCR treinado?

  • Novos Desafios amijade amiade amissade amizade Esse trabalho envolveria o desenvolvimento de ferramentas baseadas em reconhecimento de padres, estudos probabilsiticos, ...

  • Novos Desafios amijade amiade amissade amizade Esse trabalho envolveria a lingustica computacional

  • Novos Desafios amijade amiade amissade amizade Esse trabalho envolveria a lingustica computacional,a lingustica de corpus,a lingustica histrica, e a filologia

  • eSabdf Obrigada!

  • eSabdf [email protected]://www.brasiliana.usp.brhttps://github.com/edictor

  • Lingustica de Corpus e Lingustica Computacional: Encontros e desencontros

    InPLA 2011A Anotao semi-automtica de divergncias de grafia como fundamento para o processamento automtico de textos antigos: Uma experincia na Brasiliana DigitalMaria Clara Paixo de Sousa Universidade de So PauloFaculdade de Filosofia, Letras e Cincias Humanas Brasiliana DigitalNUMEC - Ncleo de Matemtica, Estatsica e Complexidade