Anotacao Semântica em Documentos Não Estruturados
-
Upload
celso-fontes -
Category
Education
-
view
4.778 -
download
6
description
Transcript of Anotacao Semântica em Documentos Não Estruturados
![Page 1: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/1.jpg)
Anotação semântica em documentos não estruturados
Celso Araujo FontesProfessoras: Maria Claudia R. Cavalcanti, D.Sc. e
Ana Maria de Carvalho Moura, Dr. Ing
SC 214202 – maio de 2010 Sistemas de Banco de Dados, Profa. Maria Claudia
Instituto Militar de EngenhariaCurso de Mestrado em Sistemas e Computação
![Page 2: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/2.jpg)
Introdução
Existem hoje bilhões de documentos na Web e ainda milhões de páginas em intranets, sendo acessados por 1,5 bilhões de usuários no mundo [1].
A maior parte destas informações é construída apenas para o consumo humano.
Vem à tona a necessidade do gerenciamento desse conteúdo, no que diz respeito à dificuldade na busca, organização, acesso e manutenção das informações.
![Page 3: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/3.jpg)
Problemas da Web Atual
Busca da Informação
Problema de “precisão” das atuais ferramentas de pesquisa
– Navegação através de links e uso de palavras chaves p/ busca
– Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente [2]
![Page 4: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/4.jpg)
Problemas da Web Atual
A falta de meta dados na web inibe um processamento por máquina mais inteligente.
![Page 5: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/5.jpg)
Metadados
Metadados permitem descrever informações, auxiliando na identificação, localização e gerenciamento dos dados (BONIFACIO, 2002).
![Page 6: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/6.jpg)
Ontologias
Segundo Grubber (GRUBBER, 1992), uma ontologia é uma especificação explícita de uma conceituação. A conceituação é uma abstração simplificada do domínio em que desejamos representar para algum propósito.
No campo da Filosofia, as ontologias têm sido utilizadas para tentar descrever domínios naturais (as coisas naturais do mundo) e a existência dos seres e coisas em si, desvendando, desta forma, o significado das coisas no mundo (LIMA e SCHWABE, 2004).
![Page 7: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/7.jpg)
Web Semântica
A web semântica é “uma extensão da web atual, em que a informação é dada com um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação”. [Bernes-Lee, 2001]
![Page 8: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/8.jpg)
Web Semântica e Ontologias
Evolução natural de esforços anteriores– Metadados na Web– Padrões de Metadados– Arquiteturas de Metadados– RDF e RDFS foram os precursores das ontologias na Web– Rápida evolução das demais iniciativas
DAML OIL DAML+OIL OWL OWL2
![Page 9: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/9.jpg)
Web Semântica – Representação do Conhecimento
RDF RDFS OWL OWL2
![Page 10: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/10.jpg)
O que significa chamar uma tecnologia de “semântica” ?
Pretende:– Representar conhecimento– Compartilhar um entendimento comum em relação ao
significado– Ser apropriada para a ligação de recursos sob diferentes
esquemas de representação– Estabelecer associações entre os itens que não estão
explicitas– Apoiar inferência sobre o conhecimento para gerar mais
conhecimento
![Page 11: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/11.jpg)
Problema
Dados estruturados para interpretação por máquina normalmente são distribuídos num formato distinto e separado do conteúdo original e a correspondência entre eles é bastante limitada (ADIDA et al., 2008).
RDF, OWL e outros formatos XML são complexos para interpretação da maioria das pessoas
![Page 12: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/12.jpg)
Solução
Visando incorporar metadados ricos a um documento e manter o seu conteúdo visual legível ao ser humano, foram propostos padrões de anotação semântica.– Objetivo: utilizar um conjunto de descritores,
relacionados a um vocabulário, para “anotar” informações de um documento da internet, expressando o significado do conteúdo neles descritos.
![Page 13: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/13.jpg)
Anotação Semântica
“Esquema específico para geração e uso de metadados, possibilitando novos métodos de acesso a informação” [Popov et al., 2003].
“A anotação semântica de um documento descreve o seu conteúdo pela associação a conceitos e instâncias descritos na ontologia” [Eller, 2008].
![Page 14: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/14.jpg)
Na figura abaixo, podem ser observadas as anotações semânticas referentes a um texto simples. As entidades presentes no texto são associadas à sua definição semântica:
Exemplo de marcação semântica. Fonte: [7] com adaptações
Anotação Semântica
![Page 15: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/15.jpg)
Características Relacionadas para Análise dos Padrões de Anotação Semântica
Uso de vocabulários customizados DRY Compatibilidade com HTML Compatibilidade com XHTML Utilização somente de atributos nativos do HTML e XHTML Suporte ao Blank Node Utilização de namespaces Suporte a Literal simples Suporte a Literal XML Suporte à Literal tipada Suporte a CURIE Referência a nodos não descendentes
![Page 16: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/16.jpg)
Microformat
É um conjunto limitado de especificações utilizado para descrever informações em documentos web. [PEREIRA, 2009]
Suas especificações ou vocabulários se dividem em duas categorias:
– Padrões aceitos: validados pela comunidade e utilizados conforme descrito nas especificações;
– Propostas emergentes: projetos que se encontram em processo de desenvolvimento, estando suas especificações sujeitam a alterações até sua aceitação final (RAMOS et al., 2009).
![Page 17: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/17.jpg)
Microformat (Exemplo)
<div class="vcard">
<span class="given-name">Celso Fontes</span>trabalha no
<span class="org">Detran RJ</span>
</div>
_vcard
“Celso Fontes”
“Detran RJ”
given-name
org
![Page 18: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/18.jpg)
Microformat
Vantagens– Simplicidade– Popularidade (Twitter, Facebook, Flickr...) – Utiliza atributos nativos do HTML
Desvantagens– Restrito a um pequeno número de vocabulários– Não suporta o HTML5 100%
![Page 19: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/19.jpg)
eRDF (Embedded RDF)
Baseado em alguns princípios do Microformat, porém permite a anotação a utilização vocabulários arbitrários em suas anotações semânticas [Nowack, 2005]
![Page 20: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/20.jpg)
eRDF (Exemplo)
<link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" />
<p id="celso" class="-foaf-Person">
<span class="foaf-name">Celso Araujo</span> estuda
anotações
</p>
#celso
“Celso Araujo”
foaf-name
foaf:Personrdf:type
![Page 21: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/21.jpg)
eRDF
Vantagens– Permite a utilização de vocabulários arbitrários
Desvantagens– Não possui suporte explícito a recursos anônimos
(Blank Nodes)– Não possui suporte a literal XML e Tipada
![Page 22: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/22.jpg)
RDFa (Resource Description Framework – in – attributes)
Recomendação da W3C para anotação semântica em documentos XHMTL 1.1 [W3C, 2008].
Definido como “A collection of attributes and processing rules for extending XHTML to support RDF”
![Page 23: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/23.jpg)
RDFa
<div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/">
Informações sobre
<span property="foaf:name">Celso</span>
<div />
_blanknode1
“Celso Araujo”
foaf:Personrdf:typeOf
foaf:name
![Page 24: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/24.jpg)
RDFa
Vantagens– Blank Nodes– CURIEs– Suporte a literal XML e Tipada
Desvantagens– Adição de novos elementos ao XHMTL (about,
property, resource, datatype, typeof)– Suporte apenas ao XHTML 1.1 (suporte ao HTML
encontra-se em fase de rascunho)
![Page 25: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/25.jpg)
Microdata
Padrão da W3C para anotação semântica em documentos HTML5 [W3C, 2008].
Esta especificação é resultado das investigações de Ian Hickson sobre os problemas que o RDFa consegue resolver em contrapartida a sua complexidade (STUDHOLME, 2010).
![Page 26: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/26.jpg)
Microdata (Exemplo)
<div itemscope itemref="a b"></div> <p id="a"> Meu nome é: <span itemprop="name">Celso</span></p>. Sou aluno da professora<div id=“MariaClaudia" itemprop=“alunoDe" itemscope>
<span itemprop="name">Maria</span>,Também conhecida como: <span itemprop=“nickname">Yoko</span>
</div>
_blanknode1
“Celso Araujo”“Yoko”
“Maria”
name
#MariaClaudia
nickname
namealunoDe
![Page 27: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/27.jpg)
Microdata
Vantagens– Mais simples que o RDFa– Flexibilidade para referência entre nodos
Desvantagens– Imaturo (poucas ferramentas, exemplos etc…)
![Page 28: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/28.jpg)
Comparativo
Microformatos eRDF RDFa Microdata
Uso de vocabulários customizados NÃO* SIM SIM SIM
DRY SIM SIM SIM SIM
Compatibilidade com HTML SIM SIM SIM** SIM***
Compatibilidade com XHTML SIM SIM SIM**** SIM
Utilização somente de atributos nativos do HTML e XHTML
SIM SIM NÃO NÃO***
Suporte ao Blank Node NÃO NÃO SIM SIM
Utilização de namespaces NÃO SIM SIM SIM
Suporte a Literal simples SIM SIM SIM SIM
Suporte a Literal XML NÃO NÃO SIM NÃO
Suporte à Literal tipada SIM NÃO SIM SIM
Suporte a CURIE NÃO NÃO SIM NÃO
Referência a nodos não filho NÃO NÃO NÃO SIM
![Page 29: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/29.jpg)
Ferramentas de Anotação Semântica
São sistemas que provêem anotação semântica sobre um conteúdo qualquer com o auxílio de um vocabulário através de extração automática, sugestões de anotações ou interfaces gráficas para a anotação manual (SEMANTICWEB, 2008).
![Page 30: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/30.jpg)
Ferramentas de Anotação Semântica
Annotea GATE KIM OpenCalais Zemanta SMORE Ontos TextWise
![Page 31: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/31.jpg)
Comparativo
Tipo Representação da Anotação
Armazenamento da Anotação
Referência com o Vocabulário
Referência entre termo e Anotação
Entrada de Vocabulários Arbitrários
Plataforma
Annotea Manual Não intrusiva
RDF/XML Xpointer SIM SIM Desktop
GATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM Desktop
KIM Automática Não intrusiva
SIM* SIM Híbrida
OpenCalais Automática Não intrusiva
RDF/XML, JSON, Microformat e SimpleFormat
URIS SIM NÃO Web
Zemanta Automática Não intrusiva
XML, JSON, WNJSON, RDF/XML
URL NÃO NÃO Web
SMORE Manual Não intrusiva
RDF/XML URIS NÃO SIM Desktop
Ontos Automática Não intrusiva
JSON URIS NÃO SIM*** Web
TextWise Automática Não intrusiva
JSON e XML URIS NÃO NÃO Web
![Page 32: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/32.jpg)
Ferramentas de Extração Semântica
Ferramentas capazes de indexar metadados contidos em ontologias ou documentos com anotações semânticas.
Também conhecidas como ferramentas de “busca semântica”
![Page 33: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/33.jpg)
Sindice
Sindice (Semantic Web Index) é uma ferramenta de busca semântica que coleta dados de documentos RDF e de páginas web com anotações no padrão microformatos ou RDFa.
![Page 34: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/34.jpg)
Yahoo Search Monkey
SearchMonkey é um serviço do Yahoo! que permite desenvolvedores e proprietários de sites utilizarem dados estruturados de forma a tornar as buscas pelo Yahoo! mais úteis e visualmente atraentes, direcionando o tráfego mais relevante para os seus sites (YAHOO, 2010).
![Page 35: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/35.jpg)
Google Rich Snippets
O Google Rich Snippets é uma nova abordagem de apresentação dos resultados de pesquisa do Google (Figura 10) visando destacar alguns dados estruturados incorporados em páginas da web (GOEL et al., 2009).
![Page 36: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/36.jpg)
Características Relacionadas para Análise dos Ferramentas de Extração Semântica
Padrões de Anotação Vocabulários suportados Uso de vocabulários arbitrários
![Page 37: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/37.jpg)
Comparativo
Google Rich Snippets
Sindice Yahoo! SearchMonkey
Padrões de Anotações
RDFa SIM SIM SIM
Microformatos SIM SIM SIM
eRDF NÃO NÃO SIM
Microdata SIM NÃO NÃO
Vocabulários Suportados
hCalendar, hReview, hProduct,
hCard, Facebook Share e YahooSearch Monkey Media
XFN, hCard, hCalendar,
hReview, Rel-License,
hListing e hResume
Dublin Core, Foaf, hCard, hCalendar, hReview, SIOC, GoodRelations,
Dbpedia, Freebase, hFeed e XFN
Uso de Vocabulários Arbitrários NÃO ??? SIM
![Page 38: Anotacao Semântica em Documentos Não Estruturados](https://reader030.fdocuments.net/reader030/viewer/2022012901/5496b5c7b479593d4d8b5021/html5/thumbnails/38.jpg)
Bibliografia
1. IWS – Internet World Stats. 2009. Disponível em: http://www.internetworldstats. com/pr/edi038.htm.
2. MOURA, ANA. 2004. Introdução a Web Semântica. http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm
3. LUIZA, Maria. O Papel de Ontologias em Sistemas de Informação.
4. Bernes-Lee T. The Semantic Web. http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2
5. Perreira H. Microformatshttp://revolucao.etc.br/archives/microformats
6. Nowack B. Embedded RDF (eRDF) Parser for PHPhttp://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php
7. POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D., GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http://www.ontotext.com/kim/>. Acesso em 25 ago 2009