O Lado Bom e Desconhecido da Camada mais Profunda da Web
-
Upload
vinicius-cardoso-garcia -
Category
Documents
-
view
1.311 -
download
6
description
Transcript of O Lado Bom e Desconhecido da Camada mais Profunda da Web
C.E.S.A.R - CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO
RECIFE
PRISCILA NAVARRO PEIXOTO DE OLIVEIRA
OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB
RECIFE, 2012
ii
C.E.S.A.R – CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE
OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB
Monografia apresentada ao programa de Especialização de Segurança em Engenharia de Software do Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R, como requisito para a obtenção do título de Especialista em Engenharia de Software com ênfase em Segurança.
Orientação: Prof. Vinicius Cardoso Garcia
RECIFE, 2012
iii
C.E.S.A.R – CENTRO DE ESTUDOS E SISTEMAS AVANÇADOS DO RECIFE
OS BENEFÍCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB
PRISCILA NAVARRO PEIXOTO DE OLIVEIRA
Monografia apresentada ao programa de Especialização de Segurança em Engenharia de Software do Centro de Estudos e Sistemas Avançados do Recife – C.E.S.A.R, como requisito para a obtenção do título de Especialista em Engenharia de Software com ênfase em Segurança.
Data de aprovação:
_____ / _____ / 2012. Banca examinadora: _____________________________ Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife _____________________________ Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife _____________________________ Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avançados do Recife
iv
AGRADECIMENTOS
Agradeço ao Senhor Jesus porque dele, e por meio dele e para ele são
todas as coisas.
Agradeço à minha mãe Sandra pela presença e apoio constante, sempre
buscando proporcionar os melhores meios para eu seguir o meu caminho.
Agradeço ao meu pai Múcio, meu grande amigo, meu porto seguro, fonte
de paz e tranquilidade.
Agradeço ao meu irmão, amigo e companheiro, presente do Senhor que
veio pra deixar a minha vida, e a dos meus pais, mais feliz.
Agradeço a Mauricio, meu amor, que me inspira, que me motiva e que me
fortalece em tudo que eu faço.
Agradeço à minha avó Eunice que sempre esteve fortemente presente na
minha vida e que agora descansa em paz no Senhor Jesus.
Agradeço à minha avó Verônica por sempre irradiar amor, tranqüilidade e
otimismo.
Agradeço aos meus tios e primos pela constante presença e certeza de
que sempre posso contar com eles.
Agradeço aos meus amigos pelo apoio, carinho e orações.
Agradeço aos meus colegas de curso por me acompanharem nesta
trajetória, principalmente aqueles mais próximos que se tornaram amigos.
Agradeço a Diego e ao professor Noilson por terem me levado a enxergar
além da Web superficial.
Agradeço ao meu orientador Vinicius Cardoso por abraçar e fortalecer o
meu tema, respondendo com agilidade, clareza e objetividade aos meus contatos.
Enfim, agradeço a toda a instituição C.E.S.A.R que me proporcionou o
ambiente e as ferramentas necessárias para eu concluir o curso.
vi
RESUMO
Pesquisando na Web sobre Invisible Web é mais comum encontrar textos
superficiais que a generalizam como um mero repositório de material ilícito.
Entretanto, a Invisible Web vai além de uma rede fechada que armazena
páginas daqueles que querem compartilhar conteúdo ilícito anonimamente.
Pode-se entender a Invisible Web como um termo que define todas as páginas
que não são indexadas pelos motores de busca convencionais, formando um
imenso universo de informação de relevante valor, invisível para a maioria
daqueles que utilizam a Web, mas visível para algumas empresas e instituições
importantes. Neste contexto, este verdadeiro tesouro merece uma reflexão
sobre a melhor forma de obter informação na Web e a necessidade de
pesquisas que a explorem através de inteligência acionável. Um único
buscador desenvolvido com algoritmos geniais, mas que se limita à camada
superficial da Web, parece uma opção prática, embora não aquela que colherá
os resultados mais satisfatórios.
Palavras-chave
Invisible Web. Deep Web. Surface Web. Motores de busca. Anonimidade
vii
ABSTRACT
When searching the Web about Invisible Web, it is more common to find
superficial texts, which generalizes it as a mere repository of illicit material.
However, the Invisible Web goes beyond a closed network that stores pages of
those who want to share illegal content anonymously. The term Invisible Web or
Deep Web refers to all the pages that are not indexed by conventional search
engines. Thus, forming an immense universe of valuable information invisible to
most web users, but visible to some companies and important institutions. In
this context, this is a true treasure that deserves a reflection on the best way to
get information from the Web and the need for research exploring through
actionable intelligence. Choosing a single search engine developed with genius
algorithms but limited to the superficial layer of the Web, seems to be a practical
option, although not one that will reap the most satisfactory results.
Key-words
Invisible Web. Deep Web. Surface Web. Search Engines. Anonymity.
viii
LISTA DE FIGURAS
FIGURA 1 - EDITOR DE PLANILHAS NA WEB. FONTE: AUTOR. .......................................................... 7
FIGURA 2 - ROTEAMENTO EM CAMADAS. FONTE: WIKIPEDIA. ...................................................... 14
FIGURA 3 - ANALOGIA DA WEB COMO UM OCEANO. FONTE: BRANDPOWDER. ................................ 18
FIGURA 4 - EXEMPLO DE UM ARQUIVO ROBOTS.TXT. FONTE: BLOGLOVIN. ...................................... 20
FIGURA 5 - EXEMPLO DO USO DA TAG NOINDEX. FONTE: FIGHTCYBERSTALKING................................ 21
FIGURA 6 - TELA DO APLICATIVO MEDNAR. FONTE: DEEPWEBTECHNOLOGIES. ............................... 34
FIGURA 7 - PORTAL SCIENCE.GOV. FONTE: AUTOR. .................................................................... 35
FIGURA 8 - PORTAL WORLDWIDESCIENCE.ORG. FONTE: AUTOR. ................................................. 36
FIGURA 9 - PORTAL XSEARCH. FONTE: AUTOR. ......................................................................... 37
FIGURA 10 - TELA DO SISTEMA DA INTEL. FONTE: DEEPWEBTECH.................................................. 38
FIGURA 11 - SITE HUMINT. FONTE: AUTOR............................................................................ 40
FIGURA 12 - PORTAL COMPLETEPLANET. FONTE: AUTOR. ........................................................... 41
FIGURA 13 - CONECTANDO À REDE TOR. FONTE: AUTOR............................................................. 44
FIGURA 14 - HIDDEN WIKI. FONTE: AUTOR. ............................................................................. 44
ix
LISTA DE SIGLAS
Sigla Significado
CERN Conseil Européen pour la Recherche Nucléaire
URL Uniform Resource Locator
HTTP Hypertext Transfer Protocol
HTML Hypertext Markup Language
W3C
RDF
XML
World Wide Web Consortium
Resource Description Framework
Extensible Markup Language
IP
TCP
OR
SSL
TOR
EUA
TMS
DOE
OSTI
LDAP
OSINT
US
GPS
VPN
SaaS
Internet Protocol
Transmission Control Protocol
Onion Routing
Secure Sockets Layer
The Onion Router
Estados Unidos da América
Portable Document Format
Texas Medical Center
Department of Energy
Office of Scientific and Technical Information
Lightweight Directory Access Protocol
Intelligence Open Source
United States
Global Positioning System
Virtual Private Network
Software as a service
x
SUMÁRIO
LISTA DE FIGURAS..................................................................................................VIII
LISTA DE SIGLAS ...................................................................................................... IX
1 INTRODUÇÃO .................................................................................................... 1
1.1 TEMA.................................................................................................................. 1
1.2 OBJETIVO GERAL ................................................................................................ 2
1.3 OBJETIVOS ESPECÍFICOS..................................................................................... 2
1.4 METODOLOGIA .................................................................................................. 2
1.5 JUSTIFICATIVA .................................................................................................... 2
1.6 ESTRUTURA DO DOCUMENTO ........................................................................... 4
2 FUNDAMENTAÇÃO TEÓRICA.............................................................................. 5
2.1 A INTERNET E A WORLD WIDE WEB ................................................................... 5
2.2 OS MOTORES DE BUSCA..................................................................................... 9
2.3 PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE ............................................. 12
2.4 ONION ROUTING .............................................................................................. 13
2.5 TOR................................................................................................................... 15
2.6 SURFACE WEB .................................................................................................. 17
2.7 INVISIBLE WEB.................................................................................................. 19
3 O BOM USO DA CAMADA MAIS PROFUNDA DA WEB ....................................... 32
3.1 CASO DE SUCESSO: DEEP WEB TECHNOLOGIES ............................................... 32
3.2 CASO DE SUCESSO: BRIGHTPLANET ................................................................. 38
3.3 DESMISTIFICANDO A WEB ANÔNIMA.............................................................. 42
4 CONSIDERAÇÕES FINAIS .................................................................................. 45
5 REFERÊNCIAS................................................................................................... 47
1
1 INTRODUÇÃO
1.1 TEMA
De acordo com Sami et al. (2010), no cenário Web o pesquisador tem
acesso a uma grande quantidade de informações através dos motores de
busca. Entretanto, os motores de busca convencionais rastreiam apenas a
camada mais superficial da Web, a Surface Web, deixando oculta uma imensa
quantidade de conteúdo numa camada mais profunda, a Invisible Web ou Deep
Web [1, 2].
Os motores de busca convencionais, como Google, Yahoo, Bing,
obtêm suas listas de duas formas. Na primeira, os autores apresentam as suas
próprias páginas da Web para a lista, geralmente uma quantidade menor. Já na
segunda, os motores rastreiam e indexam documentos seguindo de um link de
hipertexto para outro, através de programas chamados crawlers, que têm
limitações técnicas e critérios de seleção deliberados. Assim, as páginas que
não são contempladas formam um imenso universo. E neste contexto, afirma-
se que os motores de busca convencionais não contemplam o conteúdo da
Deep Web, que pode ser um conteúdo dinâmico servido em tempo real a partir
de um banco de dados, um formato não aceito ou, até mesmo, um conteúdo
excluído por uma escolha deliberada.
De acordo com dados apresentados por Bergman (2001), a Deep Web
é consideravelmente superior à Surface Web na qualidade e quantidade de
informações, assim como na aquisição de novas informações. Entretanto, a
supracitada camada é predominantemente definida como um espaço exclusivo
de práticas ilegais como terrorismo, pornografia, tráfico de drogas, entre outras,
apoiadas pelo anonimato oferecido por ferramentas que possibilitam o seu
acesso. E, consequentemente, um vasto repositório de sons, imagens, áudio e
outros formatos não indexados pelos crawlers se tornam inacessíveis à grande
parte daqueles que buscam informação.
2
1.2 OBJETIVO GERAL
Apresentar os benefícios pouco explorados da camada mais profunda
da Web que não são acessados pela maioria dos usuários que utilizam este
meio.
1.3 OBJETIVOS ESPECÍFICOS
� Apresentar a camada profunda da Web que é pouco conhecida por
grande parte daqueles que utilizam a Web.
� Realizar um estudo sobre os casos de sucesso no bom uso da Invisible
Web.
� Desmistificar o conceito da Invisible Web como um mero repositório de
conteúdo ilícito.
� Despertar o investimento de pesquisas na exploração inteligente da
Invisible Web.
1.4 METODOLOGIA
Utilizando a pesquisa bibliográfica, haverá um levantamento do
material já elaborado, constituído de livros (impressos e eletrônicos), páginas
eletrônicas das principais entidades envolvidas no assunto trabalhado,
pesquisas, artigos científicos, dissertações, entre outros, construindo a base
teórica do trabalho monográfico. A técnica de coleta de dados será a
observação indireta, através da leitura compreensiva e seletiva das publicações
levantadas.
1.5 JUSTIFICATIVA
Segundo Filho (2003), o século XX tem sido denominado como a Era
da Informação e, atualmente, a grande maioria das informações está disponível
3
em meios eletrônicos como a Internet. Entretanto, uma considerável parte
desta fonte está inacessível a um relevante número daqueles que buscam a
informação, e a parte que é acessível muitas vezes se apresenta carente de
qualidade, como afirmam Tomaél et al (2000).
Segundo Raghavan (2001), os motores de busca convencionais
contam com programas, os crawlers, que rastreiam as páginas estáticas da
camada mais superficial da Web, denominada Surface Web, percorrendo links
de hipertexto que apontam para outros links. Porém, este mecanismo tem
limitações técnicas que, somadas a escolhas deliberadas, excluem uma grande
quantidade de páginas, constituindo a Invisible Web ou Deep Web.
Um estudo apresentado por Bergman (2001) estimou que a Invisible
Web contém cerca de 7.500 terabytes de informação contra 19 terabytes da
Surface Web, 550 bilhões de documentos individuais, 200 mil sites, além de
possuir o maior crescimento na aquisição de novas informações e um conteúdo
mais profundo do que o encontrado na Surface Web. A qualidade total do
conteúdo da camada mais profunda da Web é de 1000 a 2000 vezes maior que
a camada mais superficial da Web. Somando-se a estes pontos, a Invisible
Web apresenta um conteúdo altamente relevante para cada necessidade de
informação, mercado e domínio, mais da metade reside em áreas específicas
do banco de dados e 95% da camada é composta de informação livre de taxas
ou assinaturas.
A Invisible Web apresenta bancos de dados que contemplam uma
variedade de áreas. Estes oferecem suporte à Educação com livros, textos,
planos de aulas, entre outros arquivos. Fornecem enciclopédia que cataloga
mais de 70 mil espécies de plantas e animais, além de proporcionar cobertura
às espécies raras e ameaçadas de extinção. Trazem portais que apresentam
milhares de revistas e notícias. Armazenam textos, artigos completos,
periódicos científicos e acadêmicos que abrangem Ciências, tópicos jurídicos e
uma diversidade de temas e linguagens, como descreve Lackie (2009).
Entretanto, apesar de existir tecnologias que difundem a exploração
desta rica fonte de informações, como a empresa BrightPlanet, a maioria da
sociedade que busca informações tem a Invisible Web como exclusivamente
um lugar que oferece anonimato para atividades ilegais ou simplesmente não
4
tem conhecimento da existência de uma camada mais profunda na Web,
ressalva Paganini (2012). Diante deste cenário, torna-se relevante um estudo
que pesquise, analise e descreva o vasto e rico conteúdo que a Invisible Web
pode oferecer para a sociedade.
1.6 ESTRUTURA DO DOCUMENTO
O presente relatório segue a seguinte estrutura:
� Capítulo 1 : introdução da pesquisa, abordando o tema, o objetivo, a
justificativa e a metodologia.
� Capítulo 2 : fundamentação teórica, contextualizando o leitor através da
descrição dos principais conceitos que envolvem o tema da pesquisa
abordada neste documento.
� Capítulo 3 : abordagem do bom uso da Invisible Web, objetivo principal
da pesquisa, através da apresentação de casos de sucesso que a
envolve, e desmistificação do conceito da Web anônima como um mero
repositório de conteúdo ilícito, apontando outros assuntos nela
encontrados.
� Capítulo 4 : considerações finais do estudo e pesquisa realizados.
5
2 FUNDAMENTAÇÃO TEÓRICA
2.1 A INTERNET E A WORLD WIDE WEB
A Internet, inicialmente denominada como Arpanet, foi desenvolvida
pelo Departamento de Defesa dos Estados Unidos no período da Guerra Fria,
com o objetivo de interligar as bases militares e os departamentos de pesquisa
do governo americano.
Atualmente, segundo Ferreira (1999), a Internet é uma “rede de
computadores de âmbito mundial, descentralizada e de acesso público, cujos
principais serviços oferecidos seriam o correio eletrônico e a Web”.
A World Wide Web ou simplesmente Web foi iniciada em 1989 por Tim
Berners-Lee no centro de pesquisa CERN (Conseil Européen pour la
Recherche Nucléaire) com a proposta de um grande sistema de hipertexto.
A ideia de hipertexto foi enunciada pela primeira vez por Vannevar
Bush em 1945, no artigo intitulado “As We May Think”. Entretanto, o termo
hipertexto, tem sua origem nos anos sessenta, com Theodor H. Nelson e seu
projeto Xanadu.
Segundo Lévy (1999, p.55, apud CUNHA, 2003, p.38):
A abordagem mais simples do hipertexto é descrevê-lo, em oposição a um texto linear, como um texto estruturado por nós (os elementos da informação, parágrafos, páginas, imagens, sequências musicais, etc.) e por links entre esses nós, referências, notas, ponteiros, “botões” indicando a passagem de um nó a outro.
Os links ou hiperlinks são apontadores num documento hipertexto para
outras partes do documento ou para outros documentos, que, segundo Koch
(2005), “permitem ao leitor realizar livremente desvios, fugas, saltos
instantâneos para outros locais virtuais da rede, de forma prática, cômoda e
econômica”.
6
Neste contexto de hipertexto aplicado à Internet, em 1990 Tim Berners-
Lee já contava com o apoio de Robert Cailliau e tinhas as principais
ferramentas necessárias para o funcionamento da Web.
Segundo Cunha (2003), ele percebeu que o conceito de hipertexto
poderia ser utilizado na grande rede de computadores em conjunto com três
tecnologias: Uniform Resource Locator (URL), um endereço único para cada
página na Web; Hypertext Transfer Protocol (HTTP), um protocolo de
transferência de dados; e HyperText Markup Language (HTML), uma
linguagem de marcação que descreve como os elementos (textuais e gráficos)
de uma página devem ser exibidos.
Dentre as ferramentas necessárias à Web, também está o navegador
ou browser, um programa de computador que permite aos usuários da Web o
acesso às páginas, e os servidores, responsáveis por receber, processar e
responder as requisições HTTP de clientes, geralmente um browser.
2.1.1 A evolução da Web
Desde o seu surgimento, a Web vive um processo evolutivo.
Inicialmente, denominada Web 1.0, oferecia um conjunto de páginas estáticas
ligadas, cujo conteúdo era alimentado apenas pelos seus responsáveis, tendo
o usuário como um mero receptor de informação.
A atual fase, após um rápido e grande crescimento, recebeu de Tim
O’Reilly o termo Web 2.0, oriundo de uma série de conferências promovidas
pela O’Reilly Media e a MediaLive International, que trouxe uma segunda
geração de serviços.
Segundo O’Reilly (2005), citado por Primo (2007), não há como
demarcar precisamente as fronteiras da Web 2.0. Trata-se de um núcleo ao
redor do qual gravitam princípios e práticas que aproximam diversos sites que
os seguem. Um desses princípios fundamentais é trabalhar a Web como uma
plataforma, ou seja, serviços como editor de textos e planilhas, que antes só
poderiam ser utilizados através de sua instalação no computador, agora são
disponíveis online. Na Figura 1, pode-se observar uma planilha disponível na
7
Web, recurso oferecido pelo Google Docs, um pacote de aplicativos da
empresa Google, que também disponibiliza a criação e o compartilhamento de
documentos, formulários, entre outros.
Figura 1 - Editor de planilhas na Web. Fonte: Autor1.
Dentre outros serviços estão as Wikis, páginas para compartilhamento
de textos, imagens e vídeos, redes sociais. As Wikis são páginas como a
Wikipedia, uma enciclopédia com conteúdo livre que permite o usuário ler,
editar e criar artigos. O’Reilly (2005) enfatiza uma arquitetura de participação
em que quanto mais usuários na rede, mais arquivos se tornam disponíveis.
Assim, páginas estáticas perderam espaço para um conteúdo dinâmico que é
gerado pelos próprios usuários.
Diante deste imenso e crescente volume de compartilhamento, cresce
a importância de ferramentas que possibilitam encontrar conteúdo relevante no
meio deste caos de informações. Neste contexto, o World Wide Web
Consortium ou W3C liderado por Tim Berners-Lee trabalha atualmente no
desenvolvimento da Web 3.0 ou Web Semântica.
1 Imagem capturada pelo autor a partir da tela do aplicativo.
8
Segundo o W3C, a Web 3.0 tem o objetivo de trazer “novas maneiras
de conectar a Internet através de uma variedade de dispositivos capazes de
pesquisar, combinar e analisar os dados”.
De acordo com Berners-Lee (2007, apud JARDIM, 2010, p.20):
A Web Semântica é sobre a colocação de arquivos de dados na Web. Não é apenas uma Web de documentos, mas também de dados. A tecnologia de dados da Web Semântica terá muitas aplicações, todas interconectadas. Pela primeira vez haverá um formato comum de dados para todos os aplicativos, permitindo que os bancos de dados e as páginas da Web troquem arquivos.
Berners-Lee et al. (2001, apud JARDIM, 2010) afirmam ainda que a
Web 3.0 é uma extensão da Web atual, em que a informação tem um
significado claro e bem definido, possibilitando uma melhor interação entre
computadores e pessoas.
A Web tradicional foi desenvolvida para ser entendida apenas pelos usuários, já a Web Semântica foi idealizada para ser compreendida também pelas máquinas. Para isso utiliza diversas tecnologias, que são capazes de operar de maneira eficiente sobre as informações, podendo entender seus significados, assim, auxiliando os usuários em operações na Web (Dziekaniak et al., 2004, apud JARDIM, 2010, p.22).
Segundo o W3C, a Web Semântica foi inicialmente pensada para ser
construída com base na flexibilidade da combinação do Resource Description
Framework (RDF) e o Extensible Markup Language (XML), trazendo uma
representação da informação compreensível para a máquina. Propõe-se que a
Web seja mais que um repositório de documentos para exibição, mas de
automação, integração e reuso em sistemas diferentes. Os dados não são
apenas apresentados, mas também interpretados e compartilhados com
organização em escala e completa integração de recursos.
9
2.2 OS MOTORES DE BUSCA
Desde o princípio da Internet houve a preocupação com a criação de
ferramentas para localização da informação e, desta forma, surgiram dois tipos
básicos: os diretórios e os motores de buscas ou search engines.
Os diretórios foram criados quando o conteúdo da Web era pequeno o
suficiente para ser pesquisado de forma manual. Os sites são coletados por
pessoas, os editores, ou por robôs, e são organizados hierarquicamente pelo
assunto, permitindo aos usuários navegarem entre categorias e subcategorias.
Os motores de busca surgiram com o significativo aumento dos
recursos da Web que tornou inviável a coleta manual dos sites e a busca por
navegação. Possuindo uma base de dados com uma grande quantidade de
itens, permite a busca por palavras-chave ou linguagem natural.
Um motor de busca é composto por quatro partes: o robô ou crawler,
um programa que percorre automaticamente a Web seguindo links encontrados
nas páginas; o indexador, que processa as páginas acessadas pelo crawler e
constrói a base de dados; o motor de busca, propriamente dito, que localiza na
base de dados o item pesquisado; e a interface, uma página Web que permite
ao usuário realizar a pesquisa.
Os crawlers tentam obter o maior número possível de páginas da Web
e possuem diversas estratégias para percorrerem os links existentes. Na
maioria das vezes iniciam o percurso nos sites mais conhecidos e utilizam seus
próprios algoritmos para determinarem quais links seguirão. A coleta de
páginas também pode ser realizada pela sugestão dos usuários que têm a
opção de não esperar pela varredura regular dos robôs.
As informações contidas nas páginas HTML localizadas pelos crawlers
são extraídas pelos indexadores e armazenadas na base de dados. A interface,
geralmente uma página Web, permite que o usuário realize uma consulta
transmitindo-a ao motor de busca, programa que localiza o item pesquisado na
base de dados e retorna o resultado (uma lista de sites), contendo a descrição
e o link, ordenados de acordo com a relevância.
De acordo com Cedón (2001), os motores de busca se diferem entre si
levando em consideração o tamanho da base de dados, os critérios para
10
indexação e inclusão de páginas, além de sua interfade de busca, frequência
de atualização das páginas e ordenação dos resultados.
O tamanho da base de dados, geralmente medido pelo número de
URLs, é um parâmetro relevante para que uma ferramenta de busca seja boa,
considerando que a informação só pode ser localizada numa pesquisa se a
ferramenta a tiver incluído. Um motor que abrange um maior número de URLs
tem maior probabilidade de conter a informação procurada e,
consequentemente, tende a ser mais usado. Entretanto, vale ressaltar que
nenhum deles consegue conter todas as páginas existentes.
Um motor de busca cria índices para tornar dinâmica a busca em sua
base de dados. Neles são inseridos todos os termos que podem ser usados
numa pesquisa e as URLs das páginas que os contêm. A posição das palavras
nas páginas e tags HTML associadas ao texto podem também serem
armazenadas para facilitar a recuperação e ordenação dos resultados. Um
termo que não é incluído no índice não pode ser localizado, assim, os critérios
de indexação influenciam consideravelmente o resultado de uma pesquisa.
Os motores de busca geralmente indexam cada palavra visível de uma
página. Porém, alguns retiram apenas as palavras mais frequentes, ou as
URLs, ou as principais palavras. Há também aqueles que incluem nos índices
outros termos que não são visíveis, mas que contém informações úteis, como
os textos encontrados nos metatags de classificação, descrição e palavras-
chave e o ALT da tag image.
De acordo com Cédon (2001):
Os metatags de classificação fornecem uma palavra-chave que define o conteúdo da página. Os de descrição retornam a descrição da página feita pelo seu autor no lugar do resumo que o robô criaria automaticamente. Os de palavra-chave fornecem as palavras-chave designadas para descrever seu conteúdo ou assunto. Por exemplo, no metatag <META name = “keyword” content=”Brasil, informação para negócios”>, as palavras Brasil e informação para negócios podem não fazer parte do texto visível da página, entretanto foram indicadas pelo seu autor como indicadores do assunto sobre os quais a página versa.
11
Os critérios utilizados para a inclusão de páginas estabelecem o
número de itens que compõem a base de dados dos motores de busca. Alguns
tentam incluir todas as páginas de um site, outros incluem apenas as principais
páginas. Além do formato HTML, é crescente a variedade coletada e indexada
pelos motores.
O dinamismo que caracteriza a Internet traz aos motores de busca a
necessidade de ter a sua base de dados atualizada, adicionando, alterando ou
excluindo novas páginas. E para isso, cada motor possui critérios e tecnologia
própria para manter esta atualização.
A interface de busca é outro parâmetro que difere um motor de busca.
De forma geral, oferecem dois tipos de pesquisa, simples e avançada. A busca
avançada se distingue da busca simples por permitir que os usuários utilizem
expressões booleanas, além de recursos como truncamento, pesquisa por
frase, sensibilidade à caixa de caracteres (caixa-alta ou caixa-baixa), limitação
por data, domínio, idioma e formato de arquivo.
Diante da quantidade de páginas existentes, geralmente uma pesquisa
retorna um grande número de páginas, tornando a ordenação dos resultados
um importante critério na caracterização de um motor de busca. Considerando
duas ferramentas que trazem a mesma quantidade de itens para uma busca, a
melhor será aquela que fornece os itens mais relevantes entre os primeiros
resultados. Assim, a maioria dos motores de busca utiliza algoritmos de
ordenação dos resultados que levam em consideração uma série de
parâmetros que eles definem.
Google Search é um motor de busca convencional que permite a busca
de informação na camada mais superficial e se destaca entre os mais
importantes buscadores por algumas razões. O crawler do Google, o
Googlebot, busca por novas informações diariamente. O referido buscador
possui ainda um algoritmo, desenvolvido pelos próprios fundadores Larry Page
e Sergey Brin, "que atribui uma pontuação a uma página Web, de acordo com
a quantidade e a qualidade das ligações (externas ou internas) que apontem
para ela”, como afirma a Wikipédia. O Google Search também oferece o
recurso “em cache”, que permite o acesso a sites que já não existem mais,
além de possuir uma interface simples, clara e leve.
12
Entretanto, Cédon (2001) ressalva que, apesar da grande quantidade
de informações na Web supracitada neste documento e das inúmeras
ferramentas de pesquisa disponíveis, o usuário fica frequentemente frustrado
diante dos insatisfatórios resultados retornados por este complexo universo dos
motores de busca e os critérios adotados por eles.
2.3 PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE
Segundo Ishitani (2003), privacidade é um conceito abstrato, que tem
seu valor e extensão variados de acordo com cada pessoa. No contexto da
Web, Wang et al afirma que “privacidade geralmente se refere a informações
pessoais, e invasão de privacidade é geralmente interpretada como coleta,
publicação ou outro uso não autorizado de informações pessoais, como um
resultado direto de transações”. E para Westin (1987), privacidade de
informações é “a reivindicação de indivíduos, grupos ou instituições de
poderem determinar quando, como e quanto de suas informações podem ser
divulgadas a outros”.
De acordo com Wang (1998, apud ISHITANI, 2003):
As ferramentas de encriptação são as mais utilizadas e as que obtiveram mais sucesso com relação à proteção da privacidade de usuários da Internet. A vantagem dessas ferramentas é impedir que um terceiro compreenda o conteúdo de mensagens transmitidas entre dois outros indivíduos. Consequentemente, se um terceiro não é capaz de entender uma mensagem, não haverá interesse em coletar e armazenar essas informações.
Entretanto, Ishitana (2003) ressalva que esta prática não é plenamente
eficiente contra a mineração de dados, pois mesmo sem a possibilidade de ter
o conteúdo de uma mensagem revelado, ainda é possível saber o endereço IP
do cliente e servidor, o comprimento dos dados permutados, a hora em que
uma comunicação foi realizada e a frequência das transmissões. Desta forma,
13
a encriptação deve ser utilizada em conjunto com outras opções de tecnologia
para proteção da privacidade, como programas e protocolos de criptografia.
O “anonimato, ou ocultamento do nome do autor de uma ação ou obra,
representa uma forma antiga de agir ou produzir obras, com a proteção da
privacidade da identidade do autor da ação ou obra”, afirma Ishitani (2003). O
seu uso pode ter objetivos socialmente lícitos e ilícitos. Dentre os objetivos
lícitos, pode-se mencionar testemunho e denúncia de crimes, participação em
grupos de ajuda, entre outros. Quanto ao uso ilícito do anonimato, há fraudes,
envio de mensagens ameaçadoras, ações criminosas e terroristas, entre outras
práticas.
Ainda para Ishitani (2003), a anonimidade é útil para proteger a
privacidade. E, no âmbito da Web, o nome que se deseja proteger é o
endereço IP, pois estes podem conter informações pessoais, serem utilizados
para correlacionar atividades de diferentes sites e revelar a identidade de um
usuário. Vale mencionar que existem a pseudo-anonimidade e a anonimidade
de uma única vez. A diferença é que o pseudônimo é contínuo, podendo ser
utilizado pelo usuário mais de uma vez, e associado a um conjunto de
mensagens.
Uma falha de anonimidade acontece quando não se protege a
anonimidade de um usuário ao permitir que o conteúdo de uma transação
informe a identidade do usuário ao servidor Web. Muitas ferramentas Web de
anonimidade se baseiam no uso de proxies.
O proxy tem o papel de submeter as requisições Web em nome dos
usuários, assim, o seu IP é o único revelado aos sites. Considerando o fato de
o proxy conhecer a identidade dos usuários, a vulnerabilidade deste sistema se
encontra na possibilidade de alguém passar a ter o controle do proxy,
monitorando os remetentes e destinatários de todas as comunicações.
2.4 ONION ROUTING
De acordo com Dingledine et al. (2004), Onion Routing é uma rede
sobreposta distribuída que fornece anonimidade a aplicativos baseados TCP,
14
como navegadores Web, secure shell e mensagens instantâneas. Os clientes
escolhem um caminho através da rede e constroem um circuito, em que cada
nó ("onion router" ou "or") no caminho conhece seu antecessor e sucessor,
mas não os outros nós do circuito. O roteamento depende do uso de
criptografia de chave pública, que permite criptografar em camadas, de tal
forma que apenas o receptor de uma camada destinada pode decifrar a
mensagem com sua chave privada.
De forma mais detalhada, Carvalho (2010) afirma que cada router
define o próximo e criptografa a mensagem usando a chave pública do router
de destino. Assim, é gerada uma estrutura em camadas, conforme apresentado
na Figura 2, em que para chegar na mensagem original é necessário
decodificar todas as camadas externas, através do uso da chave privada de
cada roteador do caminho, na ordem predeterminada.
Figura 2 - Roteamento em camadas. Fonte: Wikipedia1.
Depois de estabelecido, o caminho permanece ativo para transmissão
de dados por certo período. Neste tempo, o remetente pode enviar mensagens
que serão “descascadas” (analogia às camadas de uma cebola), ou seja,
descriptografadas pela chave privada do router, dificultando a associação entre
mensagens que dele entram e saem.
11
http://en.wikipedia.org/wiki/File:Onion_diagram.svg, acesso em julho de 2012.
15
Carvalho (2010) ressalva que um dos pontos fracos se encontra no fato
de que “nós de saída das redes OR dão acesso completo ao conteúdo
transmitido (via sniffing) e, portanto, a rede não deve ser utilizada para
transmitir informações confidenciais sem o uso de criptografia fim-a-fim, como
SSL”. No próximo tópico, o onion routing será um pouco mais detalhado,
através da descrição de um projeto que o implementa.
2.5 TOR
The Onion Router, também conhecido como Tor1, é um software livre
da segunda geração do onion routing. E, de acordo com a sua página oficial, é
uma rede aberta que auxilia a defesa contra uma forma de vigilância que
ameaça a liberdade e privacidade de negócios e relacionamentos
confidenciais, assim como a segurança do Estado, conhecida como análise de
tráfego.
Tor foi originalmente concebido, implementado e implantado como a
terceira geração de um projeto de roteamento em camadas do Laboratório de
Pesquisa Naval dos EUA. Originalmente desenvolvido com a Marinha dos
EUA, tinha o propósito principal de proteger as comunicações do governo.
Hoje, ele é usado todos os dias por uma grande variedade de perfis e
propósitos.
A ferramenta descrita é uma rede de túneis virtuais que permite
pessoas e organizações aumentarem a sua segurança e privacidade na
Internet. Ele também permite que desenvolvedores de software criem novas
ferramentas de comunicação com características de privacidade embutidas.
Tor fornece a base para uma gama de aplicações que possibilitam
organizações e indivíduos partilharem informação através de redes públicas,
sem comprometer a sua privacidade.
A variedade de pessoas que o utilizam é parte do que o faz tão seguro.
Tor esconde o usuário entre os outros usuários na rede, de modo que o quanto
1 https://www.torproject.org
16
maior e mais diversificada for a base de usuários do Tor, mais o seu anonimato
será protegido.
Tor oferece proteção contra uma forma comum de vigilância na Internet
conhecida como "análise de tráfego”, como foi mencionado nas primeiras linhas
deste tópico. A análise de tráfego pode ser usada para inferir quem está
falando com quem, através de uma rede pública. Conhecer a origem e o
destino do seu tráfego na Internet permite que outro deduza os seus hábitos e
interesses.
Na análise de tráfego, pacotes de dados na Internet tem duas partes:
um bloco de dados e um cabeçalho usado para o encaminhamento. O bloco de
dados é o que está sendo enviado, podendo ser uma mensagem de e-mail,
uma página Web ou um arquivo de áudio. Mesmo se um indivíduo criptografa a
carga de dados de suas comunicações, a análise de tráfego ainda revela muita
coisa sobre o que ele está fazendo e, possivelmente, o que ele está dizendo.
Isso porque a tecnologia aqui apresentada se baseia no cabeçalho, o que
revela origem, destino, tamanho, timing, e assim por diante.
Um problema básico de privacidade é que o receptor pode ver o que o
emissor envia através dos cabeçalhos. Estes receptores pode ser
intermediários autorizados, como provedores de Internet, e, algumas vezes,
intermediários não autorizados também. Uma forma muito simples de análise
de tráfego pode envolver alguma parte da sessão entre o remetente e o
destinatário na rede, através dos cabeçalhos.
Mas também existem formas mais poderosas de análise de tráfego.
Alguns atacantes espiam múltiplas partes da Internet e usam técnicas
estatísticas sofisticadas para rastrear os padrões de comunicação de muitas
organizações e indivíduos. Criptografia não protege contra estes ataques, pois
apenas esconde o conteúdo do tráfego da Internet, não os cabeçalhos.
Tor promete reduzir os riscos tanto da análise de tráfego simples
quanto da sofisticada, distribuindo as suas transações por vários pontos na
Internet, tornando difícil a identificação dos pacotes de dados observados na
rede . Em vez de seguirem uma rota direta desde a origem até o destino, os
pacotes na rede Tor seguem um caminho aleatório através de diversos
servidores, que ocultam a sua passagem de forma que um observador em
17
qualquer ponto não tenha condições de afirmar de onde vêm os dados e nem
para onde vão.
Para criar um caminho privado na rede com Tor, o software do usuário
constrói incrementalmente um circuito de conexões encriptadas entre
servidores na rede. O pacote é passado de um servidor para outro e cada
servidor conhece apenas a máquina que o entregou e a máquina que o
receberá. Nenhum servidor conhece o caminho que um pacote percorreu e
cada nó do circuito tem um conjunto separado de chaves de encriptação,
garantindo que um nó não rastreie as conexões na passagem dos pacotes.
Uma vez que o circuito tenha sido estabelecido, muitos tipos de dados
podem ser trocados e vários tipos diferentes de aplicações de software podem
ser implementadas através da rede Tor. Como cada nó não vê mais do que um
salto no circuito, nem um espião, nem um servidor comprometido pode usar a
análise de tráfego para ligar a fonte do pacote ao destino.
2.6 SURFACE WEB
Bergman (2001) compara a pesquisa na Internet como lançar uma rede
na superfície de um oceano. De forma análoga, uma grande quantidade de
informações é capturada pela rede, mas uma imensa quantidade localizada
numa área mais profunda não é alcançada. Esta porção capturada é
denominada Surface Web e a porção mais profunda é conhecida como
Invisible Web ou Deep Web ou, ainda, Hidden Web. A Figura 3 ilustra a
analogia da Web como o oceano, enfatizando uma camada superficial
acessível aos motores de busca convencionais, como o Google, e uma camada
mais profunda de menor alcance.
18
Figura 3 - Analogia da Web como um oceano. Fonte: Brandpowder1.
Os motores de busca tradicionais rastreiam as páginas da Surface
Web, mas não incluem o conteúdo da Invisible Web, que, de uma forma geral,
é criado dinamicamente conforme o resultado de uma pesquisa específica ou
tem um formato não aceito ou, ainda, não é contemplado pelos seus critérios
de escolha . Assim, pelo fato dos indexadores dos mecanismos tradicionais de
busca não poderem sondar abaixo da superfície, as páginas da camada mais
profunda têm sido invisíveis para a maioria daqueles que buscam informação.
Enfatizando a diferença entre a Surface Web e Invisible Web, Bergman
mencionou um estudo realizado pela BrightPlanet, que quantificou o tamanho e
a relevância da Web mais profunda.
Entre os dados apontados, a Invisible Web contém 7.500 terabytes de
informação em comparação com dezenove terabytes de informação na Surface
Web. A Web profunda contém cerca de 550 bilhões de documentos individuais
em relação a um bilhão da Web superficial. Sessenta dos maiores sites da
Invisible Web juntos excedem o tamanho da Surface Web em quarenta vezes.
A Web profunda é a maior categoria crescente de novas informações sobre a
Internet e seus sites tendem a ter um conteúdo mais profundo do que os sites
da camada convencional. A qualidade do conteúdo da Web profunda é de
1.000 a 2.000 vezes maior do que a Web superficial.
1 http://brandpowder.files.wordpress.com/2011/10/deep-web.jpg, acesso em março de 2012.
19
2.7 INVISIBLE WEB
Sherman et al. (2003) afirmam que a Invisible Web são as páginas de
texto, arquivos ou informação, muitas vezes de alta qualidade, disponíveis na
World Wide Web, que os motes de busca convencionais não podem, devido a
limitações técnicas ou escolha deliberada, adicionar aos seus índices.
No seu nível mais básico, os motores de busca são projetados para
indexar a Web e programas chamados crawlers para encontrar e recuperar
páginas Web armazenadas em servidores de todo o mundo.
Texto, mais especificamente o hipertexto, é o meio fundamental da
Web. A principal função dos motores de busca é ajudar os usuários a
localizarem documentos de interesse em hipertexto. Os motores de busca são
altamente afinados e otimizados para lidar com páginas de texto e, mais
especificamente, as páginas de texto que foram codificados com o HyperText
Markup Language (HTML).
À medida que a Web se desenvolve e outras mídias se tornam
comuns, os motores de busca oferecem novas formas de pesquisar
informações. Mas, por agora, a função central da maioria dos motores de
busca Web é ajudar os usuários a localizar documentos de texto.
Documentos HTML são simples. Cada página tem duas partes: um
"cabeçalho" e um "corpo" que são claramente separados no código fonte de
uma página HTML. O cabeçalho contém um título no topo da janela de um
navegador e também pode conter alguns metadados adicionais que descrevem
o documento e podem ser usados por um motor de busca para ajudar a
classificar o documento. Para a maior parte, além do título, o cabeçalho de um
documento contém informações e dados que ajudam o navegador a exibir a
página, mas é irrelevante para um motor de busca.
A parte do corpo contém o documento propriamente dito e se
apresenta como a porção que o motor de pesquisa deseja explorar.
A simplicidade do formato HTML torna mais fácil para os motores de
busca a recuperação dos documentos, ou seja, indexar cada palavra em cada
página e armazená-los em enormes bancos de dados que podem ser
pesquisados sob demanda.
20
Os problemas surgem quando o conteúdo não é compatível com este
modelo simples de página web. Para entender o porquê, é válido considerar o
processo de rastreamento e os fatores que influenciam se uma página poderá
ou não ser rastreada e indexada com sucesso.
A primeira coisa que um crawler tenta determinar é se o acesso à
página desejada contida no servidor é restrito. Há três métodos para prevenir
que um motor de busca realize a indexação de uma página. Dois métodos
usam técnicas de bloqueio especificadas no Robots Exclusion Protocol, que a
maioria dos rastreadores voluntariamente honram, criando-se uma barreira
técnica que não pode ser contornada.
O Robots Exclusion Protocol é um conjunto de regras que permitem
especificar quais partes de um servidor são abertas aos crawlers e quais são
restritas. O desenvolvedor simplesmente cria uma lista de arquivos ou
diretórios que não devem ser rastreados ou indexados e salva esta lista no
servidor em um arquivo chamado robots.txt, opcional e armazenado por
convenção no nível superior de um site. A Figura 4 apresenta um exemplo de
um arquivo do tipo Robots Exclusion Protocol.
Figura 4 - Exemplo de um arquivo robots.txt. Fonte: Bloglovin1.
O segundo meio de prevenir a indexação de uma página funciona da
mesma maneira que o arquivo robots.txt, entretanto, é específico para página.
1 http://www.bloglovin.com/en/blog/3311583/blog-walker, acesso em julho de 2012.
21
O desenvolvedor inclui uma metatag noindex no cabeçalho do documento,
como se pode observar no exemplo da Figura 5. A única diferença entre a
metatag noindex e o arquivo robots.txt é que a metatag é específica da página,
enquanto o arquivo pode ser usado para impedir a indexação de páginas
individuais, grupos de arquivos, ou até mesmo sites inteiros.
Figura 5 - Exemplo do uso da tag noindex. Fonte: Fightcyberstalking1.
O uso de uma senha é o terceiro meio de impedir o rastreamento e a
indexação de uma página por um motor de busca. Esta técnica é muito mais
forte que as duas primeiras, uma vez que utiliza uma barreira técnica, e não um
padrão voluntário. Porém, páginas protegidas por senha podem ser acessadas
apenas pelos seletos usuários que sabem a senha, diferente das páginas que
usam o Robots Exclusion Protocol e permitem seu acesso à qualquer pessoa,
exceto o de um motor de busca.
Páginas usando qualquer um dos três métodos descritos acima fazem
parte da Invisible Web. Em muitos casos, eles não contêm obstáculos técnicos
que impedem o rastreamento e a indexação das páginas. Eles fazem parte
1 http://www.fightcyberstalking.org/online-safety-tips/how-to-block-your-website-from-the-search-
engines.html, acesso em maio de 2012.
22
desta camada porque o desenvolvedor optou por mantê-los fora dos motores
de busca.
Quando o crawler verifica se é permitido o acesso a uma página, o
próximo passo é tentar capturá-la e entregá-la ao indexador do motor de busca.
Este passo crucial determina em grande parte se uma página é visível ou
invisível.
2.7.1 Barreiras dos crawlers
Sherman et al. (2003) listou e examinou algumas dificuldades
encontradas pelos crawlers na descoberta de páginas na Web, usando a
mesma lógica que eles fazem para determinar se uma página é indexável ou
não.
2.7.1.1 Caso 1
O pesquisador encontra uma página que contém texto HTML simples,
eventualmente incluindo alguns elementos gráficos básicos. Este é o tipo mais
comum de página Web. É visível e pode ser indexada, assumindo que o
crawler pode encontrá-la.
2.7.1.2 Caso 2
O crawler encontra uma página feita de HTML, mas é um formulário,
composto de campos de texto, caixas de seleção, ou outros componentes que
requerem entrada do usuário.
Pode ser uma página de login, exigindo um nome de usuário e senha.
Pode ser um formulário que requer a seleção de uma ou mais opções. O
formulário em si, uma vez que é feito de HTML simples, pode ser capturado e
indexado. Mas o conteúdo que está por trás pode ser invisível para um motor
de busca. E, neste caso, há duas possibilidades.
23
O formulário é usado simplesmente para selecionar as preferências do
usuário e as outras páginas sobre o site consistem em HTML simples que pode
ser rastreado e indexado. Neste caso, a forma e o conteúdo por trás dele são
visíveis e podem ser incluídos em um índice do motor de busca. A outra
possibilidade ocorre quando o formulário é usado para coletar informações
específicas do usuário que irão gerar páginas dinâmicas após submter a
informação. Neste exemplo, embora o formulário seja visível, o conteúdo
dinâmico é invisível,considerando que única maneira de acessar o conteúdo é
inserindo dados no formulário e o fato de o crawler ser projetado simplesmente
para solicitar e buscar páginas.
A tendência é ter os formulários representando menos dificuldade para
os motores de busca, uma vez que estão em andamento projetos visando a
criação de crawlers mais inteligentes, capazes de preencher formulários e
recuperar informações. Entretanto, não é um problema trivial e se estima que a
indexação de todo o conteúdo da Invisible Web possa levar até 50 anos,
segundo Sherman (2003).
2.7.1.3 Caso 3
O pesquisador encontra uma página montada dinamicamente e exibida
sob demanda. Tecnicamente, essas páginas são parte da camda visível.
Crawlers podem buscar qualquer página que pode ser exibida em um
navegador Web, independentemente se é uma página estática armazenada
em um servidor ou gerada dinamicamente.
Páginas geradas dinamicamente representam um desafio para os
crawlers. As páginas dinâmicas são criadas por um script, um programa de
computador que monta uma página personalizada a partir da seleção de várias
opções. Até que o script é realmente executado, um crawler não tem nenhuma
maneira de saber o que esse código vai realmente fazer.
O script deve simplesmente montar uma página Web personalizada.
Infelizmente, desenvolvedores antiéticos criaram scripts maliciosos que podem
24
sobrecarregar os crawlers, gerando inúmeras páginas falsas de spam ou os
inserindo em loops infinitos.
Estas armadilhas podem ser bastante desagradáveis para os motores,
por isso a maioria simplesmente toma a decisão de não rastrear ou indexar
URLs que geram conteúdo dinâmico. Entretanto, essa decisão é flexível,
podendo existir o rastreamento e a indexação de sites gerados dinamicamente,
a partir do momento em que passam a ser conhecidos como confiáves para os
motores de busca
Uma alternativa que reduziu as barreiras para o conteúdo dinâmico é a
crescente adoção de programas denominados paid inclusion pelos principais
motores de busca. Estes programas são projetados para permitir que se
especifique as páginas que devem ser rastreadas e indexadas em troca de
uma taxa anual. As páginas que violarem as políticas dos motores de busca
estarão sujeitas à remoção do índice. Paid inclusion é um meio dos motores de
busca confiarem no conteúdo dinâmico, na teoria de que ninguém estaria
disposto a pagar apenas para ter seu conteúdo removido de qualquer maneira.
2.7.1.4 Caso 4
O pesquisador encontra uma página que não há nada para indexar.
Existem inúmeras páginas compostas de HTML básico, mas que contêm
apenas Flash, imagens, mídia streaming ou outros elementos não textuais no
corpo. Estes tipos de páginas são verdadeiramente parte da camada invisível
porque não há conteúdo que os motores possam indexar.
Os motores de busca especializados em multimídia são capazes de
reconhecer alguns desses tipos de arquivos não textuais e indexar o mínimo de
informação sobre eles, tais como nome do arquivo e tamanho, porém são de
longe soluções que atendam as buscas por palavras-chave.
25
2.7.1.5 Caso 5
O pesquisador encontra um site que oferece dados dinâmicos e em
tempo real. Há uma grande variedade de sites que fornecem este tipo de
informação, que vão desde cotação de ações em tempo real a informação de
chegada de vôo de companhia aérea. Estes são também parte da Invisible
Web porque o fluxo desses dados são, de um ponto de vista prático, não
indexáveis. Embora seja tecnicamente possível, o valor seria apenas para fins
históricos e, considerando a enorme quantidade de dados capturados e a
necessidade de uma maior capacidade de armazenamento de um motor de
busca, seria um exercício fútil.
2.7.1.6 Caso 6
O pesquisador encontra um arquivo PDF ou Postscript. PDF e
PostScript são formatos de texto que preservam a aparência de um
documento, exibindo-o de forma idêntica, independentemente do tipo de
computador usado para visualizá-lo. Enquanto muitos motores de busca
indexam arquivos PDF, a maioria não indexam o texto integral dos
documentos.
2.7.1.7 Caso 7
O pesquisador encontra um banco de dados que oferece uma interface
Web. Existem dezenas de milhares de bases de dados contendo informação
extremamente valiosa disponível através da Internet. Mas os motores de busca
não podem indexar o material em si. Apesar de mencionar como um caso
único, este cenário representa essencialmente uma combinação dos casos 2
e 3.
Os bancos de dados geram páginas Web de forma dinâmica,
respondendo aos comandos emitidos através de um formulário HTML. Embora
a interface para o banco de dados é um formulário HTML, o próprio banco de
26
dados pode ter sido criado antes do desenvolvimento do HTML e seu sistema
legado é incompatível com os protocolos utilizados pelos motores, ou podem
exigir o registro para acessar os dados. Eles também podem ser proprietários,
acessível apenas para usuários selecionados ou que pagaram uma taxa de
acesso.
Ironicamente, a especificação HTTP original desenvolvida pelo inventor
da Web Tim Berners-Lee incluiu um recurso chamado formato de negociação
que permitiu a um cliente dizer quais tipos de dados poderia manipular e
permitiu que um servidor retornasse dados em qualquer formato aceitável.
A visão de Berners-Lee abrangeu as informações na Invisible Web,
mas esta visão, pelo menos do ponto de vista do motor de busca, tem sido
largamente não realizada.
2.7.2 Os quatro tipos da Invisible Web
De acordo com Sherman et al. (2003), além razões técnicas, há outros
motivos que fazem alguns tipos de conteúdo não serem acessados dentro ou
através da Internet porque não são incluídos pelos motores de busca.
Sherman et al. (2003) afirmaram que há quatro tipos de conteúdo na
Invisible Web para facilitar a ilustração do limite amorfo que torna tão difícil a
definição da Invisible Web. Estes quatro tipos são “Opaque” Web, Private Web,
Proprietary Web e Truly Invisible Web.
2.7.2.1 Opaque Web
A “Opaque” Web consiste nos arquivos que podem ser, mas não são,
incluídos nos índices de pesquisas. A Web Opaque é muito grande e apresenta
um desafio único para um pesquisador, considerando que o conteúdo profundo
em muitos sites é acessível se souber como encontrá-lo.
A maior parte consiste em arquivos que os motores de busca podem
rastrear e indexar, mas simplesmente não o fazem. Sherman et al. (2003)
apontaram uma variedade de razões para isso, descritas logo abaixo
27
Profundidade de rastreamento
O rastreamento de um site é uma operação que consome muitos
recursos. Custa dinheiro para um motor de busca rastrear e indexar todas as
páginas de um site. No passado, a maioria dos motores selecionava apenas
algumas páginas de um site ao invés de executar um "rastreamento profundo”
que indexava cada página, partindo do pensamento que uma amostra fornecia
uma representação boa e suficiente de um site, satisfazendo as necessidades
da maioria dos pesquisadores. A limitação da profundidade de rastreamento
também reduzia o custo da indexação de um site particular.
De uma forma geral, os motores de busca não revelam como se define
a profundidade de rastreamento dos sites. Cada vez mais, há uma tendência
de rastrear mais profundamente, indexando o maior número possível de
páginas. Diante do declínio do custo de rastreamento e indexação, e o
tamanho dos índices do motor de pesquisa continuar a ser uma problema
competitivo, o problema da profundidade rastreamento está se tornando uma
preocupação menor para os pesquisadores.
No entanto, não há garantia de que cada página do site será rastreada
e indexada. Este problema recebe pouca atenção e é uma das principais
razões que fazem com que materiais que podem ser utéis estejam invisíveis
para aqueles que só utilizam ferramentas de busca de uso geral para realizar
pesquisas.
Freqüência de rastreamento
A Web está em um constante estado de fluxo dinâmico. Novas
páginas são adicionadas constantemente e as páginas existentes são alteradas
ou retiradas da Web. Diante disto, cada motor de busca deve decidir a melhor
forma de implantar os seus crawlers, criando um calendário que determina a
freqüência que uma determinada página ou site é visitado.
Não é o suficiente para um motor de pesquisa visitar uma página uma
vez e assumir que ainda estará disponível posteriormente. Crawlers deve
retornar periodicamente a uma página e não só verificar a sua existência, mas
28
também baixar as cópias mais atuais da página e, talvez, buscar novas páginas
que foram adicionadas a um site.
Os sites mais novos são os mais suscetíveis a fiscalização dos motores
de busca porque relativamente poucos outros sites na Web estarão ligados a
eles, em comparação aos sites mais estabelecidos. Até que os motores de
busca alcancem esses novos sites, eles continuam a fazer parte da camada
invisível.
Número máximo de resultados visualizáveis
É bastante comum para um motor de busca relatar um número muito
grande de resultados. No entanto, a maioria dos motores restringe o número
total de resultados que será exibido para uma consulta. Para consultas que
retornam um número enorme de resultados, isso significa que uma
considerável parte das páginas que podem ser relevantes ficam inacessíveis,
uma vez que foram deixadas de fora da lista dos resultados. Essas páginas
que foram excluídas são efetivamente invisíveis. Bons pesquisadores estão
cientes desse problema e irão tomar medidas para contornar o problema,
usando uma estratégia de pesquisa mais precisa e controles avançados de
filtragem e limitação oferecida por muitos motores. No entanto, para muitos
pesquisadores inexperientes este limite no número de resultados visualizáveis
pode ser um problema, considerando que a resposta que eles procuram pode
estar na parte que foi deixada indisponível.
URLs desconectadas
Para um crawler acessar uma página, o autor da página utiliza o
"Enviar URL" do motor de busca, recurso para solicitar o rastreamento e a
indexação da página, ou o rastreador a descobre a página por conta própria,
encontrando um link para a página em alguma outra. Páginas da Web que não
são enviadas diretamente aos motores de busca e que não têm links
apontando para elas são chamadas de URLs “desconectadas” e não podem
29
ser rastreadas e indexadas simplesmente porque o crawler não tem como
encontrá-las.
Em resumo, a Opaque Web é grande, mas não é impenetrável.
Pesquisadores determinados muitas vezes pode encontrar o material que nela
se encontra, e motores de busca estão constantemente melhorando seus
métodos para localizar e indexar esse conteúdo.
2.7.2.2 Private Web
A Private Web consiste em páginas Web tecnicamente indexáveis que
têm sido deliberadamente retiradas da inclusão nos motores de busca.
Anteriormente, foi falado neste documento que um desenvolvedor tem três
maneiras que o permitem excluir uma página de um motor de busca. A primeira
é realizada através da proteção de uma senha. O crawler não pode ir além de
um formulário que requer um nome de usuário e senha. A segunda maneira é
usar o arquivo robots.txt para impedir que o crawler acesse a página. E, por
fim, a terceira maneira é utilizar a metatag noindex para evitar que o crawler
leia o cabeçalho e indexe o corpo da página.
Para a maior parte, a Private Web é de pouco interesse para a maioria
dos pesquisadores. A páginas privadas usam apenas a Web como um eficiente
meio de acesso, mas em geral não são destinadas para uso além das pessoas
que têm permissão de acesso.
Existem outros tipos de páginas que têm acesso restrito e que podem
ser de interesse para pesquisadores, mas elas normalmente não estão
incluídas nos motores de busca. Estas páginas são parte da Proprietary Web,
descrita no próximo tópico.
2.7.2.3 Proprietary Web
Os motores de busca não podem acessar a maior parte da Proprietary
Web porque essas páginas são acessíveis apenas para pessoas que tenham
concordado com os termos especiais em troca da visualização do conteúdo.
30
Páginas da Proprietary Web podem ser simplesmente o conteúdo que é
acessível apenas para usuários que queiram se registrar-se para acessá-lo. O
registro em muitos casos é gratuito, mas um crawler não pode satisfazer as
exigências do mais simpres processo de registro. Outros tipos de conteúdo
proprietário só estão disponíveis por uma taxa, por página ou algum tipo de
assinatura.
2.7.2.4 Truly Invisible Web
Alguns sites ou páginas são realmente invisíveis, o que significa que há
razões técnicas para que os motores de busca não possam rastrear e indexar o
material que eles têm para oferecer. A definição do que constitui um recurso
verdadeiramente invisível deve necessariamente ser um pouco fluido, uma vez
que os motores estão em constante aperfeiçoamento e adaptação dos seus
métodos para abraçar novos tipos de conteúdo.
O mais simples, e menos provável de permanecer invisível ao longo do
tempo, são páginas da Web que usam formatos de arquivo que os crawlers
não estão atualmente programados para manusear. Estes formatos de arquivo
incluem PostScript, PDF, Flash, Shockwave, executáveis (programas), e
arquivos compactados. Existem duas razões para que os motores de busca
não realizem a indexação desses tipos de arquivos atualmente. Primeira, os
arquivos têm pouco ou nenhum contexto textual, por isso é difícil classificá-los,
ou compará-los por relevância com outros documentos de texto. A adição de
metadados ao HTML poderia resolver este problema, contudo, seria indexada
a descrição dos metadados e não o conteúdo do arquivo em si.
A segunda razão é que certos arquivos não aparecem nos índices de
busca simplesmente porque os motores de busca optaram por omití-los. Eles
podem ser indexados, mas não são.
O mair problema, entretanto, sáo as páginas geradas dinamicamente.
Novamente, em alguns casos, não é um problema técnico, mas sim falta de
vontade da parte dos motores de indexar este tipo de conteúdo. Isto ocorre
especialmente quando um script não interativo é usado para gerar uma página.
31
Estas são páginas estáticas e geram HTML estático que o motor poderia
rastrear. O problema é que o uso indevido de scripts também podem levar os
crawlers a armadilhas, citadas anteriormente neste documento. Isto é um
grande problema para os motores, assim, eles simplesmente optam por não
indexar URLs que contêm scripts.
Finalmente, a informação armazenada em bases de dados relacionais,
que não pode ser extraída sem uma consulta específica para o banco de
dados, é verdadeiramente invisível. Crawlers não são programados para
entender tanto a estrutura do banco de dados, como a linguagem de comando
usada para extrair informações.
2.7.3 Web anônima
Paralelamente, existe uma Web com uma grande quantidade de
informações privadas de valor inestimável para empresas privadas, governos e
a cibercriminalidade. Na imaginação de muitas pessoas, que se limitam a
informações superficiais, generalistas e, muitas vezes, sensacionalistas, os
termos Deep Web, Invisible Web e Hidden Web estão associados a intenções
criminosas protegidas por um mundo submerso e inacessível pelo conceito de
anonimidade.
Entretanto, como afirma Paganini (2012), esta imaginação é fruto de
uma interpretação errada, afinal, a referida porção abordada neste tópico é
uma rede diferente, mas com muitos assuntos comuns à Web acessível pelos
motores de busca tradicionais.
Dentre as diferenças, o seu acesso é realizado através de um software
como o Tor, a busca é mais complexa devido à ausência de indexação do
conteúdo e os domínios não tem extensões clássicas (.com, .gov, entre outras),
geralmente apresentam o sufixo .onion.
32
3 O BOM USO DA CAMADA MAIS PROFUNDA DA WEB
O presente capítulo abordará o bom uso da Invisible Web, motivação
principal da realização da pesquisa tratada neste documento, através da
apresentação de dois casos de sucesso na exploração inteligente da
supracitada camada profunda da Web. Assim como também desmistificará a
visão errônea da porção anônima da Web como um repositório exclusivo para
conteúdo ilícito.
3.1 CASO DE SUCESSO: DEEP WEB TECHNOLOGIES
Segundo a página1 da empresa, a Deep Web Technologies é líder em
federated search e oferece um produto inovador, o Explorit Research
Accelerator, que promete aos usuários acelerar suas pesquisas e atividades de
análise, melhorando a qualidade dos resultados da pesquisa, através do
acesso à informação que se encontra na Deep Web e não pode ser descoberta
pelos motores de busca convencionais.
Segundo Jacsó (2004), federated search consiste em transformar uma
consulta, transmiti-la a um grupo de banco de dados distintos ou outros
recursos da Web, com sintaxe apropriada, e apresentar a fusão dos resultados
obtidos num formato unificado e sucinto, com o mínimo de duplicação possível.
“Next-Generation” Federated Search é como a Deep Web
Technologies se refere à tecnologia que proporciona uma significativa
vantagem sobre as formas tradicionais de pesquisa, porque aumenta
significativamente a sua velocidade e abrangência, fornece em tempo real
resultados, pode incluir informações de redes sociais como o Twitter, LinkedIn,
Facebook, além de manter pesquisadores informados diariamente sobre
material novo.
Neste contexto, a Deep Web Technologies descreve seu produto
Explorit Research Accelerator como a mais poderosa e confiável solução para
federated research, sendo um software para bibliotecas e empresas, que 1 http://www.deepwebtech.com
33
pesquisa centenas de repositórios e documentos ao mesmo tempo, permitindo
a busca por assunto, autor, título e fonte; oferece resultados relevantes
classificados de acordo com filtros selecionados, como data, categoria, entre
outros; fornece tecnologia Web 2.0 para permitir a integração da pesquisa
Deep Web em intranets existentes; e disponibiliza recursos de alertas que
mostram o que é uma informação verdadeiramente nova e importante.
Através do uso da tecnologia “Next-Generation” Federated Search e
seu produto Explorit Research Accelerator, a referida empresa vem
conquistando clientes e gerando serviços que vêm se popularizando.
Mednar e Biznar são aplicativos gratuitos para plataforma iOS da
empresa Apple, que buscam informações médicas e de negócios em múltiplas
fontes da Deep Web para satisfazer as consultas dos usuários. Estes
aplicativos utilizam federated search, pesquisando em tempo real e
apresentando os resultados relevantes de acordo com os filtros selecionados
pelo usuário. Além de obterem a informação mais relevante, obtém o que há
de mais novo disponível.
Lederman (2011), presidente e fundador da Web Technologies
profundas, comentou: "Estamos no meio de uma mudança de paradigma,
onde mais e mais informação está sendo acessada através de dispositivos
móveis inteligentes. Agora, com Biznar e Mednar disponíveis na plataforma
iOS, nós temos tido um claro caminho para trazer o conteúdo da Deep Web em
qualquer lugar que o usuário esteja” [21].
Trabalhando em parceria com a Texas Medical Center (TMC), a maior
instituição médica do mundo e a 3E Enterprises, uma consultoria de software
com sede no Texas, a DWT projetou, desenvolveu e testou versões iOS dos
aplicativos Biznar e Mednar. Estas aplicações agora servem como protótipos
para a implementação de aplicativos personalizados para clientes da
plataforma móvel, como a TMC. A Figura 6 mostra o referido aplicativo
MedNar.
34
Figura 6 - Tela do aplicativo MedNar. Fonte: DeepWebTechnologies1.
Outro fruto proveniente das soluções da Deep Web Technologies é o
Science.gov, um portal para informações de ciência governamental e
resultados de pesquisa. Atualmente em sua quinta geração, Science.gov
fornece uma pesquisa em mais de 55 bases de dados científicos e 200 milhões
de páginas de informação científica, com apenas uma consulta, tornando-se
uma porta de entrada para mais de 2100 sites científicos.
Science.gov é uma iniciativa interinstitucional de 17 organizações
científicas do governo norte-americano e 13 agências federais. Estas agências
formam a Science.gov Alliance, que voluntariamente governa o portal
Science.gov, apresentado na Figura 7.
Segundo informações do próprio portal, o conteúdo do Science.gov é
uma contribuição das agências participantes, comprometidas em atender aos
cidadãos interessados em ciência, incluindo cientistas, estudantes, professores
e a comunidade empresarial. Muitas destas agências são membros do CENDI2,
que presta apoio administrativo ao referido site e mantém sua seção Explore
Selected Science Websites by Topic. O site informa, ainda, que a sua pesquisa
1 http://www.deepwebtech.com/wp-content/uploads/2011/03/Explorit-Datasheet.pdf, acesso em julho de 2012.
2 Grupo de gestores de agências do governo dos Estados Unidos.
35
é financiada pelo Department of Energy (DOE) e o Office of Scientific and
Technical Information (OSTI), que também o hospeda.
Figura 7 - Portal science.gov. Fonte: Autor1.
A Deep Web Technologies também apresenta como seu cliente, o
WorldWideScience.org2, que se descreve como um portal científico global, que
acelera a descoberta e o progresso científico, proporcionando uma busca às
bases de dados de todo o mundo, em tempo real e tradução multilingue da
literatura científica.
A Aliança WorldWideScience, uma parceria multilateral composta por
membros países, fornece a estrutura de governança para o
1 Imagem capturada pelo autor no endereço http://www.science.gov, acessado em julho de 2012.
2 http://www.science.gov
36
WorldWideScience.org, desenvolvido e mantido pelo OSTI. A Figura 8 exibe a
página principal do referido portal.
Figura 8 - Portal WorldWideScience.org. Fonte: Autor1.
Desenvolvido numa parceria das bibliotecas da Stanford University e a
Deep Web Technologies, o XSearch fornece aos alunos e professores uma
opção de pesquisa em várias fontes online. Embora tenha soluções prontas
para serem implantadas em universidades e outras organizações, a empresa
trabalhou de perto com Stanford para fornecer funcionalidades que a
universidade não teria encontrado nas soluções prontas, como a integração
com os serviços de autenticação LDAP.
Além do trabalho personalizado de integração, o Explorit, já
mencionado anteriormente, permite aos estudantes e professores, através de
páginas de pesquisa personalizadas, construir seus próprios aplicativos
federated search que busca apenas as fontes que eles precisam.
1 Imagem capturada pelo autor no endereço http://worldwidescience.org, acessado em julho de
2012.
37
O lançamento inicial do XSearch, que pode ser visto na Figura 9,
incluiu 28 fontes que contêm links para artigos de periódicos, citações de
patentes, anais de conferências e ebooks. Lederman (2010), comentou sobre o
seu envolvimento na parceria, afirmando "estamos muito satisfeitos por termos
trabalhado tão de perto com Stanford para trazer federated search aos seus
alunos e funcionários. Stanford tinha uma série de requisitos únicos que não
poderiam ter sido resolvidos com outros sistemas de busca (...) ".
Figura 9 - Portal XSearch. Fonte: Autor1.
O software Explorit também é usado por clientes corporativos, líderes
mundiais, como a Boeing, maior empresa do mundo no setor aeroespacial e
maior fabricante de aviões militares e comerciais, que também projeta e fabrica
helicópteros, mísseis, satélites, sistemas avançados de informação e
comunicação, entre outros; a Intel, multinacional americana e maior fabricante
mundial de chips semicondutores de tecnologia em semicondutores; e a BASF,
maior indútria química do mundo.
A Intel, por exemplo, necessitava de uma solução de busca que
oferecesse interface fácil de usar, poderosa otimização dos resultados e
1 Imagem capturada pelo autor no endereço https://xsearch.stanford.edu/search, acessado em
julho de 2012.
38
capacidade de integrar seguramente uma grande variedade de fontes,
incluindo bases de dados internas, eliminando a dificuldade que seus
funcionários tinham de realizar pesquisas.
Barclay Hill (2009), gerente da Intel Library Web & Systems Group,
declarou "os produtos e serviços da Deep Web Technologies contribuiram
substancialmente para o nosso sucesso. Atráves da federated search na Deep
Web, conseguimos uma perfeita integração da pesquisa com o portal da nossa
biblioteca. Temos também uma solução de pesquisa gerenciável e sustentável
de federated search que nós podemos construir para o futuro”. A Figura 10
apresenta uma das telas do referido produto da parceria entre a Intel e a Deep
Web Technologies.
Figura 10 - Tela do sistema da Intel. Fonte: Deepwebtech1.
3.2 CASO DE SUCESSO: BRIGHTPLANET
A BrightPlanet, de acordo com seu site2, foi a pioneira em inteligência
na Deep Web, sendo, inclusive, a primeira a usar este termo para denominar a
camada profunda da Web, supracitada neste documento. Há mais de 10 anos
vem atuando com as ferramentas e serviços mais rápidos para ajudar seus
clientes. E, através de soluções patenteadas e proprietárias, abraçam o desafio
1 http://www.deepwebtech.com/customers/intel.html, acesso em julho de 2012.
2 http://www.brightplanet.com
39
de colher Big Data 1 da camada mais profunda da Web, oferecendo capacidade
de inteligência no acesso aos recursos inexplorados desta camada.
Dentre estas soluções está o Deep Web Harvester, que a empresa
define como a ferramenta mais abrangente disponível para aquisição do
conteúdo da Deep Web. Após adquirir o conteúdo, a tecnologia enriquece,
normaliza e fornece informações preparadas para seus clientes analisarem.
Deep Web Harvester é completamente customizável, tornando mais
fácil a personalização de pesquisas, de acordo com a necessidade específica
do usuário, além de também apresentar capacidade de filtragem de
documentos virtualmente ilimitada, reunindo informações com análises prontas.
Este serviço está disponível como uma interface da Web independente através
de SaaS ou como uma solução corporativa acessível por trás da segurança do
firewall do cliente.
Arnold (2009) afirma que a tecnologia BrightPlanet é usada por
agências governamentais, negócios, e empresas de serviços para obter
informações pertinentes a pessoas, lugares, eventos e outros temas. Dentre
as agências, estão as de Intelligence Open Source (OSINT), que a BrightPlanet
define, resumidamente, como a prática de usar a Web para criar inteligência.
Amplamente, OSINT é uma disciplina de processamento de informação
que envolve encontrar, selecionar e adquirir informações de fontes públicas e
analisá-las para produzir inteligência acionável. Na Comunidade de Inteligência
dos Estados Unidos (U.S. Intelligence Community), o termo "open" se refere às
fontes disponíveis publicamente, ao contrário de fontes secretas ou
confidenciais.
Muitos outros "INTs” existem, como HUMINT, que explora a inteligência
dos seres humanos através da comunicação e entrevistas, e o GEOINT,
inteligência geo-espacial recolhida a partir de satélites, fotografias aéreas e
mapas/terreno de dados. A Figura 11 apresenta uma imagem da página
principal da HUMINT. 1 De acordo com a IBM (http://www-01.ibm.com/software/data/bigdata, acessado em julho de
2012), Big Data é um temo que define a imensa quantidade de dados oriundos de diversas fontes, como sensores utilizados para recolher informação sobre o clima, mensagens de redes sociais, fotos e vídeos digitais, registros de transações de compra, sinais de GPS dos celulares, entre outras.
40
Figura 11 - Site HUMINT. Fonte: Autor1.
Segundo Pederson (2010), CEO da BrightPlanet, agências de
inteligência dos EUA têm explorado Big Data a partir da Web por mais de uma
década. Estas, dependem da capacidade de coletar dados em escala,
transformar os dados brutos em informações relevantes e dar sentido à
informação para apoiar decisões com inteligência acionável. Entretanto,
noventa por cento de conteúdo Big Data está no universo em expansão de
conteúdo não-estruturado e a grande maioria destas informações estão ocultas
na Deep Web.
Neste contexto, Pederson (2010) afirma que durante anos, as agências
de inteligência dos EUA têm utilizado ferramentas para encontrar e recuperar
dados públicos, visitando sites específicos, tanto da Surface Web como da
Deep Web, através de tecnologias da BrightPlanet.
Neste documento, é válido mencionar também um projeto da
BrightPlanet, o portal CompletePlanet exibido na Figura 12, considerado o
preferido por Will Bushee (um dos líderes da empresa). O portal permite
consultar em mais de setenta mil bases de dados da Deep Web,
simultaneamente. Oferece, ainda, a possibilidade de pesquisar por temas como
agricultura, educação, esportes, literatura, medicamentos, música, viagem,
entre outros.
1 Imagem capturada pelo autor no endereço http://www.humints.com, acessado em julho de
2012.
41
Figura 12 - Portal CompletePlanet. Fonte: Autor1.
Assim como este portal da BrightPlanet, há vários outros, entre eles:
a) InfoMine (http://infomine.ucr.edu): desenvolvido e mantido pela
biblioteca da University of California.
b) Intute (http://www.intute.ac.uk): criado por universidades da
Inglaterra.
c) o IncyWincy (http://www.incywincy.com): com recurso de busca
por imagens.
d) The Virtual Library WWW (http://vlib.org): biblioteca virtual, nas
qual as páginas centrais são mantidas por um conselho criado
por Tim Berners-Lee.
e) InfoPlease (http://www.infoplease.com): contém almanaques,
enciclopédias, biografias, entre outros materiais.
f) LexiBot (http://ww5.lexibot.com): também produzido pela
BrightPlanet, usuários realizam buscas usando texto simples,
linguagem natural ou consultas booleanas em centenas de bases
1 Imagem capturada pelo autor no endereço http://aip.completeplanet.com, acessado em julho
de 2012.
42
de dados simultaneamente, para filtrar e analisar os dados, e
publicar os resultados como páginas Web.
g) Australian Government Geoscience Australia
(http://www.ga.gov.au/oracle/nuclear-explosion.jsp): base de
dados do governo australiano que mantém um histórico com
local, tempo e tamanho das explosões nucleares que ocorreram
desde 1945.
h) World Fact Book (http://www.worldfactbook.com): um diretório
pesquisável com informações de países, que incluem perfis,
mapas, referências, bandeiras, entre outras.
i) Directory of Open Access Journal (http://www.doaj.org/): uma
coleção de revistas científicas e acadêmicas mantida pela Lund
University.
j) PubMed (http://www.ncbi.nlm.nih.gov/pubmed): um serviço da US
National Library of Medicine, com mais de 18 milhões de
referências sobre Medicina.
k) TechDeepWeb (http://www.techdeepweb.com): guia de
informações na Deep Web para profissionais de TI, descrevendo
ferramentas de busca úteis, portais e sites.
3.3 DESMISTIFICANDO A WEB ANÔNIMA
Finalmente, como mencionado anteriormente, existem páginas da
Invisible Web anônimas que só podem ser acessadas por ferramentas
específicas, como o Tor. O referido software se encontra no site oficial do
projeto e é capaz de trabalhar em todas as plataformas, além de conter plugins
que tornam a integração simples com aplicações existentes, como
navegadores.
Recomenda-se navegar na Invisible Web através de uma distribuição
de sistema operacional inicializável a partir de qualquer máquina, evitando
deixar rastros. Uma vez que o pacote Tor é instalado, uma versão portátil do
navegador Firefox é disponível, sendo ideal para a navegação anônima devido
43
a um controle adequado dos plugins instalados, que não vêm na versão
comercial do navegador. E, apesar de a rede ter sido projetada para proteger a
privacidade do usuário, há aqueles que sugerem o uso de uma VPN, para
realmente estar anônimo.
Vale mencionar mais uma vez que o usuário deve ter em mente que a
navegação na Web anônima é mais complexa pela falta de indexação do seu
conteúdo e que é válido adotar uma coleção de Wikis e sites favoritos que têm
a finalidade de categorizar e agregar grupos para pesquisa, além do fato das
páginas possuírem domínios com extensões .onion.
O site Pastebin1 publicou uma lista de links que podem auxiliar a
navegação nesta porção da Web, entre estes links estão:
a) HiddenWiki (http://kpvz7ki2v5agwt35.onion): uma das páginas
mais conhecidas da rede Tor, apresenta vários links relacionados
a diversas categorias .
b) Torch (http://xmh57jrzrnw6insl.onion): um search engine da rede Tor.
c) CircleServices (http://4eiruntyxxbgfv7o.onion): um dos endereços
mais conhecidos para serviços de hospedagem de arquivos.
d) Onion Fileshare (http://f3ew3p7s6lbftqm5.onion): disponibiliza
2GB de espaço para armazenamento de arquivos.
e) Freedom Hosting (http://xqz3u5drneuzhaeo.onion): hospeda uma
grande porção dos sites .onion.
f) Onionforum (http://65bgvta7yos3sce5.onion): um fórum para
discussões.
Na Figura 13 é possível visualizar a janela de conexão do software Tor
informando que o usuário está conectado, assim como uma página informando
que o navegador, que acompanha o pacote de instalação, está configurado
para usar a rede. E a Figura 14 exibe a página da Hidden Wiki, uma das
principais páginas da rede Tor, que reúne diversos links, como mencionado
anteriormente.
1 http://pastebin.com/ADTynHbX
44
Figura 13 - Conectando à rede Tor. Fonte: Autor
1.
Figura 14 - Hidden Wiki. Fonte: Autor2.
1Imagem capturada pelo autor.
2 Imagem capturada pelo autor no endereço http://kpvz7ki2v5agwt35.onion, acessado em julho de 2012.
45
4 CONSIDERAÇÕES FINAIS
Pesquisando na Web sobre Invisible Web ou Deep Web é mais comum
encontrar textos superficiais e muitas vezes sensacionalistas, que a
generalizam como um mero repositório de material ilícito e que ainda
recomendam manter distância àqueles que não querem ter seu computador
invadido por vírus destruidores. Sim, a Invisible Web surpreende pela facilidade
de encontrar pedofilia, canibalismo, tráfico de drogas e humanos, entre tantas
outras práticas abomináveis, que parece ganhar força com o anonimato
oferecido por redes fechadas, tal qual Tor.
Entretanto, a Invisible Web vai além de uma rede fechada que
armazena páginas daqueles que querem compartilhar conteúdo ilícito. Pode-
se entender a Invisible Web como um termo que define todas as páginas que
não são indexadas pelos motores de busca convencionais, até mesmo o
revolucionário Google, seja por limitações técnicas ou deliberados critérios de
escolha. Estas páginas formam um imenso universo de informação de
relevante valor, invisível para a maioria, mas visível para empresas pioneiras
que já a tornaram seu principal serviço, como a Deep Web Technologies e a
BrightPlanet.
Fruto do investimento em inteligência na Invisible Web, estas empresas
possuem tecnologia que atrai clientes como agências governamentais,
importantes universidades do mundo e empresas líderes mundiais que
desejam agregar valor aos seus serviços. Automatizar, monitorar e rastrear
pesquisas em tempo real, através de inteligência acionável nestas fontes
profundas, torna-se uma atraente opção para governos, empresas e indivíduos
limitados pelas ferramentas convencionais de busca neste forte meio que é a
Web nos dias de hoje.
A Invisible Web contempla bases de dados de extensa quantidade,
qualidade e variedade, que podem ser pesquisadas simultaneamente. Um
verdadeiro tesouro que merece uma reflexão sobre a melhor forma de obter
informação na Web. Escolher um único buscador desenvolvido com algoritmos
geniais, mas que se limita à camada superficial da Web, parece uma opção
prática, embora não aquela que colherá os resultados mais satisfatórios.
46
Neste contexto apresentado, incentiva-se o desenvolvimento de
pesquisas e trabalhos futuros que invistam na exploração inteligente da Deep
Web. Nos últimos anos, por exemplo, alguns dos motores de busca mais
abrangentes têm trabalhado em algoritmos capazes de pesquisar nas porções
mais profundas da Web, tentando encontrar arquivos como .pdf, .doc, .xls, .ppt,
.ps, entre outros. Estes arquivos são predominantemente utilizados por
empresas para comunicação interna e divulgação de informações para mundo
externo. Assim, pesquisar essas informações utilizando técnicas de busca mais
profunda e algoritmos mais recentes permite obter uma grande quantidade de
informações corporativas que eram anteriormente indisponíveis ou
inacessíveis.
Vale mencionar também um estudo realizado por membros de algumas
universidades, entre elas a University of Illinois, que propõe um clustering
interativo capaz de integrar diferentes interfaces de fontes de dados disponíveis
na Deep Web. No âmbito da Web Semântica, uma pesquisa da University of
Karlsruhe propõe a criação de metadados a partir de informações dinâmicas
utilizando um processo de anotação que estruture, contextualize e mapeie
estes dados.
Enfim, é possível observar que já há pesquisas que investem na
Invisible Web, entretanto, juntas ainda somam um número pequeno,
desproporcional ao valor dos recursos inestimáveis que esta camada oferece.
Diante disto, enfatiza-se a necessidade e o benefício de investir em pesquisas
que superem as limitações técnicas e possibilitem ultrapassar cada vez mais a
superfície da Web, tornando os dados mais profundos amplamente acessíveis.
47
5 REFERÊNCIAS
[1] IFFAT, R., SAMI, L., Understanding the Deep Web. Library Philosophy and
Practice, 2010. Disponível em <http://ieeexplore.ieee.org>. Acesso em fevereiro
de 2012.
[2] BERGMAN, M . K., The DeepWeb: Surfacing Hidden Value. Journal of
Electronic Publishing. BrightPlanet, 2001. Disponível em
<http://www.brightplanet.com/2012/06/the-deep-web-surfacing-hidden-value>.
Acesso em fevereiro de 2012.
[3] FILHO, A. M., A era da Informação. Disponível em:
<http://www.espacoacademico.com.br/002/02col_mendes.htm> Acesso em:
fevereiro de 2012.
[4] TOMAÉL , M. I., CATARINO , M. E., VALENTIM , M. L. P., JÚNIOR, O. F. A.,
SILVA, T. E., ALCARÁ , A. R., SELMINI, D. C., MONTANARI , F. R., Fontes de
Informação na Internet. Disponível em:
<http://snbu.bvs.br/snbu2000/docs/pt/doc/t138.doc>. Acesso em fevereiro de
2012.
[5] RAGHAVAN , S., MOLINA-GARCIA, H., Crawling the HiddenWeb.
Computer Science Department Stanford University. Disponível em
<http://ieeexplore.ieee.org>. Acesso em fevereiro de 2012.
[6] LACKIE , R. J., Those Dark Hiding Places: The Invisible Web Revealed.
Rider University Libraries, 2009. Disponível em
<http://www.robertlackie.com/invisible/index.html>. Acesso em fevereiro de
2012.
[7] PAGANINI , P., What is the Deep Web? A first trip into the abyss. Disponível
em: <http://securityaffairs.co/wordpress/5650/cyber-crime/what-is-the-deep-
web-a-first-trip-into-the-abyss.html>. Acesso em março de 2012.
48
[8] FERREIRA, A. B. H., Dicionário Aurélio Eletrônico: século XXI. Versão 3.0.
Ed. Nova Fronteira e Lexikon Informática Ltda, 1999.
[9] CUNHA, J. A., Web Semântica: “O estado da arte”. Monografia apresentada
à disciplina Monografia do curso de Biblioteconomia do Centro de Ciências
Sociais Aplicadas da Universidade Federal do Rio Grande do Norte. Natal,
2006.
[10] KOCH, I. G. V., Desvendando os segredos do texto. 4. ed. São Paulo:
Cortez, 2005. 168p.
[11] PRIMO, A., O Aspecto Relacional das interações na Web 2.0. E- Compós
(Brasília), v.9, p. 1-21, 2007. Disponível em:
<http://www6.ufrgs.br/limc/PDFs/web2.pdf>. Acesso em março de 2012.
[12] O’REILLY , T., What Is Web 2.0: Design Patterns and Business Models for
the Next Generation of Software. Publicado em Copyright 2006 O’Reilly Media,
Inc., 2006. Disponível em: <http://www.oreilly.com>. Acesso em março de
2012.
[13] JARDIM , A. L., Aplicações de Modelos Semânticos em Redes Sociais.
Dissertação apresentada como requisito parcial para a obtenção do grau de
Mestre em Ciência da Computação. Pelotas, 2010.
[14] W3C: Uso de Padrões Web 2000. Disponível em:
<http://www.w3c.br/palestras/2009/W3CeGovES.pdf>. Acesso em março de
2012.
[15] CENDÓN, B. V., Ferramenta de busca na Web. Ci. Inf., Brasília, v. 30, n. 1,
p. 39-49, jan./abr. 2001. Disponível em
<http://revista.ibict.br/ciinf/index.php/ciinf/article/view/222>. Acesso em março
de 2012.
49
[16] Wikipedia . Google Search. Disponível em:
<http://en.wikipedia.org/wiki/Google_Search>. Acesso em julho de 2012.
[17] WESTIN, A. Privacy and Freedom. Bodley Head, 1987
[18] DINGLEDINE, R., MATHEWSON, G., SYVERSON, P., Tor: The Second-
Generation Onion Router. Disponível em:
<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. Acesso
em julho de 2012.
[19] CARVALHO , R. H., Sistemas de Anonimato. Disponível em:
<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. Acesso
em julho de 2012.
[20] SHERMAN, C., PRICE, G., The Invisible Web: Uncovering Sources Search
Engines Can’t See. Library Trends, 2003.
[21] NOILSON, C. T. A., Introdução a Invisible Web. Disponível em
http://ncaio.wordpress.com/2011/07/18/introducao-a-invisible-web. Acesso em
julho de 2012.
[22] Deep Web Technologies . Disponível em <http://www.deepwebtech.com>.
Acesso em julho de 2012.
[23] JACSÓ , P. Internet Insights - Thoughts about Federated Searching.
Information Today, 21(9) October, 2004, p.17. Disponível em
<http://www2.hawaii.edu/~jacso/extra/federated/federated.htm>. Acesso em
julho de 2012.
[24] ARNOLD , S. BrightPlanet Unlocks the Deep Web. Disponível em <http://brightplanet.com/wp-content/uploads/2012/03/BrightPlanet-Unlocks-the-Deep-Web.pdf>. Acesso em julho de 2012.
50
[25] PEDERSON, S., Exploiting Big Data from the Deep Web - The new frontier
for creating intelligence. BrightPlanet, 2010.
[26] Deep Web Technologies . Deep Web Technologies Mobilizes Federated
Search. Santa Fe, 2011. Disponível em
<http://www.deepwebtech.com/2011/11/deep-web-technologies-mobilizes-
federated-search>. Acesso em julho de 2012.
[27] BrightPlantet . Disponível em < http://www.brightplanet.com>. Acesso em
julho de 2012.