DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados...

20
CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20 2018 2402.1 DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO PARA BANCO DE DADOS ASTRONOMICAL DATA: AN IMPLEMENTATION PROPOSAL FOR A DATABASE Edcarlos da Silva Santana 1 , Iranderly Fernandes de Fernandes 2 . 1 Mestrando em Computação Aplicada PGCA-UEFS Docente substituto no Departamento de Física da Universidade Estadual de Feira de Santana, UEFS. 2 Doutor em Astronomia Docente Permanente do Programa de Pós-Graduação em Computação Aplicada e do Programa de Pós-Graduação em Astronomia - Mestrado Profissional Docente permanente do Universidade Estadual de Feira de Santana, UEFS. Com advento da Computação, a forma de fazer Ciência mudou circunstancialmente, revolucionando a pesquisa científica. Na Astronomia, os telescópios agora equipados com sensores cada vez mais modernos, produzem quantidades de dados nunca vista antes, tornando impossível exaurir toda à capacidade de extração de conhecimento dos dados produzidos, apresentando assim, condições de reutilização pelos seus pares ou outras finalidades. O valor desses dados para a Ciência está no seu potencial não explorado. Nesse sentido, esse trabalho compartilha da filosofia dos Observatórios Virtuais, no que tange à reutilização de dados antigos. Para tanto, esse artigo versa sobre a implementação de procedimentos e técnicas computacionais que permitem organizar e buscar imagens oriundas de telescópios. Diante deste cenário, foram utilizadas estrutura de dados, ferramentas computacionais, algoritmos e linguagens de programação que pudessem contribuir com o problema. Palavras-chave: Telescópios, Dados espaciais, Estrutura de dados, Python. With the advent of computing, the way of doing science has changed circumstantially, revolutionizing scientific research. In Astronomy, telescopes now equipped with increasingly modern sensors, produce data quantities never seen before, making it impossible to exhaust all the capacity to extract knowledge from the data produced, thus presenting conditions of reuse by their peers or other purposes. The value of this data to Science lies in its unexplored potential. In this sense, this work shares the philosophy of Virtual Observatories, regarding the reuse of old data. For this, this article deals with the implementation of procedures and computational techniques that allow organizing and searching for images from telescopes. In this scenario, we used data structures, computational tools, algorithms and programming languages that could contribute to the problem. Keywords: Telescopes, Spatial data, Data structure, Python. INTRODUÇÃO Nos últimos 40 anos, a Astronomia continuou a investir em infraestrutura tecnológica para continuar a responder questões fundamentais e se preparar para novos desafios. Grande parte dessas/es passam por questões que envolve energia, matéria escura, planetas extra-solares, explosões estelares e buracos negros, entre outros temas [Oliveira et al 2009]. O lançamento de satélites, a construção de novos equipamentos, sensores, detectores, grandes telescópios terrestres e espaciais, são provas da revolucionária forma de fazer Ciência pelos astrônomos em todo o mundo. O sucesso da missão Rosetta 1 é mais um marco do avanço da fronteira do conhecimento da exploração espacial produzido pela Astronomia, não sendo possível alcançar os objetivos da missão sem o uso aplicado das tecnologias computacionais. O desenvolvimento produzido trouxe além dos novos desafios científicos, novas demandas computacionais, resultado do aumento exponencial da produção de novas informações. Projetos como o do Large Synoptic Survey Telescope (LSST) produzirá por noite um volume de dados em torno de 30 tera byte. 1 Primeira sonda construída para orbitar e pousar em um cometa. Feito realizado pela Agência Espacial Europeia (ESA).

Transcript of DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados...

Page 1: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20 2018

2402.1

DADOS ASTRONÔMICOS: UMA PROPOSTA DE

IMPLEMENTAÇÃO PARA BANCO DE DADOS

ASTRONOMICAL DATA: AN IMPLEMENTATION PROPOSAL FOR A DATABASE

Edcarlos da Silva Santana1, Iranderly Fernandes de Fernandes2.

1 – Mestrando em Computação Aplicada – PGCA-UEFS – Docente substituto no Departamento de Física da

Universidade Estadual de Feira de Santana, UEFS.

2 – Doutor em Astronomia – Docente Permanente do Programa de Pós-Graduação em Computação Aplicada e do

Programa de Pós-Graduação em Astronomia - Mestrado Profissional – Docente permanente do Universidade Estadual

de Feira de Santana, UEFS.

Com advento da Computação, a forma de fazer Ciência mudou circunstancialmente, revolucionando a pesquisa científica.

Na Astronomia, os telescópios agora equipados com sensores cada vez mais modernos, produzem quantidades de dados

nunca vista antes, tornando impossível exaurir toda à capacidade de extração de conhecimento dos dados produzidos,

apresentando assim, condições de reutilização pelos seus pares ou outras finalidades. O valor desses dados para a Ciência

está no seu potencial não explorado. Nesse sentido, esse trabalho compartilha da filosofia dos Observatórios Virtuais, no

que tange à reutilização de dados antigos. Para tanto, esse artigo versa sobre a implementação de procedimentos e técnicas

computacionais que permitem organizar e buscar imagens oriundas de telescópios. Diante deste cenário, foram utilizadas

estrutura de dados, ferramentas computacionais, algoritmos e linguagens de programação que pudessem contribuir com o

problema.

Palavras-chave: Telescópios, Dados espaciais, Estrutura de dados, Python.

With the advent of computing, the way of doing science has changed circumstantially, revolutionizing scientific research.

In Astronomy, telescopes now equipped with increasingly modern sensors, produce data quantities never seen before,

making it impossible to exhaust all the capacity to extract knowledge from the data produced, thus presenting conditions

of reuse by their peers or other purposes. The value of this data to Science lies in its unexplored potential. In this sense, this

work shares the philosophy of Virtual Observatories, regarding the reuse of old data. For this, this article deals with the

implementation of procedures and computational techniques that allow organizing and searching for images from

telescopes. In this scenario, we used data structures, computational tools, algorithms and programming languages that could

contribute to the problem.

Keywords: Telescopes, Spatial data, Data structure, Python.

INTRODUÇÃO

Nos últimos 40 anos, a Astronomia continuou a investir em infraestrutura tecnológica para continuar a

responder questões fundamentais e se preparar para novos desafios. Grande parte dessas/es passam por

questões que envolve energia, matéria escura, planetas extra-solares, explosões estelares e buracos negros,

entre outros temas [Oliveira et al 2009]. O lançamento de satélites, a construção de novos equipamentos,

sensores, detectores, grandes telescópios terrestres e espaciais, são provas da revolucionária forma de fazer

Ciência pelos astrônomos em todo o mundo. O sucesso da missão Rosetta1 é mais um marco do avanço da

fronteira do conhecimento da exploração espacial produzido pela Astronomia, não sendo possível alcançar os

objetivos da missão sem o uso aplicado das tecnologias computacionais.

O desenvolvimento produzido trouxe além dos novos desafios científicos, novas demandas

computacionais, resultado do aumento exponencial da produção de novas informações. Projetos como o do

Large Synoptic Survey Telescope (LSST) produzirá por noite um volume de dados em torno de 30 terabyte.

1Primeira sonda construída para orbitar e pousar em um cometa. Feito realizado pela Agência Espacial Europeia

(ESA).

Page 2: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.2

Estima-se que ao final da construção do seu survey2, o arquivo de dados apresente tamanho na ordem de 70

petabyte [Boner, 2009], produzindo um volume de dados jamais vistos pelos astrônomos.

As interpretações destas informações pelos astrônomos, só podem ser realizadas através de técnicas que

envolvam o profundo conhecimentos da Física, Astrofísica, Matemática e Astronomia, demandando da

aplicação direta de teorias e técnicas computacionais complexas, a exemplo de temas como big data, redes

neurais, inteligência artificial, computação paralela e de alto desempenho, aplicação dos supercomputadores,

entre outras. Essa reunião de conhecimentos teóricos e práticos de diferentes áreas, cria de acordo com as

pesquisas [Kounchev et al 2009, Boner 2010, Laurino et al. 2011, Brescia et al 2013] um novo campo da

Astrofísica intitulada Astroinformatics3.

Dentro do cenário atual das pesquisas astronômicas, uma nova Ciência se apresenta trazendo aos

astrônomos novas rotinas e desafios. Entre os desafios estão os problemas de natureza computacional, que

passam a ser conhecidos como desafios da Astroinformática [Boner 2010, Brescia et al. 2013]. Nesse sentido,

compactuando com a filosofia empregada pelos Observatórios Virtuais (OV) [Brunner et al. 2001, Djorgovsk

et al. 2005, Santander-Vela 2008, Erard et al. 2014], e a perspectiva do eScience4 [Gray, 2009], o presente

trabalho explorou e vem propor alternativas por meio de aplicações computacionais no campo da Astronomia.

Diante do exposto, este trabalho teve como finalidade, também, potencializar as investigações cientificas em

velhas fontes de dados, propondo meios de estruturar e localizar objetos celestes presentes em base de dados

desorganizadas oriundas de pequenos telescópios. Para tanto, foram utilizados dados fornecidos pelos

telescópios do Observatório Astronômico Pico dos Dias (OPD), administrado pelo Laboratório Nacional de

Astrofísica (LNA). Com base nesse contexto, o trabalho se propôs a:

1. Permitir acesso fácil a dados astronômicos que se encontram base de dados brutas;

2. Reutilizar dados de outros astrônomos para aumentar o nível de utilização e exploração do

potencial das observações [Borne, 2013];

3. Diminuir os custos operacionais das pesquisas científicas principalmente na Astronomia. Uma

vez que o processo de obtenção dos dados é árduo, caro, dependente de condições adversas. O

que muitas vezes não garante ao final das noites de observação que os dados realmente sejam

obtidos.

Como consequência destas propostas, acredita-se que haja um aumento do número de solicitações de

observações para dados não originais, ou seja, que ainda não estão na base de dados, já que o fácil acesso

permitirá a multiplicação de informações de dados observacionais comuns, possibilitando o compartilhamento

por diferentes astrônomos os dados de uma mesma base de dados [Brunner et al. 2001].

Os argumentos aqui apresentados são baseados nos rumos atuais da astronomia mundial. Eles são

justificados pela reunião de esforços pioneiros e de cooperações internacionais, para oferecer acesso a dados

de observações de telescópios terrestres e espaciais, como também contribuir para o desenvolvimento de

ferramentas computacionais que possam ser utilizadas nas pesquisas em Astronomia.

2Um survey astronômico é um levantamento de dados ou mapeamento de regiões do céu utilizando telescópios

e/ou detectores.

3 Uma tradução para esta palavra original da língua inglesas seria a palavra Astroinformática.

4 Um significado para o termo originário da língua inglesa seria fazer uso na Ciência de tecnologias e ferramentas

de Ciência da Computação que possibilitem fazer Ciência de forma melhor, mais rápida e com maior impacto.

Page 3: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.3

O CÉU DIGITAL

O pesquisador Robert Brunner em conjunto com outros astrônomos e profissionais da computação,

publicaram o artigo The National Virtual Observatory (NVO) [Brunner et al. 2001, Araya 2015]. Neste

trabalho, pela primeira vez é apresentado o termo Observatórios Virtuais, ou Observações Virtuais (OV). Este

foi o ponta pé inicial das observações e análises de dados astronômicos, onde as informações acerca dos objetos

celestes seriam preservadas em dados organizados em bancos de dados, potencializando a utilização dos dados

e disponibilizando mais tarde com acessos por ferramentas online, para realização de diversos tratamentos,

interpretações e análise dos dados.

A filosofia da reutilização de dados, deu início à construção de verdadeiros surveys astronômicos,

formados a partir das informações produzidas por telescópios dentro e fora do planeta. Essa iniciativa

representou uma das grandes contribuições para o desenvolvimento dos OV no cenário astronômico mundial

[Araya 2015].

Nos bancos de dados dos OV, os dados são sempre inseridos após o período de propriedade do

pesquisador (que pode variar de 12 a 36 meses, dependendo da política do telescópio) e obedecendo o formato

definido pelo OV [Genova, 2015]. Dentre as razões que justificam o uso dos OV, estão o aumento exponencial

de aquisição de novos dados, onde muitos desses são redundantes, e a capacidade de armazenamento de dados,

que sempre será limitada. Com o crescimento redundante e exponencial dos arquivos nas bases de dados, o

processo se torna ineficiente e menos eficaz. Em seu trabalho, Brunner propõem que sejam utilizadas as

“Observações Virtuais”, para diversos fins, entre esses o educativo. Ele também apresenta os conceitos e

discussões, além de vantagens, ferramentas e outras pontos acerca dos OV. [Brunner et al 2001].

A solução proposta por Brunner foi muito bem recebida pela comunidade astronômica internacional

[Brunner et al. 2001, Szalay et al. 2001, Araya 2015]. Szalay reforça o trabalho de Brunner e acrescenta a ideia

de que os dados astronômicos devem ser acessáveis de modo on-line, reforçando o conceito da reutilização de

dados [Szalay et al. 2001, Araya 2015]. No trabalho intitulado The World-Wide Telescope, ele defende que os

astrônomos e as bases de dados dos telescópios do mundo inteiro possam se comunicar para acessos e trocas

de dados de telescópios variados, defendendo a criação de um banco de dados mundial [Szalay et al. 2001]. O

pesquisador alega ainda que os dados dos Observatórios Virtuais, além de serem reutilizados por pesquisadores

diferentes, oferecem uma excelente base para o ensino e difusão da Astronomia, Astrofísica, Computação e

descobertas cientificas.

Diversas vantagens são apresentadas por Szalay [Szalay et al. 2001], entre essas, destaca-se a

possibilidade de pesquisadores, educadores e estudantes de todo o mundo possuírem acesso a materiais de

altíssima qualidade, obtidos por exemplo por telescópios fora da atmosfera, como é o caso do telescópio

espacial Hubble em todos os comprimentos de onda.

Compactuando com a filosofia central das OV, Mickaelian [Mickaelian, 2006] apresenta o e esforço da

comunidade local, para construção de um moderno Observatório Virtual Armênio, o Armenian Virtual

Observatory (ARVO), para ser utilizado por físicos, astrofísicos e toda comunidade astronômica. No ARVO,

é possível realizar obtenção e extração de dados, aquisição, redução, publicação e outras análises. Em seu

trabalho, Mickaelian apresenta a experiência da cooperação entre o (ARVO) e o International Virtual

Observatory Alliance (IVOA), bem como relação com outros programas mundiais.

Page 4: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.4

Barache (2013), apresenta a experiência de pesquisas realizadas por um grupo de mais de 400 cientistas,

para processar dados de pesquisas espalhadas por países europeus. O grupo era baseado em ótica terrestre e do

rastreamento do satélite Gaia. Para isso são utilizados padrões da astrometria, processamento de imagens,

formato de dados, padrões Flexible Image Transport System (FITS) e soluções para problemas decorrentes do

processo.

Leon (2012) defende em seu trabalho a disponibilização dos dados de um telescópio de 30m no sistema

de observações virtuais. Ele tratou os dados com MySQL, linguagem de programação para banco de dados, e

outras tecnologias computacionais. Mais uma vez, é confirmada a importância da disponibilização de dados

em redes e o acesso a informação em bancos de dados em rede.

Por ser jovem a iniciativa da utilização de dados oriundos de outros astrônomos, muitos pesquisadores

apresentam dúvidas sobre tal filosofia [Peters, 2012]. A realização de pesquisas com dados dos OV, promovem

várias discussões sobre a reutilização dos dados. A queixa mais pontual da comunidade astronômica

internacional se referia ao emprego de dados não homogêneos, já que os mesmos são obtidos por diferentes

telescópios [Peters, 2012].

A reutilização de dados deve também ser compreendida como uma maximização do potencial do dado

em si. Essa prática tem se tornado uma realidade crescente na comunidade astronômica internacional [Araya

2015]. No Brasil, poucos são os projetos que se alinham a essa necessidade. Grupos como o Brazilian Virtual

Observatory (BRAVO) estabelecem o marco sobre o movimento OV em solo nacional [De Carvalho et al

2010].

Vários desafios são enfrentados pela comunidade de astrônomos para promover celeridade do processo

de expansão dos OV. Entre esses está o gargalo computacional, principalmente no Brasil. Nesse sentido, é que

foram desenvolvidos os esforços do presente trabalho. Enke em seu trabalho [Enke el al. 2012], apresenta o

resultado dos esforços de astrofísicos e cientistas da computação para a criação de uma classificação ordenada

de aplicação e uso de tecnologia em redes de dados, interfaces computacionais de softwares, comunicações e

uso de ferramentas em ambientes virtuais, deixando evidente novas demanda para o rumo das pesquisas em

Astronomia.

A ASTROINFORMÁTICA

Em Borne (2013), são sinalizadas novas demandas astronômicas decorrentes do gerenciamento e

manipulação dos dados de telescópios. Entre elas, o autor apresenta técnicas, habilidades e competências

utilizadas para construção e manutenção de banco de dados, dando origem a mais um campo de atuação para

astrônomos e profissionais da computação. Ele enfatiza que para a Astronomia lidar eficazmente com esse

desafio e colher o retorno científico máximo de grandes investigações existentes e futuras, é preciso realizar

instalações e projetos de produção de dados, “precisamos de nossos próprios especialistas da ciência da

informação” [Borne 2009]. O uso das tecnologias da Ciência da Computação na Astronomia foi nomeada pelo

mesmo de “Astroinformatica” [Borne, 2009, 2013].

A Astroinformatica é apresentada como um entre quatro paradigmas da pesquisa astronômica, seguida

das três metodologias tradicionais de pesquisa: observação, teoria e computação ou modelagem [Borne, 2013].

As áreas de pesquisas da astroinformatica incluem aprendizagem de máquina, mineração de dados,

visualização, estatística, ciência da semântica e gerenciamento de dados entre outras competências.

Page 5: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.5

Em um trabalho publicado utilizando às Tecnologias da Informação e Comunicação (TIC) [Brescia

2013], o autor chama a atenção para o grande dilúvio de dados gerados pelas pesquisas científicas,

especialmente na Astronomia. É sinalizado também, a necessidade de aprimorar tanto na práxis, quanto na

metodologia de cada trabalho de investigação, pois os novos desafios tecnológicos impostos, embora pareçam

cruciais, por outro lado, abrem perspectivas excitantes, possibilitando as novas descobertas astronômicas,

através de procedimentos avançados de mineração de dados, dada a complexidade dos dados astronômicos e a

variedade de problemas científicos. No entanto, para se fazer ciência atualmente, necessita-se da

implementação de novos algoritmos e métodos inovadores, configurando dessa forma o futuro das pesquisas

astronômicas [Brescia 2013].

Em virtude da sua importância, vários trabalhos apresentam a Astroinformática como área chave para

desenvolvimento das pesquisas astronômicas [Borne 2009, 2013, Kounchev et al. 2009, Laurino et al. 2011,

Brescia 2013, Feigelson et al. 2013]. E a caracterizam como uma área interdisciplinar e multidisciplinar da

Ciência. Basta ver que descobertas importantes ocorrem apenas no cruzamento das ciências e em colaboração

de vários campos, principalmente na Astronomia e na Astrofísica [Martirosyan, Memickaelian 2015].

Diante do cenário apresentado, é consenso entre os pesquisadores que a Astronomia atual precisa

integrar a Astroinformática como uma disciplina dentro dos planos das agências de financiamento,

departamentos de universidades, programas de investigação, de formação de pós-graduação e graduação

[Martirosyan, Memickaelian 2015]. Compreende-se que agora é o momento para o reconhecimento da

Astroinformática como uma metodologia essencial da pesquisa astronômica, pois, o futuro da astronomia

depende disso.

GERENCIAMENTO DE DADOS ESPACIAIS

Os Sistemas de Gerenciamento de Banco de Dados (SGBD) convencionais foram desenvolvidos a

princípio para a organização de grande volume de dados administrativos. Porém, com o aumento massivo das

informações produzidas pelas pesquisas cientificas, as demandas por bancos de dados científicos cresceram.

Na Astronomia em especial, os SGBD são responsáveis não apenas pelos registros das informações, como

também por fazer parte da metodologia da pesquisa moderna, se tornando fundamental para a aquisição e

compartilhamento dos dados gerados por gigantescos telescópios e consórcios astronômicos. Esta nova

abordagem trouxe a necessidade de se adaptar os modelos de dados e os SGBD convencionais às novas

exigências dos cenários científicos, se tornando peça chave na produção do conhecimento, com aplicações em

todas as áreas da atividade humano de produção de dados [Santos Filho, Traina, 1999].

No entanto, nos SGBD astronômicos, as informações são tratadas como dados multidimensionais, onde

a localização de um objeto celeste, é composta por uma sucessão de coordenadas e arquivos. Os dados

multidimensionais, também chamados de dados espaciais, recebem essas nomenclaturas devido à sua

localização no espaço geométrico (ou simplesmente espaço) onde são representados [Schneider, 97]. Estes

dados consistem de objetos espaciais compostos por pontos, linhas, regiões no espaço, retângulos, superfícies,

volumes, hipercubos e outros de dimensões maiores que envolvem, inclusive, a noção de tempo [Aref, 97].

Para além das características mencionadas, as estruturas utilizadas nos SGBD astronômicos necessitam

garantir que os arquivos de dados sejam associados às coordenadas espaciais, atrelando coordenadas, dados de

ciência e os dados de calibração. Desse modo, são identificados requisitos de software e de algoritmos que

Page 6: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.6

permitam e suportem operações como inserção, remoção, localização dos dados de Ciência e de calibração,

assegurando a eficiência dos processos.

SGBD COM EXTENSÕES ESPACIAIS

A crescente demanda por gerência de dados espaciais, desenvolveu as chamadas extensões espaciais

para os sistemas de gerenciamento de banco de dados. Essas extensões fornecem apoio aos tipos espaciais,

métodos de indexação e operadores que podem ser acessados e utilizados pelos sistemas que utilizam mais de

uma dimensão para localização dos seus objetos, atribuindo aos SGBD com os plug-ins espaciais a

responsabilidade de gerenciar os dados espaciais [Queiroz, 2005; Vinhas, 2005].

É a administração e a manipulação dos dados pelas camadas mais externas com um bom desempenho

que se espera de um SGBD espacial. No entanto, garantir o desempenho depende de aspectos como: o método

de armazenamento, o tamanho do volume de dados, o formato do dado e os algoritmos utilizados nas consulta

ao banco de dados. Desse modo, esses são alguns dos principais fatores que vão orientar os parâmetros de

eficiência, ou a escalabilidade do SGBD com extensão espacial.

Devido à sua aplicabilidade comercial, ainda são poucos os SGBD que apresentam suporte para dados

espaciais. Entre estes, estão o MySQL, Oracle Spatial, Oracle Locator e o PostgreSQL/PostGIS, esse último

gratuito e de código fonte aberto, ou seja, de domínio público e livre de licença, desenvolvido a partir do projeto

Postgres, iniciado em 1986 na Universidade da Califórnia em Berkeley [De Melo 2005, PostgreSQL/PostGIS,

2008].

Um Sistema de Gerenciamento de Informações Astronômicas (SGIA) deve ser capaz de utilizar apenas

uma gama do SGBD, utilizando os dados alfanuméricos já armazenados sem alterar o esquema de tabelas já

implantado, apenas acrescentando novas tabelas e informações. Naturalmente, o SGIA deve cuidar da

eficiência na recuperação dos dados, uma vez que SGBD sem extensão espacial não fornecem métodos de

acesso para dados espaciais. Isso implica que o SGIA deve fornecer os mecanismos de acesso e manipulação

aos dados espaciais. Por essa razão, este trabalho trata da análise das estruturas de dados representada pela

Figura 1, ou seja, baseadas em árvores binárias de busca de modo geral, adaptadas para dados espaciais, de

modo que cada nó, (círculos) corresponde a uma observação de um objeto celeste.

Figura 1. Representação geral de uma árvore de dados

Para tanto, é necessário analisar os métodos de indexação para dados espaciais, discutindo e realizando

testes para implementações em aplicação que permitam organizar e localizar arquivos oriundos dos telescópios

do OPD. Devido às características das imagens e dos telescópios, cujas observações produzidas geram

diferentes quantidades de arquivos indexados, diferentes métodos de indexação e algoritmos são utilizados

para organizar, armazenar e recuperar dados espaciais de maneira eficiente.

Page 7: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.7

PADRÃO DO DADO ASTRONÔMICO

Os arquivos das imagens astronômicas geralmente apresentam a extensão FITS, que é a abreviação de

Flexible Image Transport System e significa Sistema de Transporte Flexível de Imagens. Esse formato digital

é utilizado para armazenar propriedades físicas digitalmente convertidas, transmitir e manipular imagens

científicas [Pence, 2010]. Projetado por Well e Harten, ambos pesquisadores da NASA [Well et al. 1979], foi

criado para fins científicos e, portanto, inclui muitas informações internas tais como parâmetros de calibração

fotométrica e espaciais, juntamente com os dados de ciência.

Nas Figuras 2 e 3, são apresentados alguns campos do cabeçalho de uma imagem na extensão FITS.

Várias razões justificam o uso desse formato, entre as principais estão os múltiplos campos e a indexação de

dados. Neles, são inseridos as informações brutas do arquivo e da imagem. Estas informações são armazenadas

em uma estrutura da tabela ASCII legível, de modo que um utilizador possa examinar toda a informação contida

na captura, incluindo o autor, a data, o instrumento utilizado, as coordenadas da imagem entre outras

informações relevantes [Pence, 2010].

Figura 1: Parte superior do cabeçalho de arquivo no formato FITS.

Figura 2: Parte inferior do cabeçalho de arquivo no formato FITS.

Na Figura 4 é apresentada a imagem que está associada ao cabeçalho citado anteriormente. Pode ser

observado que em uma única imagem estão presentes centenas ou milhares de objetos celestes, e

potencialmente, dados a serem analisados.

Page 8: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.8

Figura 3: Imagem astronômica no formato FITS.

Os arquivos no formato FITS são utilizados para armazenar dados que não são só imagens; como

também, espectros, cubo de dados ou até mesmo dados estruturados, tais como múltiplas tabelas de dados

dispostas em folhas para o mesmo objeto. Um arquivo na extensão FITS pode ainda conter várias extensões, e

cada uma desta pode conter um objeto de dados [Pence, 2010].

Os campos que determinam os parâmetros da parte ASCII do arquivo FITS são denominados de flags.

Cada flag tem extensão de 8 bits. Os parâmetros necessários para organizar a estrutura de um banco de dados

são obtidos por meio da leitura dos metadados contidos nas flags. As informações podem ser editadas ou

adicionadas de acordo com as necessidades de estruturação dos dados. Falhas na gravação podem ocorrer no

momento da obtenção das imagens, tanto da parte binária (imagem em si) quanto na parte ASCII da imagem.

Imagens assim podem ainda ser tratadas e manipuladas para serem utilizáveis. Na impossibilidade de

tratamento, tais imagens são descartadas.

A qualidade do formato FITS está na completude e exatidão das informações do seu cabeçalho e da

integridade dos bits que formam a imagem. Os problemas e falhas de qualidade podem surgir na obtenção dos

dados e dificilmente na sua manipulação. Como exemplo, a falha na comunicação do equipamento controlador

de qualquer telescópio pode não preencher as flags obrigatórias no cabeçalho do arquivo FITS. Com está

análise prévia, o usuário – astrônomo terá um parâmetro de guia para o julgamento da confiabilidade dos dados

do banco de dados.

MANIPULAÇÃO DOS DADOS

Para realizar a manipulação de dados em formato tão específico, são necessários um conjunto de

ferramentas, tecnologias, paradigmas e linguagens computacionais também específicas. Para este fim, foram

utilizadas entre ferramentas e linguagens computacionais:

IRAF (Image Reduction and Analysis Facility): É uma ampla coleção de softwares para uso

geral em redução e análise de dados científicos. O projeto IRAF foi desenvolvido pelo National

Optical Astronomy Observatory (NOAO) nos Estados Unidos. Dentro do IRAF, os softwares

estão organizados em “pacotes”. O pacote “NOAO”, inclui uma coleção de programas para

uso geral em processamento de imagens e em aplicações gráficas, bem como um grande

número de programas para redução e análise de dados da astronomia óptica.

O IDL (Interative Data Language): É uma linguagem de programação cientifica utilizada nas

mais diversas áreas de pesquisa, sensoriamento remoto, SIG, áreas da Saúde, Física,

Page 9: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.9

Astrofísica, Engenharias, dentre outras utilizações, que permite desenvolvimento desde

pequenos e simples programas até aplicações mais robustas e complexas.

API do JAVA: Desenvolvidas pela NASA, a utilização destas APIs necessitam de um alto grau

de conhecimento da linguagem de programação orientada a objeto JAVA. Tornando sua

utilização muito comum nas áreas de Ciências e Engenharias voltadas para a computação.

Python: É uma linguagem de programação orientada a objetos recente e de fácil utilização.

Tem sido adotada pela comunidade científica, em especial a comunidade de astrônomos e

astrofísicos como ferramenta fundamental no desenvolvimento de suas pesquisas. Com a

incorporações de bibliotecas prontas ou criadas pelos próprios usuários, está linguagem se

popularizou rapidamente no meio científico, devido a ser uma linguagem de alto nível, ou seja,

de nível de abstração elevado, longe do código de máquina e próxima à linguagem humana.

O acesso e leituras dos cabeçalhos (headers) e das imagens foram realizados por meio da utilização do

IRAF, IDL e do Python. A utilização do Python com a adição de bibliotecas específicas, apresentou maior

facilidade de manipulação e integração dos dados com as estruturas de indexação, sendo escolhido como

ferramenta de acesso e manipulação dos dados. Com acesso ao cabeçalho das imagens, foram identificados os

campos vetoriais de interesse como ascensão reta (RA), declinação (DEC), tipo, telescópio, endereços de

memória dos dados (Ciência e calibração) e a data da obtenção dos mesmos, como são apresentadas nas Figuras

5 e Figura 6.

A partir dessa extração, as informações são ordenadas e relacionadas tanto ao endereço dos arquivos de

ciências, quanto aos dados de calibração. Como exemplo, para um imagem ou espectro de uma galáxia, existem

as imagens de correções de bias, flat e dark. Estas correções devem estar associadas à imagem da galáxia

quando o usuário fizer a consulta.

Figura 4: Rotina em Python para leitura de arquivos.

Produzido o script de leitura, Figura 5, e a extração das informações dos arquivos, Figura 6, novas

demandas foram identificadas. A falta de padronização dos arquivos, os diferentes formatos de headers,

arquivos com headers não preenchidos ou incompletos, arquivos sem valor, dados inúteis, arquivos de imagens

sem calibração e tantas outras situações, não permitiram automatização integral do processo. Diante da

diversidade de arquivos e situações foi necessário selecionar uma parte do volume de dados para criar uma

Page 10: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.10

base de dados. Para tanto, a filosofia de mineração de dados foi empregada com o objetivo de identificação dos

dados úteis, padronização, e organização dos dados úteis e não úteis.

Figura 5: Resultado obtido após a leitura dos arquivos.

A Figura 6 apresenta coordenadas no padrão graus, horas e minutos (° ’ ”), ou seja, três unidades de

medidas de arcos. Para tratar essa questão, e tornar as buscas eficientes, as coordenadas foram convertidas em

uma única medida de arco, o radianos.

Métodos de Indexação Espaciais

Os métodos de indexação espaciais foram desenvolvidos devido às limitações dos métodos de acessos

unidimensionais tais como as tabelas Hash ou árvores binárias. De acordo com Gupchup [2003], o método de

acesso deve ser compatível com a natureza dimensional dos dados, que por sua vez define as chaves de busca

dos arquivos armazenados em um banco de dados.

A indexação também é justificada devido ao fato das buscas sequenciais serem definida como um tipo

de pesquisa em vetores ou listas, interagindo elemento por elemento, de modo que seja uma função de tempo

relacionada com o número de elementos na base de dados, ou seja linear. Essa forma de pesquisar tornar a

localização de um determinado objeto dentro da base de dados um processo ineficiente. Buscas sequenciais

necessitam de um grande número de comparações e podem precisar de um número igual à metade da

quantidade de elementos da base de dados para localizar o elemento solicitado [Lafore, 2005].

A forma mais eficiente de localizar um objeto em uma banco de dados é por meio de estruturas

indexadas. Compatíveis com a solução do problema proposto estão os métodos Grid File e os métodos

baseados em árvores multidimensionais como a KD-Tree, R-Tree, TV-Tree e QuadTree [Guttman, 1984,

Vinhas, 2005, Nievergelt et al. 1984, Lin, 94, Santos Filho, Traina, 1999, Szalay, 2002].

Além da natureza espacial, outra característica dos bancos de dados astronômicos é o seu grande

tamanho. As estruturas baseadas, por exemplo, nas tabelas Hash, apresentam desempenho de inserção ou busca

na ordem de tempo – O(1). A mesma operação em uma árvore balanceada apresenta desempenho em tempo

logarítmico – O(log n), como apresenta a Tabela 1.

Tabela 1: Operações nas Árvores Binárias

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9 10

Tem

po

(s)

Número de Elementos (Base 10)

O log(n)

Page 11: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.11

Nota-se na Tabela 1 que a medida que são inseridos novos elementos na base de dados, o tempo cresce

linearmente. Esse incremento ocorre devido à forma como os dados estão armazenados e às operações são

realizadas. O armazenamento de arquivos em disco rígido é o responsável pela queda do desempenho durante

as operações nos métodos em que se baseiam no acesso direto à base de dados para realizar as operações

[Lafore, 2005]. Para evitar uma grande dependência do acesso direto ao disco rígido, são empregados os

métodos indexados, cuja operação passa por um mapeamento prévio de todos os elementos presentes na base

de dados [Vinhas, 2005]. Esse procedimento estrutura todas as operações, mapeando e setorizando o

posicionamento de cada elemento. Desse modo, as operações são realizadas sem a necessidade de acessar o

disco rígido para efetuar qualquer operação. Diminuindo os acessos ao direto e aumentando a eficiência das

transações.

De acordo com os requisitos que a base de dados solicita e as características dos métodos de indexação

espaciais, são apresentados na próxima secção as características dos principais métodos de indexação outrora

já citados no texto, com a finalidade de que seja adotado o método adequadas ao problema aqui discutidos.

Neste sentido, as estruturas de dados auxiliares são essenciais para o processamento eficiente das

consultas espaciais e localização dos arquivos. Envolvem apenas uma parte da base de dados tornando o

processo eficiente devido ao fato de ter sido feita previamente a identificação dos índices espaciais, RA e DEC,

coordenadas utilizadas para promoverem as aproximações geométricas de acordo com Vinhas [2005] e

Guttman [1984].

Grid File

De acordo com Vinhas [2005], o Grid File é um método de indexação tradicional baseado na tabela

Hash. As tabelas hashing utilizam funções matemáticas para associar os objetos de entrada (transformação em

chave) com os endereços de memória (n), representada na Figura 7. Em sua operação, são consideradas chaves

ou pares, que preservarão sempre a mesma saída para a mesma entrada. Devido e essa natureza, serão bem-

sucedidas às pesquisas que forem precisas, ou seja, que apresentarem como entrada, exatamente a mesma

entrada de quando o objeto foi armazenado na estrutura.

Outro ponto que deve ser visto com atenção sobre as tabelas Hash são as colisões. Uma colisão é

definida quando duas ou mais entradas apresentam o mesmo endereço na tabela, não preservando a integridade

dos dados. Por fim, outros problemas podem ser citados, como a impossibilidade da realização de buscas por

intervalos.

Devido a tais características mencionadas, a indexação por Hash não atenderia às necessidades dos

problemas de indexação espacial. Más, com um excepcional tempo de resposta, O(1), adaptações foram

implementadas na tentativa de adequar a utilização. Devido a estas adaptações, o desempenho foi afetado das

tabelas, conhecidas agora como Grid File, como é apresentado por Vinhas [2005], pois encontrar as funções

que permitam realizar a distribuição dos objetos de maneira ampla nos endereços da tabela sem promover uma

baixa densidade dos pontos é complexo, tornando difícil o emprego do método [Vinhas, 2005].

Page 12: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.12

Figura 7: Hashing [Vinhas, 2005].

KD-Tree

KD-Tree é uma árvore binária de partições como representada na Figura 8. Cada nível de uma árvore

KD-Tree particiona o espaço em dois subespaços, de forma que, em cada nó seja armazene aproximadamente

metade dos pontos em sub árvores [Gupchup, 2003].

O particionamento é feito ao longo de uma dimensão no nó, no nível mais alto da árvore, ao longo da

segunda dimensão, em nós que se encontram no nível seguinte e assim por diante, de forma cíclica pelas

dimensões. A condição de parada está relacionada com a quantidade máxima de pontos em um nó [Gupchup

2003], ou seja, a condição de parada está relacionada com o preenchimento do nó.

Figura 8: KD-Tree [Gupchup, 2003].

Vinhas [2005], apresenta um exemplo de aplicação com a KD-Tree. Em seu esboço, deseja-se

“encontrar todos os empregados nascidos entre 1950 e 1955 que recebem entre R$3.000,00 e R$5.000,00”,

vide Figura 9.

Figura 9: Busca em dois atributos (a) Interpretação geométrica da busca (b). [Vinhas, 2005].

Page 13: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.13

A tarefa pode ser vista como uma pesquisa em duas dimensões por meio de intervalos, o que atenderia

no caso de buscas por região. Vinhas utilizou os atributos, data de nascimento e salário, como uma das

componentes do espaço (Figura 9 a). No caso de um banco de dados astronômico, o equivalente será as

coordenadas presentes nos atributos RA e DEC (Figura 9b) [Vinhas, 2005].

A conclusão obtida do exemplo hipotético apresentado por Vinhas [2005], considera a chave formada

por k atributos (k dimensões), onde ki é o valor da i-ésima componente da chave são:

Para cada nó haverá apenas uma chave e um discriminador, ou seja, um índice.

O discriminador é um valor entre zero e k-1 que representa a dimensão ao longo da qual o

espaço será subdividido, ou seja, a componente ki que será empregada para definição da ordem

na árvore [Vinhas, 2005];

Todos os nós do mesmo nível são associados ao mesmo valor de discriminador [Vinhas, 2005];

O nó raiz está associado ao discriminador zero, aos dois descendentes diretos, discriminador

1, e assim por diante, até o k-ésimo nível que está associado ao discriminador k-1[Vinhas,

2005];

A partir do nível k+1 o ciclo começa se ser repetido, sendo associado o discriminador 0 a este

nível [Vinhas, 2005];

A ordem imposta por essa árvore é tal que, dado um nó qualquer P de discriminador j, qualquer

nó descendente (L) da sub árvore esquerda possui um valor de chave cuja componente kj é

menor do que a componente kj do nó P [Vinhas, 2005];

Da mesma forma, qualquer nó descendente (R) da sub árvore direita possui um valor de chave

cuja componente kj é maior do que a componente kj do nó P [Vinhas, 2005].

Figura 60: Árvore desbalanceada [Vinhas, 2005].

Vinhas [2005] ainda aponta que os problemas observados na KD-Tree estão relacionados a dependência

de ordem em que os nós são inseridos e no desbalanceamento da árvore Figura 10, ou seja, quando alturas das

duas sub árvores de todo nó nunca difere em mais de 1. Uma forma de contornar o desbalanceamento é adotar

um método que otimize a construção da árvore.

QuadTree

Page 14: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.14

Vista como um aprimoramento da KD-Tree, de acordo Gupchup [2003], na QuadTree cada nó está

associado com uma região retangular de espaço. O nó superior está associado todo espaço amostral. Cada nó

não-folha em uma QuadTree divide suas regiões em quatro quadrantes de igual tamanho correspondentes a

quatro nós-filhos (child nodes), conforme pode ser visto na Figura 11. Nós folhas têm entre zero e um número

máximo fixo de pontos. Assim, se uma região que corresponde a um nó tenha mais do que o número máximo

de pontos, os nós filhos são criados para esse nó.

Figura 11: (a) Representação QuadTree [Gupchup, 2003]. (b)Subdivisão dos espaços [Vinhas, 2005].

Entre as questões que devem ser consideradas relacionadas tanto com as árvores KD-Tree e quanto com

a QuadTree estão:

A probabilidade das entradas dentro de um nó fracassar por causa das regras rígidas para a

divisão de um nó. Como consequência, o espaço de memória necessário para armazenar a

árvore é maior;

A altura da árvore ser arbitrariamente grande. Como resultado, a pesquisa requer mais número

de passos. Mas, esse problema pode ser facilmente corrigido pelo balanceamento da árvore

Figura 12.

Figura 12: Representação QuadTree em árvore [Vinhas, 2005].

Na Figura 13, Vinhas [2015] apresenta uma árvore QuadTree em três níveis resultantes das subdivisões

presentes no espaço Figura 2.12b. Fica clara a setorização por parte dos nós e as ramificações sempre em quatro

nós filhos. Durante o processamento de uma transação ou consulta, apenas os nós e ramos ligados ao objeto

são percorridos, não necessitando percorrer os outros nós e ramos da árvore. Tornando o processo eficiente.

Para superar dificuldades de cunho técnicos, Gupchup [2003] sugere utilizar uma estrutura de indexação

mais dinâmica chamada R-Tree, onde a representação dos objetos de dados são feitas em intervalos de mais de

uma dimensão.

R-Tree

Page 15: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.15

A R-Tree, também chamada de árvore-R, apresenta características e semelhanças das árvores B com

alguma variação [Guphup, 2003, Vinhas 2015]. As principais diferenças estão nos valores numéricos ou

alfanuméricos que formam as suas chaves e pontos extremos de retângulos, no caso das árvores-R [Guttman,

1984]. Esta árvore busca organizar-se geometricamente as chaves inseridas com uma área retangular mínima

sobre as mesmas. Desta forma, um retângulo mínimo é formado, ou Minimum Bounding Rectangle, (MBR),

com seus pontos inferior esquerdo e superior direito. Como representado nas Figuras 13.

Figura.13 a: Representação R-Tree [Vinhas, 2005]

Figura 13 b: Representação R-Tree [Vinhas, 2005]

Cada dado referente a uma observação astronômica armazenada na base de dados apresenta em seu

cabeçalho uma série de informações, dentre as quais posicionais. Na árvore R-Tree os nós contêm entradas

para registro de índices sob forma:

(W, Offset-value).

Onde W é o identificador de posição bidimensional do objeto indexado, portanto;

W = (RA, DEC)

Nos nós folhas, ou filhos, as entradas devem seguir o padrão;

(W, Child-Point).

Onde ponto filho é o endereço de um nó menor no árvore-R e W é o menor retângulo que abrange todos

os retângulos na parte inferior entradas, nós mais baixos. Portanto;

W = (RAmin, DECmin, RAmax, DECmax)

Um exemplo apresentado por Gupchup [2003] sugere que considerando que M é o número máximo de

entradas que vai caber em um nó, m ≤ M/2, onde m é o número mínimo de entradas em um nó. Assim, cada

Page 16: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.16

nó (exceto o raiz), contém entre m e M número de entradas. O nó raiz tem até dois filhos, a menos que seja

uma folha.

A altura em uma R-tree, que apresenta N arquivos indexados, pode-se encontrada por meio da expressão

logarítmica | log𝑚 𝑁 |-1, com m como o número mínimo de entradas. Uma das principais características da R-

tree é apresentar pequenas alturas com um grande número de entradas. Uma árvore cuja quantidade de

elementos seja igual a um milhão de objetos, ou seja (N = 1 000 000) apresentará uma altura igual a 6. Ou seja,

seis níveis na estrutura da árvore R-tree. Isto ocorre porque a pior taxa de ocupação em um nó é (m/M) onde

M é o número de entradas (Gupchup, 2003).

CONSIDERAÇÕES FINAIS

A implementação do método de indexação que dá base para o banco de dados passa por configurações

especificas solicitadas pela estrutura do arquivo a ser trabalhado. As demandas computacionais oriundas de

áreas onde a computação é ferramenta de aplicação, proposta deste artigo, é aplicar a computação para resolver

problemas em outras áreas, no caso do presente trabalho, na Astronomia, solicitando o desenvolvimento de

ferramentas ou outros meios computacionais.

Gigantescos volumes de dados compostos, com formato de dados específicos, novas arquiteturas e

outras demandas de processamento fazem com que as pesquisas relacionadas a aplicação da computação, em

especial na Astronomia, sejam reconhecidas por meio de esforços de comunidades inteiras ou de pesquisadores

individuais. Nesse sentido, pacotes de ferramentas, códigos e estruturas são desenvolvidos por pesquisadores,

astrônomos, estudantes e todo e qualquer tipo de profissional que tenha interesse em resolver ou ajudar a

solucionar um problema. Assim surgiu o projeto de bibliotecas Astropy [Prince -Whelan et al. 2018].

O projeto Astropy apoia e promove o desenvolvimento de pacotes Python de código e desenvolvimento

abertos que forneçam funcionalidade comuns e necessária para a comunidade astronômica. Um elemento-

chave do projeto Astropy é o pacote central Astropy, que serve de base para projetos e pacotes mais

especializados [Prince -Whelan et al. 2018].

Quando não é possível resolver uma determinada demanda por meio dos pacotes presentes na biblioteca

Astropy, por motivos de compatibilidade das versões das bibliotecas com o sistema operacional, ou por outras

razões decorrentes da tecnologia, a solução muitas vezes será obtida na documentação dos códigos das

bibliotecas ou por vias de adequações na própria biblioteca, que entre as utilizadas estão a Astropy, ephem,

Numpy, os e csv.

Diante dos pontos e argumentos apresentados neste trabalho foi observado na literatura, em especial,

nas pesquisas astronômicas, a criação de programas que aplicam a computação em outras áreas do

conhecimento, o que pode ser entendido como Computação Aplicada, uma vez que os desafios enfrentados

pela operacionalidade das pesquisas em todos as áreas, e em especial na Física e Astronomia são gigantescos,

onde a necessidade de processamentos, gerenciamentos e interações crescem exponencialmente, não sendo

possível promover novos conhecimento sem o auxílio da computação ou de grandes aparatos tecnológicos.

REFERÊNCIAS BIBLIOGRÁFICAS

Page 17: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.17

[Araya, 2015], Mauricio; SOLAR, Mauricio; Antognini, Jonathan. A brief survey on the Virtual

Observatory. New Astronomy, v. 39, p. 46-54, 2015.

[Aref, 97] Aref, Walid G.; SAMET, Hanan. Efficient window block retrieval in quadtree-based spatial

databases. GeoInformatica, v. 1, n. 1, p. 59-91, 1997.

[Bailey, 1998] Bailey J. A., Optical Astronomical Instrumentação. Proceedings of the Spie, vol 3355, 1998,

p932.

[Ball, Brunner1, 2010] Ball, Nicholas M.; Brunner, Robert J. Data mining and machine learning in

astronomy. International Journal of Modern Physics D, v. 19, n. 07, p. 1049-1106, 2010.

[Barache, 2013] Barache, C. et al. Vo-compatible architecture for managing and processing images of moving

celestial bodies: Application to the gaia-gbot project. In: Astronomical Society of the Pacific

Conference Series. [S.l.: s.n, 2013. v. 475, p. 251

[Braga et al 2000] Braga, A. de P.; Carvalho, ACPLF; Ludemir, Teresa Bernarda.Redes neurais artificiais:

teoria e aplicações. Livros Técnicos e Científicos, 2000.

[Berry, 1997] Berry, Michael J.; Linoff, Gordon. Data mining techniques: for marketing, sales, and customer

support. John Wiley & Sons, Inc., 1997.

[Brescia, 2013] Brescia, Massimo; Longo, Giuseppe. Astroinformatics, data mining and the future of

astronomical research. Nuclear Instruments and Methods in Physics Research Section A: Accelerators,

Spectrometers, Detectors and Associated Equipment, v. 720, p. 92-94, 2013.

[Borner, 2001] Boner, Kirk D. Data mining in astronomical databases. In: Mining the Sky. Springer Berlin

Heidelberg, 2001. p. 671-673.

[Borner, 2009] Borner Kirk D. Astroinformatics: a 21st century approach to astronomy.arXiv preprint

arXiv:0909.3892, 2009.

[Borne, 2013] Borne, K. Virtual observatories, data mining, and astroinformatics. In: Planets, Stars and Stellar

Systems. [S.l.]: Springer, 2013. p. 403–443.

[Borne, 2010] Borne, Kirk D. Astroinformatics: data-oriented astronomy research and education. Earth Science

Informatics, v. 3, n. 1-2, p. 5-17, 2010.

[Brunner, 2001] Brunner, R. J. et al. The national virtual observatory. arXiv preprint astroph/0108381, 2001.

[De Carvalho et al 2010], De Carvalho, Reinaldo R. et al. The Brazilian Virtual Observatory–a new paradigm

for astronomy. Journal of Computational Interdisciplinary Sciences, v. 1, n. 3, p. 187-206, 2010.

[De Melo 2005] De Melo, Cleber Hostalácio. SGBD com Extensão Espacial e Sistemas de Geoinformação:

Um Casamento Perfeito. Revista Fonte, 2005. p. 104 - 108.

Page 18: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.18

[Djorgovski, 2005] Djorgovski, S. George. Virtual astronomy, information technology, and the new scientific

methodology. In: Computer Architecture for Machine Perception, 2005. CAMP 2005. Proceedings.

Seventh International Workshop on. IEEE, 2005. p. 125-132.

[Enke, 2011] Enke, H. et al. Astrogrid-d: Grid technology for astronomical science. New Astronomy, 2011.

Elsevier, v. 16, n. 2, p. 79–93, 2011.

[Erard, 2014] Erard, S. et al. Planetary Science Virtual Observatory Architecture.Astronomy and Computing,

2014.

[Fayyad et al 1996] Fayyad, Usama M. et al. Knowledge Discovery and Data Mining: Towards a Unifying

Framework. In: KDD. 1996. p. 82-88.

[Feigelson et al. 2013] Feigelson, Eric D. et al. New Organizations to Support Astroinformatics and

Astrostatistics. arXiv preprint arXiv:1301.3069, 2013.

[Finkel, Benttley, 1974] Finkel, 1974, Raphael A.. ; BENTLEY, Jon Louis . Quad trees a data structure for

retrieval on composite keys. Acta informatica, v. 4, n. 1, p. 1-9, 1974.

[Galvão, Marin, 2009] Galvão, Noemi Dreyer; Marin, Heimar de Fátima. Técnica de mineração de dados: uma

revisão da literatura. Acta Paulista de Enfermagem, v. 22, n. 5, p. 686-690, 2009.

[Graham, 2007] Graham, Matthew J.; Fitzpatruck, Michael J.; MCGLYNN, Thomas A. The National Virtual

Observatory: tools and techniques for astronomical research. In: Astronomical Society of the Pacific

Conference Series. 2007.

[Gray 2009] Gray, Jim. Jim Gray on eScience: A transformed scientific method. The fourth paradigm: Data-

intensive scientific discovery, 2009.

[Genova 2015], Françoise et al. Euro-VO—Coordination of virtual observatory activities in

Europe. Astronomy and Computing, v. 11, p. 181-189, 2015

[Gupchup, 2003] Gupchup, Jayant et al. AstroMiner: Data Mining of Astronomical Databases, 2003

[Guttman, 1984] Guttman, A. R-Trees: A Dynamic Index Structure for Spatial Searching. In: Annual Meeting

ACM SIGMOD. Boston, MA, 1984. p. 47-57.

[Koperski, Adhikary 1996], Krzysztof; ADHIKARY, Junas; HAN, Jiawei. Spatial data mining: progress and

challenges survey paper. In: Proc. ACM SIGMOD Workshop on Research Issues on Data Mining and

Knowledge Discovery, Montreal, Canada. 1996. p. 1-10.

[Kounchev et al. 2009] Kounchev, Ognyan et al. Astroinformatics: A Synthesis between Astronomical Imaging

and Information & Communication Technologies. Bulg. J. Phys, v. 36, n. s1, p. 60-69, 2009.

[Lafore, 2005] Lafore, Robert. Estruturas de dados e algoritmos em Java. Ciência Moderna, 2005. P. 56-57.

Page 19: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018 Dados Astronômicos...

2402.19

[Laurino et al. 2011] Laurino, Omar et al. Astroinformatics of galaxies and quasars: a new general method for

photometric redshifts estimation. Monthly Notices of the Royal Astronomical Society, v. 418, n. 4, p.

2165-2195, 2011.

[Leon, 2012] Leon, S. et al. Tapas, a vo archive at the iram 30-m telescope. Experimental Astronomy, 2012.

Springer, v. 34, n. 1, p. 65–88, 2012.

[Lin, 94] Lin, K.-I.; Jagadish, H.V.; Faloutsos, C.: “The TV-tree - an index structure for highdimensional data”,

VLDB Journal, Vol. 3, pp. 517-542, Outubro 1994.

[Nievergelt et al. 1984] Nievergelt, J Multi-Key File Structure. ACM Transactions on Database Systems

(TOD.; Hinterberger, H.; Sevcik, K. The Grid File: An Adaptable, SymmetricS), v. 9, n.1, p. 38-71,

1984.

[Martirosyan, Memickaelian 2015] Martirosyan, R. M.; Memickaelian, A. M. Astronomy as the Leader of

Interdisciplinary and Multidisciplinary Sciences (Introductory talk). In:Relation of Astronomy to other

Sciences, Culture and Society. 2015. p. 14-32.

[Mickaelian, 2006] Mickaelian, A. The armenian virtual observatory, arvo. Romanian Astronomical Journal,

2006. v. 16, p. 23–32, 2006.

[Mclenan, 1989] Mclean, Ian S. Electronic and computer-aided astronomy: from eyes to electronic sensors.

Chichester, England/Englewood Cliffs, NJ, Ellis Horwood, Ltd./Prentice Hall, 1989, 305 p., v. 1, 1989.

[Oliveira, 2009] Oliveira, Claudia Mendes de; MELLO, Duília de. Os maiores desafios da Astronomia

Moderna. Ciência e Cultura, v. 61, n. 4, p. 20-22, 2009.

[Pence, 2010] Pence, William D. et al. Definition of the flexible image transport system (fits), version

3.0. A&A, v. 524, p. A42, 2010.

[Peters, 2011] Peters, G. J. The use of virtual observatory databases in binary star research. Proceedings of the

International Astronomical Union, 2011. Cambridge Univ Press, v.7, n. S282, p. 47–52, 2011.

[Prince -Whelan et al. 2018] Prince-Whelan, A. M. et al. The Astropy Project: Building an inclusive, open-

science project and status of the v2. 0 software. arXiv preprint arXiv:1801.02634, 2018.

[Queiroz, 2005] Queiroz, Gilberto Ribeiro; FERREIRA, Karine Rreis. SGBD com extensões espaciais.

Casanova, Ma; Câmara, G.; Davis, C.; Vinhas, L, p. 506, 2005.

[Santander, 2008] Santander, Vela; J. D. The Virtual Observatory and Grid in Spain. arXiv preprint

arXiv:0807.1296, 2008.

Page 20: DADOS ASTRONÔMICOS: UMA PROPOSTA DE IMPLEMENTAÇÃO …dfisweb.uefs.br/caderno/vol16n2/s4-a2-Dados Astronomicos.pdf · Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20,

Santana e Fernandes CADERNO DE FÍSICA DA UEFS 16 (02): 2402.1-20, 2018

2402.20

[Santos et al. 1999] Santos Filho, Roberto Figueira; Traina, Agma Juci Machado; Junior, Caetano Traina.

Indexando Pontos em Espaços com Altas Dimensões Através dos Métodos de Indexação Espacial.

Technical report 85, USP, 1999.

[Schneider, 1997], Schneider, Markus. Spatial data types for database systems(finite resolution geometry for

geographic information systems). Lecture notes in computer science, 1997.

[Souza, 2015] Souza, MSc Hugo Vieira L. Introdução a Inteligência Artificial: histórico, aplicações,

abordagens e problemas. 2015.

[Szalay, 2001] Sazalay, A.; Gray, J. The world-wide telescope. Science, 2001. American Association for the

Advancement of Science, v. 293, n. 5537, p. 2037–2040, 2001.

[Szalay, 2001] Szalay, Alexander S; The national virtual observatory. In: Astronomical Data Analysis Software

and Systems X. 2001. p. 3.

[Szalay, 2002] Szalay Alexander S. et al. Web services for the virtual observatory. In: Virtual Observatories.

International Society for Optics and Photonics, 2002. p. 124-133.

[Teotônio, 2008] Teotônio, Frederico Augusto Bedê. Comparação do Desenpenho dos Indices R - Tree, Grades

Fixas e Curvas de Hilbert Para Consultas Espaciais em Bancos de Dados Geográficos. 2008.

[Vinhas, 2005] Vinhas, Lúbia; Queiroz, Gr de. Bancos de dados geográficos. Curitiba: MundoGEO, 2005.

[Weis, 1999] Weis, Sholom M.; INDURKHYA, Nitim. Predict Data Mining. 1999.

Wells, 1979] Wells, Donald Carson; Greisen, E. W. FITS-a Flexible Image Transport System. In: Image

Processing in Astronomy. 1979. p. 445.

[Yamamoto, 2004] Yamamoto, Naotaka; Tatebe, Osamu; Sekiguchi, Satoshi. Parallel and distributed

astronomical data analysis on Grid datafarm. In: Grid Computing, 2004. Proceedings. Fifth IEEE/ACM

International Workshop on. IEEE, 2004. p. 461-466.