Параллельная поисковая машина для сверх-больших баз...

51
Параллельная поисковая машина для сверх-больших баз данных по окружающей среде Михаил Жижин, ИФЗ РАН [email protected] Eric Kihn, NGDC NOAA [email protected]

description

Параллельная поисковая машина для сверх-больших баз данных по окружающей среде. Михаил Жижин, ИФЗ РАН [email protected] Eric Kihn, NGDC NOAA [email protected]. Что мы храним и ищем?. Параллельная поисковая машина. Ищет события как определенные условия и / или тренды в архивах данных - PowerPoint PPT Presentation

Transcript of Параллельная поисковая машина для сверх-больших баз...

Page 1: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Параллельная поисковая машина для сверх-больших баз данных по

окружающей среде

Михаил Жижин, ИФЗ РАН[email protected]

Eric Kihn, NGDC [email protected]

Page 2: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Что мы храним и ищем?

Пользователи Проекты Среды

Флот IDEAS(ESG) Океан

Авиация, экология, метеорология

Климат и атмосфера

Связь и навигация, GPS

SPIDR Ионосфера

Спутниковые операторы

Магнитосфера и космос

Наблюдения Земли из космоса

SABR Спутники

Page 3: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Параллельная поисковая машина

• Ищет события как определенные условия и/или тренды в архивах данных

• Реализована на вычислительном кластере с распределенными базами данных и параллельными алгоритмами их обработки

• Подключение сетевых клиентов к поисковой машине не требует особых вычислительных затрат и трафика

Page 4: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Архитектурные шаблоны (patterns)

• Pattern 1: Data Source – Источник данных

• Pattern 2: Discovery – Обнаружение данных

• Pattern 3: Search for Events – Параллельный поиск событий окружающей среды

• Pattern 4: Modeling and Re-analysis – Моделирование и реанализ данных

Page 5: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Pattern 1: Data Source

Data Source1 Appplication

Data Source2 Application

Data Source3 Application

Data File

List of DataSets

getList()

getMetadata()

getData()

XML Element

URL

Список ресурсов (баз данных)

Метаданные о ресурсе

Выборка из базы данных

Page 6: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Основные модели данных

• Временные ряды на сетке - BLOBs• Гранулирование по времени (объем BLOB)

зависит от приложений: – 1 год для климатических данных, – 1 день космической погоды

• Метаданные в формате XML, включая символьные выражения и формулы для виртуальных параметров (напр., скорость ветра)

• Проекция на общую терминологическую базу метаданных и базы знаний

Page 7: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

XML Schema – Метаданные IDEAS

Page 8: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Модель данных IDEAS

N-CPU ClusterPressure level parametersSurface level parameters

Tim

e In

terlv

al 2

Tim

e In

terv

al N

...Ti

me

inte

rval

1

CPU4D Grid

1-1

Distributed Environmental Data Model

CPU4D Grid

2-1

CPU4D Grid

N-1

CPU5D Grid

1-2

CPU5D Grid

2-2

CPU5D Grid

N-2

Time interval 1 =[Year 1, Year 2]

Time interval 2 =[Year 2, Year 3]

Time interval N =[Year N-1, Year N]

4D Grid =time X lat X lon X

parameter

5D Grid =time X lat X lon Xlevel X parameter

Page 9: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Pattern 2: Discovery

KnowledgeBase

Application (IDEAS)

Terminology

Data source 1 Data Source 2 Data Source 3

Page 10: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Обнаружение данных в IDEAS

• Поиск и отбор источников данных• ГИС-карты для выбора области (region

of interest, ROI) и узлов на сетке (probes)

• Выбор параметров окружающей среды в общих или предметных терминах

• Виды воздействий окружающей среды в предметных базах знаний

Page 11: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск и отбор источников данных

Page 12: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Узлы и области на сетке

Page 13: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Параметры и терминология

Page 14: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Pattern 3: Search for Events

KnowledgeBase

Application (IDEAS)

Terminology

Data Source 1 Data Source 2 Data Source 3

Page 15: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск событий в IDEAS

• Редактор сценариев нечеткого поиска• Параллельный запрос в базы

(источники) данных• Нечеткий поиск событий• Визуализация результатов поиска• Экспорт данных, внешние сервисы

Page 16: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Временные ряды в узле

Page 17: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

5-мерная визуализация в области

Page 18: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск событий в терминах нечеткой логики

«классическое»множество

«нечеткое»множество

Page 19: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Нечеткие термины

Языковые Числовые Очень большой Больше X0 Большой Равно X0 Средний Между X0 и X1 Малый Меньше X0 Очень малый

Page 20: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Нечеткая логика

First operand: fuzzy set A

Second operand: fuzzy set B

Fuzzy NOT

Fuzzy AND

Fuzzy OR

AA 1

BABA ,min

BABA ,max

Page 21: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Нечеткое И: Т-нормаОпределение:

)ityassociativ()),,(()),(,()itycommutativ(,,

)ymontonicit(,,and)boundary(,1)1,(,00,0

,1,01,01,0:

cbaTTcbTaTabTbaTdcTbaTdbcaaaTaTT

xxTxT BABA

Примеры:

)productalgebraic(,

)minimum(),min(,min

abbaTbababaT

ap

Page 22: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Формулы Ягера (Yager)

1,,1min,,

1,11,1min1,,1

1

qbaqbaS

qbaqbaTq

q

qqY

qqY

Пределы:

maximum)(),max(,,lim

sum)bounded()(11,,

minimum)(),min(,,limproduct)bounded()1(01,,

baqbaSbabaS

baqbaTbabaT

Yq

Y

Yq

Y

Определение:

Page 23: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Гладкость норм Ягера

0

0.5

1(a) Two fuzzy sets A and B

A B

0

0.5

1(b) T-norm of A and B

0

0.5

1(c) T-conorm (S-norm) of A and B

a) Нечеткие функции принадлежностимножеств A и B;

b) T-нормы (И) для q = 1, 2, 5, и 50;

c) T-конормы (ИЛИ)для q = 1, 2, 5, и 50

Page 24: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Случай двух переменных

Page 25: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Многомерный поиск в IDEAS

• Многомерные функции принадлежности в IDEAS задаются как конъюнкции (И) одномерных функций принадлежности для каждого параметра и узла

• Например, «сильный ветер» И «средняя температура» И «влажность 60%»

• В качестве оператора И используется Т-норма Ягера при q=5

Page 26: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

January Wind Speed Record

0

5

10

15

20

1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97

Date

Win

d Sp

eed

(kts

)

January Temperature Record

05

1015202530

1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97

Date

Tem

pera

ture

(deg

C)

January Relative Humidity Record

0

20

40

60

80

100

1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97

Date

Rel

. Hum

idity

(%)

“High” Wind

“Average”Temperature

“About” 60%Humidity

Page 27: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Форма нечеткого запроса

Page 28: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Редактор сценария IDEAS

Page 29: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Результат нечеткого поиска

Page 30: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Pattern 4: Modeling and Re-analysis

Data File Computational Cluster

Model Code

Data Source

ModelOutput

New Temporary orPermanent

Data Source

Page 31: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Интерактивное (синхронное) моделирование

• Заполнить форму на счет модели

• Собрать данные из сети

• Рассчитать модель• Визуализировать

результаты• Вернуть ссылки на

графику и данные

Ocean API

Model run request

ESG Web/JSP server

SPIDR API

ESG visualization serverION - Java IDL wrapper

ESG API

NOAA Modeling cluster

Model runvisualiaztion and

output

Page 32: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Асинхронное моделирование - реанализ

• Собрать данные с сетевых сервисов• Рассчитать модель на вычислительном

кластере• Загрузить результаты расчетов в

реляционную базу данных• Создать (обновить) метаданные• Создать (обновить) ресурс данных

Page 33: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Климатические модели ESG• NCEP/NCAR CDAS/Reanalysis Project

Output Parameters: 1) pressure level data on 10 isentropic surfaces: horizontal winds, omega (dP/dt), geopotential height, specific/relative humidity, absolute vorticity and divergence on standard pressure levels every 6 hours; 2) total cloud cover, convective and total precipitation; 3) surface wind stress, latent/sensible heat flux, soil temperature/moisture, gravity wave drag, SST, 2m temperature, 2m humidity, 10m winds, runoff, mean sea level pressure, surface pressure, and snow. The data is available every 6 hours. The above list is not complete. URL: http://wesley.wwb.noaa.gov/reanalysis.html

• COAMPS - Coupled Ocean/Atmosphere Mesoscale Prediction System Output Parameters: Similar to NCEP/NCAR modelURL: http://www.nrlmry.navy.mil/projects/coamps/

• ACMES - Advanced Climate Modeling and Environmental Simulations Output Parameters: Similar to NCEP/NCAR modelURL: http://www.meso.com/meso/research/acmes/acmes.html

• MM5 – 5th generation mesoscale model of atmospheric circulationOutput Parameters: Similar to NCEP/NCAR modelURL: http://www.mmm.ucar.edu/mm5/mm5-home.html

Page 34: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Космические модели ESG• IRI - International Reference Ionosphere Model

Output Parameters: Electron density, electron temperature, ion temperature, ion composition (O+, H+, He+, NO+, O+2) URL: http://nssdc.gsfc.nasa.gov/space/model/models/iri.html

• AMIE - Assimilative Mapping of Ionospheric Electrodynamics ModelOutput Parameters: Ionospheric electric potential distributionURL: http://www.hao.ucar.edu/public/research/tiso/amie/AMIE_head.html

• MSM - Magnetospheric Specification ModelOutput Parameters: Electron and ion fluxes in the inner and middle magnetosphere; fluxes of electrons precipitating into the ionosphere; ionospheric electric fields; magnetic-field mapping informationURL: http://rigel.rice.edu/~freeman/dmb/index.html

• PIM - Parameterized Ionospheric Specification ModelOutput Parameters: Electron density profiles (EDPs) between 90 and 25000 km altitude, corresponding critical frequencies and heights for the ionospheric E and F2 regions, and Total Electron Content (TEC)URL: http://users.primushost.com/~cpibos/

• IONSCINT - Ionospheric Scintillation Simulation AlgorithmOutput Parameters: A simulated prediction of scintillation intensity throughout a specified theater for communication with a specified satellite.

Page 35: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Что такое SABR?SABR создавался как единый веб-интерфейс к архивам

спутниковых данных Национального центра геофизических данных (NGDC) NOAA в Болдере, штат Колорадо, США.

SABR объединяет данные со спутников DMSP (DoD), GOES (NOAA), и Terra (NASA) с многодисциплинарными базами данных по окружающей среде (NCEP/NCAR reanalysis project и SPIDR NGDC) и ГИС (MapServer, University of Minnesota) для интерактивной визуализации, поиска и заказа изображений со спутников, телеметрии и производных продуктов, которые хранятся на в реляционных базах данных, на дисковых массивах и на роботизированной библиотеке магнитных лент в NGDC.

Page 36: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Прогноз объемов спутниковых данных НОАА

0

2,000

4,000

6,000

8,000

10,000

12,000

14,000

16,000

2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

NEXRADGOESPOES (includes DMSP)METOPNPP/NPOESSEOS

Page 37: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Основные продукты SABR• DMSP орбиты в видимом и инфракрасном диапазонах с июня

1992;• DMSP «мозаики» (весь мир, Африка, Нигерия, Центральный

регион России, Сибирь) с сентября 2001;• DMSP базы данных стабильных ночных огней (изображения с

координатной привязкой и слой ГИС) на 1993 и 2001;• DMSP архив сканированных фотоизображений с 1979;• DMSP SSJ4 телеметрия с 2001;• GOES телеметрия: протоны, электроны, рентгеновское

излучение и магнитное поле с 1986;• GOES SXI изображения Солнца в рентгеновском диапазоне• Terra MODIS гранулы уровня 1 за июнь 2001 и октябрь 2003;

Page 38: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Основные функции SABR• Поиск изображений и продуктов в заданных координатах и

интервале времени для определенного типа орбит, сенсоров и разрешения;

• Отображение на карте наличия данных в заданном интервале времени для определенного типа орбит, сенсоров и разрешения;

• Анимационный просмотр временных рядов изображений (“VCR controls”);

• Орбитальная навигация по изображениям (“joystick”);• Совмещение интерактивных ГИС-карт и изображений со

спутников;• Оpen GIS Сonsortium (OGC) Web Map Server (WMS)

интерфейс к совмещенным картам и изображениям со спутников.

Page 39: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Основные функции SABR (продолжение)

• Интерактивные графики многоканальной телеметрии со спутников;

• Параллельный поиск событий в базах данных по окружающей среде и отображение спутниковых снимков (“fuzzy search engine”);

• Заказ данных с помощью “покупательской корзины” с просмотром метаданных и изображений для каждого элемента заказа;

• Асинхронная обработка заказов с подтверждением выполнения по электронной почте

Page 40: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Сценарий работы в SABR• Выбрать продукт или сервис на домашней странице

SABR; • Определить критерии поиска на форме, используя ГИС-

карты и информацию о покрытия данными; • Просмотреть последовательность найденных

изображений и отобрать интересующие в «пользовательскую корзину»;

• Просмотреть/отредактировать содержимое «пользовательской корзины» и отправить заказ на асинхронную обработку;

• Получить подтверждение о выполнение заказа со ссылками на подготовленные данные и загрузить данные на свой компьютер.

Page 41: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Системные компоненты SABR - загрузчик

1 Gbit/s Ethernet bus

Orbitaldatabase

Preview imageryraid array

Robotic tapelibrary (Tivoli)

Input datastream buffer

Ingest data processor 1

Ingest data processor 2

Real-time datastream from satellite

operator

Page 42: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Системные компоненты SABR - браузер

Page 43: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск орбит DMSP

Page 44: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Орбитальный навигатор DMSP

Page 45: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск орбит Terra MODIS

Page 46: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Орбитальный навигатор Terra/MODIS

Page 47: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Поиск «мозаик» DMSP

Page 48: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

«Пользовательская корзина» (мета)данных

Page 49: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Как SABR связан с другими системами NOAA?

• SPIDR – Bpace Physics Interactive Data Resource

• IDEAS - Investigation of Distributed Environmental Archives System

• CLASS - Comprehensive Large Array-data Stewardship System

Page 50: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Спутниковые данные в SPIDR

Page 51: Параллельная поисковая машина для сверх-больших баз данных по окружающей среде

Что мы храним и ищем?

Пользователи Проекты Среды

Флот IDEAS(ESG) Океан

Авиация, экология, метеорология

Климат и атмосфера

Связь и навигация, GPS

SPIDR Ионосфера

Спутниковые операторы

Магнитосфера и космос

Наблюдения Земли из космоса

SABR Спутники