Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft...

281
Ч етвертая парадигма Н ауЧНые исследоваНия с использоваНием больших объемов даННых Н ауЧНые исследоваНия с использоваНием больших объемов даННых ПОД РЕДАКЦИЕЙ ТОНИ ХЕЯ, СТЮАРТА ТЭНСЛИ И КРИСТИН ТОЛЛЕ

Transcript of Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft...

Page 1: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

Ч е т в е р т а я п а р а д и г м аНауЧНые иссле доваНия с использоваНием

больших объемов даННых

НауЧНые иссле доваНия с использоваНием больших объемов даННых

П О Д Р Е Д А К Ц И Е Й ТО Н И Х Е Я , С Т Ю А Р ТА Т Э Н С Л И И К Р И С Т И Н ТО Л Л Е

Page 2: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 3: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

Четвертая парадигма

Page 4: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 5: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

Ч е т в е р та я п а ра д и г м аН ау Ч Н ы е и с с л е д о в а Н и я с и с п о л ь з о в а Н и е м б о л ь ш и х о б ъ е м о в д а Н Н ы х

ПОД РЕДАКЦИЕЙ

ТОНИ ХЕЯ, СТЮАРТА ТЭНСЛИ

И КРИСТИН ТОЛЛЕ

MICROSOFT RESEARCH

Page 6: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

Памяти Джима Грея

Copyright © 2009-2014 Microsoft Corporation

Microsoft, Amalga, Bing, Excel, HealthVault, Microsoft Surface, SQL Server, Virtual Earth и Windows являются товарными или зарегистрированными товарными знаками корпорации Microsoft в США и/или в других странах. Названия других продуктов и компаний, упомянутые здесь, могут являться то-варными знаками соответствующих владельцев.

Информация, данные исследований и мнения, содержащие-ся в этом документе, отражают точки зрения их авторов и не обязательно представляют мнение корпорации Microsoft или Microsoft Research. Данный документ, вследствие меняющих-ся рыночных условий, не может считаться обязательством со стороны Microsoft, и Microsoft не может гарантировать, что приведенная информация будет оставаться точной после пу-бликации документа.

Microsoft Researchhttp://research.microsoft.com

Page 7: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

Памяти Джима Грея

Page 8: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

XIII ВВЕДЕНИЕ Гордон Белл (Gordon Bell)

XIX ДЖИМ ГРЕЙ ПРО Е-НАУКУ: ТРАНСФОРМИРОВАННЫЙ НАУЧНЫЙ МЕТОДПод редакцией Тони Хея (Tony Hey), Стюарта Тансли (Stewart Tansley) и Кристин Толле (Kristin Tolle)

1. ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

3 ВСТУПЛЕНИЕ Дэн Фэй (Dan Fay)

5 ЗАКОНЫ ГРЕЯ: НАУЧНЫЕ ВЫЧИСЛЕНИЯ, ОСНОВАННЫЕ НА БАЗАХ ДАННЫХАлександр С. Шалай (Alexander S. Szalay), Хосе А. Блейкли (Jose A. Blakely)

13 НОВАЯ НАУКА ЭКОЛОГИЧЕСКИХ ПРИЛОЖЕНИЙДжеф Дозье (Jeff Dozier), Уильям Б. Гейл (William B. Gail)

21 ПЕРЕОПРЕДЕЛЕНИЕ ЭКОЛОГИЧЕСКОЙ НАУКИ ПРИ ПОМОЩИ ДАННЫХДжеймс Р. Хант (James R. Hunt), Деннис Д. Балдоччи (Dennis D. Baldocchi), Катарин Ванинген (Сatharine Vaningen)

27 БУДУЩЕЕ ОКЕАНОЛОГИИ — 2020 ГОДДжон Р. Делейни (John R. Delaney), Роджер С Барга (Roger S. Barga)

39 ПРИБЛИЖАЯ НОЧНОЕ НЕБО: ОТКРЫТИЯ В ШКВАЛЕ ДАННЫХАлиса А. Гудман (Alyssa A. Goodman), Кертис Г. Вонг (Curtis G . Wong)

45 ОСНАЩЕНИЕ ЗЕМЛИ ПРИБОРАМИ: СЕТИ ДАТЧИКОВ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ И ЭКОЛОГИЯМихаэль Ленинг, Николас Дейвс, Матиас Бевей (Michael Lehning, Nicholas Dawes, Mathias Bavay), Марк Парланж (Marc Parlange), Суман Нат, Фенг Джао (Suman Nath, Feng Zhao)

2. ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

55 ВСТУПЛЕНИЕ Саймон Мерсер (Simon Mercer)

57 СИНГУЛЯРНОСТЬ ЗДРАВООХРАНЕНИЯ И ЭРА СЕМАНТИЧЕСКОЙ МЕДИЦИНЫМихаэль Гиллам (Michael Gillam), Крейг Файед (Craig Feied), Джонатан Хандлер (Jonathan Handler), Элайза Муди (Eliza Moody), Бен Шнайдерман (Ben Shneiderman), Катрин Плезан (Catherine Plaisant), Марк Смит (Mark Smith), Джон Дикасон (John Dickason)

65 ПРЕДОСТАВЛЕНИЕ МЕДИЦИНСКИХ УСЛУГ В РАЗВИВАЮЩИХСЯ СТРАНАХ: ЗАДАЧИ И ПОТЕНЦИАЛЬНЫЕ РЕШЕНИЯДжоэл Робертсон (Joel Robertson), Дел Дехарт (Del Dehart), Кристин Толле (Kristin Tolle), Дэвид Хекерман (David Heckerman)

75 ИЗУЧЕНИЕ ПРИНЦИПИАЛЬНОЙ СХЕМЫ МОЗГАДжефф В. Лихтман (Jeff W. Lichtman), Р. Клей Рейд (R. Clay Reid), Ганс Петер Фистер (Hans Peter Pfister), Майкл Ф. Коэн (Michael F. Cohen)

83 НА ПУТИ К КОМПЬЮТЕРНОМУ МИКРОСКОПУ ДЛЯ НЕЙРОБИОЛОГИИЭрик Горвиц (Eric Horvitz), Уильям Кристен (William Kristan)

ОГЛАВЛЕНИЕ

Page 9: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

91 УНИФИЦИРОВАННЫЙ МЕТОД МОДЕЛИРОВАНИЯ ДЛЯ ЗДРАВООХРАНЕНИЯ С ИСПОЛЬЗОВАНИЕМ БОЛЬШОГО КОЛИЧЕСТВА ДАННЫХАйен Бучан (Iain Buchan), Джон Уинн (John Winn), Крис Бишоп (Chris Bishop)

99 ВИЗУАЛИЗАЦИЯ В МОДЕЛЯХ АЛГЕБРЫ ПРОЦЕССОВ БИОЛОГИЧЕСКИХ СИСТЕМЛука Карделли (Luca Cardelli), Коррадо Приами (Corrado Priami)

3. НАУЧНАЯ ИНФРАСТРУКТУРА

109 ВСТУПЛЕНИЕ Дэрон Грин (Daron Green)

111 НОВЫЙ ПУТЬ ДЛЯ НАУКИ?Марк Р. Эбботт (Mark R. Abbott)

117 ЗА ПРЕДЕЛАМИ ЦУНАМИ: РАЗРАБОТКА ИНФРАСТРУКТУРЫ ДЛЯ ДАННЫХ НАУК О ЖИЗНИКристофер Саутен (Christopher Southan), Грэм Кэмерон (Graham Cameron)

125 МНОГОЯДЕРНЫЕ ВЫЧИСЛЕНИЯ И НАУЧНЫЕ ОТКРЫТИЯДжеймс Ларус (James Larus), Деннис Гэннон (Dennis Gannon)

131 ПАРАЛЛЕЛЬНОСТЬ И ОБЛАКОДеннис Гэннон (Dennis Gannon), Дэн Рид (Dan Reed)

135 ВЛИЯНИЕ СРЕДСТВ РАБОЧИХ ПРОЦЕССОВ НА ИССЛЕДОВАНИЯ, ОРИЕНТИРОВАННЫЕ НА ДАННЫЕ Кэрол Гобл (Carole Goble), Дэвид Де Рур (David De Roure)

145 СЕМАНТИЧЕСКАЯ Е-НАУКА: ЗНАЧЕНИЕ КОДИРОВАНИЯ В УЛУЧШЕННОЙ ЦИФРОВЫМИ МЕТОДАМИ НАУКЕ СЛЕДУЮЩЕГО ПОКОЛЕНИЯПитер Фокс (Peter Fox), Джеймс Хендлер (James Hendler)

151 НАУЧНАЯ ВИЗУАЛИЗАЦИЯ С ИСПОЛЬЗОВАНИЕМ БОЛЬШИХ ОБЪЕМОВ ДАННЫХЧарльз Хансен (Charles Hansen), Крис Р. Джонсон (Chris R. Johnson), Валерио Паскуччи (Valerio Pascucci), Клаудио Т. Сильва (Claudio T. Silva)

163 ПЛАТФОРМА ДЛЯ ВСЕГО, ЧТО НАМ ИЗВЕСТНО: СОЗДАНИЕ ИССЛЕДОВАТЕЛЬСКОЙ ИНФРАСТРУКТУРЫ, УПРАВЛЯЕМОЙ ЗНАНИЯМИСавас Парастатидис (Savas Parastatidis)

4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

173 ВВЕДЕНИЕ Ли Диркс (Lee Dirks)

175 ЧЕТВЕРТАЯ ПАРАДИГМА ДЖИМА ГРЕЯ И ФОРМИРОВАНИЕ АРХИВА НАУКИКлиффорд Линч (Clifford Lynch)

183 ТЕКСТ В МИРЕ, ОРИЕНТИРОВАННОМ НА ДАННЫЕПол Гинспарг (Paul Ginsparg)

Page 10: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

191 ВСЕ НА БОРТ! ВПЕРЕД, К АВТОМАТИЗИРОВАННОЙ СИСТЕМЕ НАУЧНОГО ВЗАИМОДЕЙСТВИЯ!Герберт Ван де Сомпел (Herbert Van de Sompel), Карл Лагозе (Carl Lagoze)

199 БУДУЩЕЕ ПОЛИТИКИ ДАННЫХЭнн Фицджеральд (Anne Fitzgerald), Брайан Фицджеральд (Brian Fitzgerald), Кайли Паппалародо (Kylie Pappalardo),

209 Я ВИЖУ ИЗМЕНЕНИЕ ПАРАДИГМЫ, И ЭТО МЫДжон Уилбэнкс (John Wilbanks)

217 ОТ WEB 2.0 К ГЛОБАЛЬНОЙ БАЗЕ ДАННЫХТимо Хэннай (Timo Hannay)

ПОДВОДЯ ИТОГИ

225 ПЛАНЫ НА БУДУЩЕЕКрейг Мунди (Craig Mundie)

229 ЗАКЛЮЧЕНИЕТони Хей (Tony Hey), Стюарт Тэнсли (Stewart Tansley) и Кристин Толле (Kristin Tolle)

233 ЧТО ДАЛЬШЕ?

234 БЛАГОДАРНОСТИ

239 НЕСКОЛЬКО СЛОВ О ДЖИМЕ

241 ГЛОССАРИЙ

245 БЛАГОДАРНОСТЬ ЗА ПРЕДОСТАВЛЕННЫЕ ФОТОГРАФИИ И ГРАФИЧЕСКИЕ МАТЕРИАЛЫ

247 О ЧЕТВЕРТОЙ ПАРАДИГМЕ

Page 11: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 12: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXII

Page 13: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XIII

Введение

Гордон Белл (Gordon Bell) | Microsoft Research

Эта книга — о новой для науки четвертой парадигме, основанной на вы-числениях с использованием большого объема данных. В исследовани-ях такого рода мы находимся на этапе развития, аналогичном времени изобретения печатного станка. Технологии печати понадобилась тысяча

лет, чтобы развиться и эволюционировать в множество существующих сегодня форм. Использование компьютеров для понимания данных, созданных и сохра-няющихся в наших электронных хранилищах информации, скорее всего, займет десятилетия — или меньше. Авторы, которые внесли свой вклад в создание этой книги, проделали выдающуюся работу, чтобы помочь понять эту новую пара-дигму с точки зрения различных дисциплин.

Во многих случаях наука отстает от коммерческого мира в возможностях понимания и использования данных. Однако коммерция сама по себе относи-тельно проста: вещи, которые можно описать несколькими цифрами или назва-нием, изготавливают, после чего продают и покупают. Научные дисциплины не удастся так просто описать несколькими понятными цифрами и названиями, и большая часть научных данных не имеет достаточно высокой экономической ценности для подпитки более быстрого развития научных открытий.

Иоганн Кеплер (Johannes Kepler), помощник Тихо Браге (Tycho Brahe), взял его каталог систематических астрономических наблюдений и открыл законы движения планет. Так было установилено разделение между поиском, анализом и приведением в порядок собранных данных и разработкой научных теорий. Такое разделение является одним из аспектов Четвертой Парадигмы.

В XX веке данные, на которых основывались научные теории, зачастую были скрыты в личных блокнотах, или, для некоторых аспектов «большой науки», сохранялись на магнитных носителях, которые со временем становились нечи-таемыми. Такие данные, особенно от отдельных людей или небольших лабора-

Page 14: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXIV

торий, в большинстве своем недоступны. Обычно их выбрасывали при уволь-нении ученого, или, в лучшем случае, некоторое время хранили в библиотеке института. Долговременный источник данных, а также доступ сообщества к рас-пределенным данным — всего лишь малая часть задач.

К счастью, некоторые «центры информации», такие как Национальный центр атмосферных исследований1 (National Center for Atmospheric Research, NCAR), старались собрать специалистов, которые проводят эксперименты пу-тем анализа проверенных данных, полученных из измерений и компьютерных моделей. Таким образом, в одной организации создавали цепочку сбора, кури-рования и анализа информации для целой дисциплины.

В XXI веке большая часть огромного объема научных данных, непрерывно получаемых при помощи новых инструментов, вместе с информацией, создан-ной в искусственных мирах компьютерных моделей, скорее всего, будет сохра-няться вечно, в живом, общедоступном и проверенном состоянии в целях посто-янного анализа. Этот анализ приведет к разработке множества новых теорий! Я уверен, что вскоре наступит время, когда информация будет жить вечно в виде архива — подобно библиотеке для бумажных книг — с публичным доступом в «облако» для людей и машин. Лишь недавно мы осмелились думать о таком постоянстве информации так же, как о предметах, которые хранятся в наших национальных библиотеках и музеях! Такое постоянство до сих пор кажется чем-то далеким, пока не приходит понимание, что сбор источников данных, включая записи отдельных исследователей и иногда всей информации о них самих — это то, на чем настаивали и к чему всегда стремились библиотеки. «Облако» намаг-ниченных закодированных данных и документов в цифровой библиотеке станет современным аналогом километров библиотечных полок с бумагой и частичка-ми чернил.

В 2005 г. Национальный совет по делам науки (National Science Board) при Национальном научном фонде (National Science Foundation) опубликовал отчет «Коллекции-долгожители цифровых данных: поддержка исследований и обра-зования в 21 веке» («Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century»), который стал началом диалога о важности сохра-нения данных и представил проблему работы с растущей группой, названной «учеными по данным».

«Интересы ученых по данным — специалистов в области информации и компьютеров, программистов и инженеров баз данных и программного обеспечения, экспертов по дисциплинам, кураторов и экспертов-аннота-торов, библиотекарей, архивоведов и других специалистов, необходимых для успешного управления коллекциями цифровых данных — заклю-чаются в полном признании их творческого и интеллектуального вкла-да» [1].

1 www.ncar.ucar.edu

Page 15: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XV

ЧЕТВЕРТАЯ ПАРАДИГМА: ФОКУС НА СИСТЕМАХ И НАУЧНОЙ КОММУНИКАЦИИ С ИСПОЛЬЗОВАНИЕМ БОЛЬШОГО ОБЪЕМА ДАННЫХ

Последнее обращение Джима Грея (Jim Gray) к Совету по компьютерным на-укам и телекоммуникациям (Computer Science and Telecommunications Board) 11 января 2007 г. [2] было посвящено его видению четвертой парадигмы научных исследований. Он описал двухкомпонентный процесс для финансирования ин-струментов сбора, проверки и анализа данных, а также инфраструктуры пере-дачи информации и публикации. Грей защищал идею создания современных хранилищ данных и документов наравне с традиционными библиотеками. При-веденная в этой книге отредактированная версия речи Джима, составленная на основании расшифровки его слайдов, важна для понимания последующих статей.

Использование большого объема данных состоит из трех основных действий: сбор, проверка и курирование. Данные поступают в разных масштабах и разме-рах, охватывая крупные международные эксперименты, межлабораторные, ла-бораторные и личные наблюдения, а возможно, и жизни отдельных людей2. Дис-циплины и масштабы отдельных экспериментов, а особенно объемы их данных, делают вопрос инструментов пугающей проблемой. Австралийская квадратная километровая решетка радиотелескопов3, Большой адронный коллайдер CERN4 и решетка астрономических телескопов Pan-STARRS5 способны создавать не-сколько петабайт (Пб) данных в день, но текущие планы ограничивают их до сбора более управляемого количества данных. Машины для секвенирования ге-нов являются самыми умеренными в выработке данных ввиду своей дороговиз-ны, поэтому секвенированы только отдельные кодирующие области гена (25 Кб для нескольких сотен тысяч пар оснований) для каждого человека. Но такая си-туация в лучшем случае временная — она сохранится, пока какой-либо частной группе ученых не удастся создать методику, позволяющую расшифровывать 100 геномов человека в течение не более чем 10 дней и не дороже, чем за 10 тыс. долл. за геном (по 3 млрд пар оснований для каждого генома каждого человека), чтобы получить за это объявленную премию XPRIZE по геномике в размере 10 млн долл.

Финансирование необходимо для создания общего набора инструментов, охватывающего полный спектр действий — от сбора и утверждения данных, курирования, анализа, и до их постоянного хранения. Курирование охватывает широкий спектр действий, начиная от поиска правильных структур для распре-деления в различные хранилища. Оно включает в себя схему и необходимые ме-таданные для долговечности и интеграции в различные приборы, эксперименты и лаборатории. Без такой четкой схемы и метаданных интерпретация получа-

2 http://research.microsoft.com/en-us/projects/mylifebits3 www.ska.gov.au4 http://public.web.cern.ch/public/en/LHC/LHC-en.html5 http://pan-starrs.ifa.hawaii.edu/public6 http://genomics.xprize.org

Page 16: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXVI

ется нечеткой и в большой степени зависит от конкретных программ, которые используются для анализа. В конечном итоге такие необработанные данные га-рантированно теряются.

Мы должны тщательно продумать, какие данные должны иметь возмож-ность храниться вечно и какие дополнительные метаданные следует собрать, чтобы это было выполнимо.

Анализ данных охватывает полный спектр действий в течение рабочего про-цесса, включая использование баз данных (в противовес коллекциям неструк-турированных файлов, к которым может иметь доступ база данных), анализ и моделирование, и затем визуализацию данных. Рецепт проектирования базы данных для конкретной дисциплины, сформулированный Джимом Греем, за-ключается в том, что она должна иметь возможность ответить на 20 ключевых вопросов, которые ей может задать ученый. Сегодня большинство наук исполь-зует базы данных для хранения тех или иных представлений данных, а не мас-сивов данных целиком. Это вызвано тем, что время, необходимое для сканиро-вания всех данных, делает их анализ невыполнимой задачей. Десять лет назад повторное считывание данных было возможно достаточно редко. В 2010 г. объем памяти дисков стал уже в тысячу раз больше, а скорость чтения-записи увеличи-лась только в два раза.

ЦИФРОВЫЕ БИБЛИОТЕКИ ДОКУМЕНТОВ И ИНФОРМАЦИИ: СОВРЕМЕННЫЙ ВИД БИБЛИОТЕКИ

Взаимодействие ученых, включая обзор работы коллегами, также фундамен-тально изменяется. Общественные цифровые библиотеки перенимают роль хранилищ публикаций у традиционных библиотек — ввиду стоимости, необхо-димости в хронологизации и хранении данных и документов по экспериментам, проведенным с этими данными, вместе.

На момент написания этой статьи библиотеки цифровых данных все еще находятся на этапе формирования, с различными размерами, формами и правами. Безусловно, веб-сайт Национального центра атмосферных иссле-дований (NCAR) является одним из старейших сайтов, посвященных модели-рованию, сбору и курированию данных науки о Земле. Суперкомпьютерный центр Сан-Диего (San Diego Supercomputer Center, SDSC) в Калифорнийском университете, Сан-Диего, который обычно ассоциируется с обеспечением вы-числительных мощностей для научного сообщества, был одной из первых ор-ганизаций, которая поняла необходимость добавления данных к своей миссии. SDSC создал свой веб-сайт Data Central7, содержащий 27 Пб информации в более чем 100 специализированных базах данных (например, по биоинформатике и водным ресурсам). В 2009 г. он зарезервировал 400 терабайт (Тб) дискового про-странства для публичных и частных баз данных и коллекций данных, которые

7 http://datacentral.sdsc.edu/index.html

Page 17: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XVII

обслуживают широкий спектр научных организаций, включая лаборатории, би-блиотеки и музеи.

Австралийская национальная служба данных8 (Australian National Data Service, ANDS) начала предлагать сервисы, начиная с Register My Data, «карточ-ного каталога», в котором регистрируется определение, структура, название и размещение (IP-адрес) различных баз данных, включая поступающие от част-ных лиц. Простой акт регистрации проходит долгий путь к организации долго-временного хранилища. Цель ANDS — оказать воздействие на национальную политику по управлению данными и проинформировать о лучших практиках курирования данных, тем самым трансформируя несопоставимые наборы ис-следовательских данных в связную коллекцию исследовательских ресурсов. В Великобритании Комитет объединенных информационных систем (Information Systems Committee, JISC) профинансировал образование Центра по цифровому курированию9 для изучения этих проблем. Со временем можно ожидать появ-ления множества подобных центров обработки данных. Отдел компьютерных и информационных наук и проектирования Национального научного фонда (National Science Foundation’s Directorate for Computer and Information Science and Engineering) недавно призвал к подаче заявок на получение долговремен-ных грантов для исследователей в области вычислений с использованием боль-шого объема данных и долговременного архивирования.

В статьях этой книги читателю предлагается рассмотреть множество возмож-ностей и задач науки с использованием большого объема данных, включая меж-дисциплинарное взаимодействие и обучение, обмен данными между организа-циями, установление новых процессов и направлений и исследовательские планы по изучению возможностей и сохранению позиций на «гребне волны» данных. Для этих задач потребуются большие капитальные и операционные затраты. Для осуществления мечты о создании инфраструктуры данных с «вездесущими дат-чиками» для поддержки новых моделей научных исследований требуется рас-ширенное взаимодействие между организациями-спонсорами, учеными и инже-нерами. Эта мечта должна активно поощряться и финансироваться.

ССЫЛКИ

[1] Национальный совет по делам науки, «Коллекции-долгожители цифровых данных: поддержка исследований и образования в 21 веке». Технический отчет NSB-05-40, Национальный научный фонд, сентябрь 2005 г., www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.

[2] Обращение Джима Грея к Национальному научно-исследовательскому со-вету — Совету по компьютерным наукам и телекоммуникациям в Маунтин Вью, Калифорния, 11 января 2007 г., http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm.

8 www.ands.org.au 9 www.ands.org.au

Page 18: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 19: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XIX

Джим Грей про е-Науку: Трансформированный научный метод

На основе стенограммы обращения Джима Грея к Совету по компьютерным наукам и телекоммуникациям Государствен-ного совета по исследованиям США1 в Маунтин Вью, Калифор-ния, 11 января 2007 г.2

Под редакцией Тони Хея (Tony Hey), Стюарта Тансли (Stewart Tansley) и Кристин Толле (Kristin Tolle) | Microsoft Research

Нам необходимо заняться созданием инструментов поддержки цикла исследований — от сбора данных и их курирования до анализа и ви-зуализации. Сегодняшние инструменты для сбора данных как в мега-, так и в микромасштабе, просто ужасны. После того, как вы получили

данные, вам нужно их курировать до тех пор, пока вы не сможете выполнять с ними какой-либо анализ; нам не хватает хороших инструментов как для куриро-вания данных, так и для их анализа. Затем происходит публикация результатов вашего исследования, и опубликованная литература является всего лишь вер-хушкой айсберга данных. Этим я хочу сказать, что люди собирают множество данных и затем уменьшают их до нескольких дюймов полосы в журнале Science или Nature — или до 10 страниц, если речь идет о специалистах по компьютер-ным наукам. Поэтому верхушка айсберга, о которой я говорил, означает, что существует огромное количество данных, которые собраны, но не курированы

1 Национальный научно-исследовательский совет, http://sites.nationalacademies.org/NRC/index.htm; Со-вет по компьютерным наукам и телекоммуникациям, http://sites.nationalacademies.org/cstb/index.htm.2 Эта презентация является последней опубликованной на веб-странице Джима в Microsoft Research перед тем, как он пропал без вести в море 28 января 2007 г. —http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.

Page 20: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXX

или не опубликованы каким-либо систематическим образом. Существуют от-дельные исключения, и я думаю, что они могут стать хорошим источником для поиска наилучших практик. Я буду говорить о том, как должен измениться весь процесс обзора работы коллегами, и как, по моему мнению, он меняется, и что может сделать Совет по компьютерным наукам и телекоммуникациям, чтобы помочь нам в наших исследованиях.

Е-НАУКА: ЧТО ЭТО?

е-Наука появляется, когда «ИТ встречаются с учеными». Исследователи ис-пользуют множество различных методов для сбора или создания данных — от датчиков и ПЗС до суперкомпьютеров и коллайдеров частиц. Когда все данные наконец отображаются в вашем компьютере, что вы делаете со всей этой инфор-мацией в вашей цифровой обувной коробке? Меня постоянно находят люди и говорят: «Помоги! Я получил эту информацию. Что я должен с ней делать? Мои таблицы в Excel выходят из-под контроля!» Что же дальше? Что происходит, когда у вас десять тысяч таблиц Excel, в каждой из которых по 50 листов? Да, я систематически присвоил им имена, но что делать дальше?

НАУЧНЫЕ ПАРАДИГМЫ

В каждом своем выступлении я показываю этот слайд [Рисунок 1]. Я думаю, сле-дует честно отметить, что это озарение посетило меня во время исследования компьютерного будущего в Совете по компьютерным наукам и телекоммуни-

Научные парадигмы• Тысячи лет назад: наука была эмпирической описывала природные феномены• Последние несколько сотен лет: теоретическая ветвь использование моделей, обобщений• Последние несколько десятилетий: вычислительная ветвь моделирование сложных феноменов• Сегодня: исследование данных (е-Наука) соединение теории, экспериментов и моделирования – Данные собираются приборами или создаются моделирующим устройством – Обрабатываются программным обеспечением – Информация/знания хранятся в компьютере – Ученый анализирует базу данных / файлы при помощи управления данными и статистики}

РИСУНОК 1

Page 21: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XXI

кациям. Мы говорили: «Смотрите, компьютерная наука — это третья опора». Изначально была только экспериментальная наука, затем появилась теоретиче-ская, с законами Кеплера, законами динамики Ньютона, уравнениями Максвел-ла и так далее. Затем, в результате многих причин, теоретические модели стали слишком сложными для аналитического решения, и пришлось заняться модели-рованием. Такое моделирование заняло большую часть второй половины про-шлого тысячелетия. Сегодня, вместе с огромным увеличением объемов данных от экспериментальных наук, такое моделирование образует кучу данных. Се-годня люди не смотрят прямо в телескопы. Вместо этого они «смотрят» через большие и сложные приборы, которые передают данные в центры обработки данных, и только затем они смотрят на информацию в своих компьютерах.

Мир науки изменился, и возврата нет. Новая модель предназначена для дан-ных, собранных приборами или созданных моделями, с последующей обработ-кой программным обеспечением и заключительным сохранением информации или знаний в компьютерах. Ученым требуется только посмотреть на свои данные в конце этого процесса. Техники и технологии для такой науки с использованием большого объема данных настолько разнообразны, что следует отделить от ком-пьютерной науки науку с использованием большого объема данных в качестве новой, четвертой парадигмы научных исследований [1].

Х-ИНФОРМАЦИЯ И Х-ВЫЧИСЛЕНИЯ

Как показано на следующем слайде [Рисунок 2], мы видим развитие двух разде-лов каждой дисциплины. Если рассмотреть экологию, сейчас существует вычис-

ФактыF

Факты

Факты

Факты

• Поглощение данных• Инструменты запросов и визуализации• Управление петабайтами• Общая схема• Как ее организовать• Как ее реорганизовать

• Как обмениваться с другими• Создание и исполнение моделей• Интеграция данных и литературы• Документирование экспериментов• Курирование и долговременное хранение

Х-информация• Эволюция Х-информации и Х-вычислений для каждой дисциплины Х• Как систематизировать и представить наши знания

Общие проблемы

Вопросы

Ответы

Моделирование

Литература

Другие архивы

Экспериментыи приборы

РИСУНОК 2

Page 22: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXXII

лительная экология, предназначенная для моделирования, и экоинформатика, которая работает со сбором и анализом экологической информации. Подобным образом существует биоинформатика, которая собирает и анализирует инфор-мацию множества различных экспериментов, и есть вычислительная биология, которая моделирует работу биологических систем и метаболических путей, или же поведение клетки или методов создания белка.

Это напоминает идею Жанетт Винг (Jeannette Wing) о «компьютерном мыш-лении», где техники и технологии компьютерных наук применяются к различ-ным дисциплинам [2].

Цель многих ученых — систематизировать свою информацию, чтобы они могли обмениваться ею с другими учеными. Зачем им нужно систематизировать свою информацию? Для того, чтобы мой компьютер понял заложенную в него информацию, нужно, чтобы информация была представлена алгоритмически. Чтобы обеспечить это, нужно иметь стандартное представление для гена, галак-тики или измерения температуры.

ОТ ЧЕТВЕРТИ ДО ПОЛОВИНЫ БЮДЖЕТОВ НА ЭКСПЕРИМЕНТЫ ЗАНИМАЕТ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

Я плотно общался с астрономами последние лет десять и посетил несколько их базовых станций. Одна из самых захватывающих для меня вещей — я смотрел в телескоп, и это просто невероятно. Его оборудование стоит 15—20 млн долла-ров, и им пользуется 20—50 человек. И это только то, что лежит на поверхности, а еще есть тысячи людей, которые пишут код для работы с информацией, полу-ченной при помощи этого инструмента, а для анализа всей этой информации нужны миллионы строк кода. Фактически стоимость программного обеспе-чения превышает капитальные затраты! Это действительно для Слоуновского цифрового обзора неба (Sloan Digital Sky Survey, SDSS), и это применимо и к бо-лее масштабным исследованиям неба, а также к множеству других крупномас-штабных экспериментов. Я не уверен, что заявление о превалирующих расходах на программное обеспечение действительно для сообщества физики частиц с их Большим адронным коллайдером (БАК), но это определенно верно для экспери-ментов, которые проводятся при помощи БАК.

Даже в науках с «малыми данными» можно увидеть людей, собирающих ин-формацию, которым затем нужно намного больше энергии для ее анализа, Так как существует всего несколько общих инструментов, которые есть у ученых в лаборатории для сбора, анализа и обработки данных, программное обеспечение обычно уникально. Это то, в чем мы — компьютерные ученые — можем помочь, создав общие инструменты для ученых.

У меня есть список направлений для разработчиков политик типа Совета по компьютерным наукам и телекоммуникациям. Первое — стимулировать со-здание и поддержку инструментов в общем. У Национального научного фонда сейчас есть организация киберинфраструктуры, и я не хочу сказать о них ни-чего плохого, но там должно быть больше, чем просто поддержка TeraGrid и

Page 23: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XXIII

высокопроизводительных вычислений. Сейчас мы знаем, как построить класте-ры Beowulf для дешевых высокопроизводительных вычислений. Но нам неиз-вестно, как создать настоящую grid-систему управления данными или хранили-ща данных, построенные из недорогих «кирпичей», где можно размещать все ваши данные и затем анализировать информацию. Мы уже достаточно про-двинулись в инструментах моделирования, но инструменты анализа данных сильно отстают.

ПИРАМИДЫ ПРОЕКТОВ И ИХ ФИНАНСИРОВАНИЕ

Этот раздел — просто наблюдения о том, как работает большинство научных проектов. Есть несколько международных проектов. Намного больше проектов, объединяющих несколько организаций. И существует целое множество проек-тов отдельных лабораторий. Получается пирамида из проектов Уровня 1, Уров-ня 2 и Уровня 3, которую мы видим снова и снова в различных отраслях. Проек-ты Уровня 1 и Уровня 2 обычно имеют системную организацию и управление, но таких проектов лишь несколько. Такие большие проекты могут позволить себе бюджет на оборудование и программное обеспечение, а также на выделен-ные команды ученых для создания специализированного ПО для эксперимен-тов. Например, я видел, что совместная океанская обсерватория США и Кана-ды — проект Нептун — выделила около 30% своего бюджета (приблизительно 350 млн долларов) на киберинфраструктуру [3], — т.е. около 100 млн долларов! Аналогично, эксперименты БАК имеют весьма объемный бюджет на программ-ное обеспечение, и эта тенденция больших бюджетов также очевидна из более раннего эксперимента BaBar [4, 5]. Но если вы — лабораторный ученый в ниж-ней части пирамиды, что вы будете делать с бюджетом на программное обеспе-чение? Скорее всего вы купите MATLAB3 и Excel4, или подобное программное обеспечение, и будете использовать эти стандартные инструменты. Больше вы ничего сделать не сможете.

Таким образом, гига- и мега-проекты в большой степени управляются не-обходимостью в крупномасштабных ресурсах, таких как суперкомпьютеры, телескопы или другие масштабные экспериментальные средства. Такие сред-ства обычно используются крупными сообществами ученых, и требуют пол-ного финансирования такими организациями, как Национальный научный фонд (National Science Foundation) или Министерство энергетики (Department of Energy). Проекты меньшего масштаба обычно получают финансирование из более широкого спектра источников, с поддержкой финансирующим органом, зачастую сопоставимой с другой организацией — которой может быть и сам университет. В документе, написанном Гордоном Беллом (Gordon Bell), Алексом Шалай (Alex Szalay) и мной для IEEE Computer [6] мы рассматривали тот факт,

3 www.mathworks.com4 http://office.microsoft.com/en-us/excel/default.aspx

Page 24: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXXIV

что проекты Уровня 1, такие как БАК, получают финансирование от междуна-родного консорциума организаций, но эксперименты БАК Уровня 2 и средства Уровня 3 финансируются исследователями, которые имеют собственные источ-ники финансирования. Поэтому финансирующие организации должны полно-стью финансировать огромные проекты Уровня 1, но при этом выделять другую половину бюджета на киберинфраструктуру для проектов меньшего масштаба.

СИСТЕМЫ УПРАВЛЕНИЯ ЛАБОРАТОРНОЙ ИНФОРМАЦИЕЙ

Подводя к итогу все сказанное мной о программном обеспечении, все, что нам нужно — это эффективные «системы управления лабораторной информацией». Такие программные системы обеспечивают связь прибора или модели с архи-вом данных, и мы близки к этому во многих случаях, с которыми я сталкивался. В общем, мы вводим данные от группы приборов в процесс, который калибрует и «очищает» данные, закрывая необходимые пробелы. Затем мы «упорядочи-ваем»5 информацию, после чего вводим ее в базу данных, которую вы можете опубликовать в Интернете для предоставления доступа к вашей информации.

Весь процесс на пути от прибора до веб-браузера требует массы различных навыков. Поэтому мы должны создать пакеты типа Beowulf и шаблоны, чтобы люди, проводящие практические эксперименты, могли просто собирать свои данные, вводить их в базу данных и публиковать. Это можно сделать при по-мощи создания и документирования прототипов. На это потребуется несколько лет, но результатом станет сильное влияние на методы развития науки.

Как я уже говорил, такие программные процессы называют Системами управления лабораторной информацией, или СУЛИ. Между прочим, существу-ют коммерчески доступные системы, вы можете купить стандартную систему СУЛИ. Проблема в том, что они достаточно дороги и ориентированы на про-мышленность. Также зачастую они приспособлены для решения тех или иных задач конкретных сообществ — например, для сбора данных секвенатора или масс-спектрометра, их обработки и получения результатов анализа.

УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ И АНАЛИЗ ДАННЫХ

Типичная ситуация выглядит так — люди собирают данные с приборов или дат-чиков, либо из работающих моделей. Вскоре они получают миллионы файлов, и простого пути управления этими данными или их анализа не существует. Я ходил и смотрел, чем занимаются ученые. В общем, они делают одно из двух — либо ищут иголки в стогах сена, либо ищут сами стога. Запросы на поиск «иголки в стоге сена» сами по себе очень просты — вы ищете особые аномалии данных, и обычно у вас есть общее представление, какого типа признаки вы ищете. Фи-

5 Это означает упорядочить организацию данных до одной переменной в ряду, нормализация аналого-вой базы данных до реляционной.

Page 25: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XXV

зики, которые изучают элементарные частицы, ищут бозон Хиггса в БАК, и они хорошо знают, как будет выглядеть распад этой тяжелой частицы в их датчиках. Решетки общих кластеров компьютеров очень хорошо подходят для таких за-просов на поиск «иголки в стоге сена», но эти параллельные компьютеры очень слабы в анализе тенденций, статистической группировке и выявлении глобаль-ных структур данных.

Нам действительно нужны намного более сильные алгоритмы для груп-пировки и глубинного анализа данных. К сожалению, алгоритмы группиров-ки имеют не порядок N или N log N, а обычно N3, поэтому когда N становится слишком большим, этот метод уже не работает. Мы вынуждены изобретать но-вые алгоритмы, и вам приходится жить только с приблизительными ответами, например, используя приближенную медиану.

В основном статистический анализ работает с созданием однородных образ-цов, некоторой фильтрацией данных, включением или сравнением нескольких моделей по методу Монте-Карло, и так далее. В результате образуется большое количество файлов. Но каждый файл — это просто набор байтов. Если я дам вам такой файл, вам нужно будет потрудиться, чтобы понять, что означает ин-формация в этом файле. Поэтому крайне важно, чтобы файлы объясняли сами себя. Когда мы говорим «база данных», мы подразумеваем, что данные должны описывать сами себя и иметь схему. Это действительно все, что означает слово «база данных». Поэтому, если я даю вам определенный набор информации, вы можете посмотреть на нее и сказать: «Мне нужны все гены с этим свойством», или «Мне нужны все звезды с этим свойством», или «Мне нужны все галакти-ки с этим свойством». Но если я вам дам просто несколько файлов, вы даже не сможете использовать концепцию галактики, и вам нужно будет самостоятельно определить эффективную схему для данных в этом файле. Если у вас есть схема, вы можете индексировать данные, соединять их, вы можете проводить парал-лельный поиск данных, вы можете иметь специальные запросы к этим данным. При этом вам будет намного проще создать некоторые общие инструменты ви-зуализации.

Честно говоря, я должен сказать, что научное сообщество изобрело различ-ные форматы, которые я квалифицирую как форматы баз данных. Один из таких форматов — HDF6 (формат иерархических данных), другой — NetCDF7 (Общая сетевая форма данных). Эти форматы используются для обмена дан-ными и переноса схемы данных при их перемещении. Но в целом науке нужны намного более совершенные инструменты для самоопределения данных, чем HDF и NetCDF.

6 www.hdfgroup.org7 www.unidata.ucar.edu/software/netcdf

Page 26: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXXVI

ДОСТАВКА ДАННЫХ

Увеличение размера наборов данных — это другая ключевая проблема, и их уже невозможно обработать при помощи FTP или команды «grep». Петабайт дан-ных — это очень много для FTP! Поэтому на определенном этапе вам нужны индексы и параллельный доступ к данным, и тут вам могут помочь базы данных. При анализе данных один из вариантов — это переместить данные к вам, а вто-рой вариант — это переместить ваш запрос к данным. Вы можете перемещать либо ваши запросы, либо данные. Зачастую более эффективно перемещать за-просы, а не данные.

ИНСТРУМЕНТЫ ОБРАБОТКИ ДАННЫХ: ПУСТЬ РАСЦВЕТАЮТ СТО ЦВЕТОВ

Мое предположение состоит в том, что у нас ужасные инструменты для управле-ния данными в большинстве научных дисциплин. Коммерческие организации, такие как Walmart, могут позволить себе создавать собственное программное обеспечение для управления данными, но для ученых это роскошь. В настоящее время у нас практически нет инструментов визуализации и анализа данных. В некоторых исследовательских сообществах используют, например, MATLAB, но финансирующим организациям следует намного лучше поощрять создание ин-струментов, которые повысят производительность ученых. Если вы посмотри-те, чем каждый день вынуждены заниматься ученые, делая анализ данных, то увидите, что это действительно ужасно. И я подозреваю, что большинство из вас находятся в такой же ситуации, что и я, когда единственными доступными инструментами являются MATLAB и Excel!

У нас есть такие отличные инструменты, как кластеры Beowulf8, которые позволяют получить экономичные высокопроизводительные вычисления за счет объединения множества недорогих компьютеров. У нас есть программное обеспечение Condor9, которое позволяет использовать циклы обработки отрас-левых компьютеров. Также у нас есть программное обеспечение BOINC10 (от-крытая программная платформа университета Беркли для распределенных вы-числений), которое позволяет использовать циклы ПК таким же образом, как в проекте SETI@Home. И у нас есть несколько коммерческих продуктов, таких как MATLAB. Все эти инструменты появились в исследовательском сообществе, и вышло так, что именно эти инструменты стали успешными.

Еще у нас есть Linux и FreeBSD Unix. FreeBSD была раньше Linux, но поче-му-то Linux стала успешной, а FreeBSD — нет. Я думаю, это во многом связано с сообществом, личностями и временем. Поэтому я полагаю, что нам нужно мно-гое. У нас есть коммерческие инструменты, такие как LabVIEW11, но нам нужно

8 www.beowulf.org9 www.cs.wisc.edu/condor10 http://boinc.berkeley.edu11 www.ni.com/labview

Page 27: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XXVII

создать несколько подобных систем. И мы надеемся, что некоторые из них будут успешными. Создание большого количества проектов не должно быть слишком дорогим.

БУДУЩАЯ РЕВОЛЮЦИЯ В НАУЧНОМ ОБМЕНЕ ИНФОРМАЦИЕЙ

В первой части моего выступления я говорил о необходимости инструментов, которые помогли бы ученым собирать свои данные, курировать их, анализиро-вать и затем визуализировать. Вторая часть выступления — об обмене информа-цией в науке. Около трех лет назад Конгресс принял закон о том, что если для вашего исследования вы используете финансирование Национального институ-та здравоохранения (National Institutes of Health), рекомендуется, чтобы вы пре-доставили отчет о вашем исследовании в Национальную медицинскую библио-теку (National Library of Medicine), чтобы полный текст ваших документов был доступен общественности. Добровольное выполнение этого закона составило около 3%, так что теперь мы, скорее всего, увидим, как финансирующие орга-низации принудительно выводят в Интернет всю научную литературу, получив-шую общественное финансирование. Сейчас существует законопроект, который поддерживают сенаторы Корнин (Cornyn) и Либерман (Lieberman). После при-нятия этого законопроекта получатели грантов Национального института здра-воохранения будут обязаны передавать свою исследовательскую документацию в хранилище PubMed Central Национальной медицинской библиотеки12. В Вели-кобритании Wellcome Trust внедрил подобное требование для получателей их финансирования и создал зеркало хранилища PubMed Central Национальной медицинской библиотеки.

Но Интернет может не только предоставлять доступ к полному тексту ис-следовательской документации. Он может объединить все научные данные со всей литературой для создания среды, где данные и литература взаимодейству-ют друг с другом [Рисунок 3]. Вы можете читать чей-то документ, а затем по-смотреть на исходные данные. Вы даже можете заново провести их анализ. Или же вы можете просматривать какие-то данные, а потом найти всю связанную с ними литературу. Такая возможность увеличит «скорость оборота информации в научных кругах и улучшит научную производительность исследователей. И я уверен, что это было бы исключительно полезно для развития науки.

Возьмем, к примеру, специалиста, работающего на Национальный институт здравоохранения — о котором уже говорил, — который составляет отчет. Пред-положим, он открыл что-то о болезни Х. Вы идете к вашему доктору и говорите: «Доктор, я себя чувствую не очень хорошо». А он отвечает: «Энди, мы проведем группу тестов». И они проводят с вами группу тестов. Он звонит вам на следу-ющий день и говорит: «С вами все в порядке. Примите две таблетки аспирина и

12 См. информационный бюллетень Петера Субера из Open Access по текущей ситуации: www.earlham.edu/~peters/fos/newsletter/01-02-08.htm.

Page 28: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXXVIII

немного отдохните». Вы возвращаетесь через год, и все повторяется. Через три года он звонит и говорит: «Энди, у вас болезнь Х! Мы ее обнаружили!» Вы спра-шиваете: «А что такое Х?» Он говорит: «Я не имею понятия, это очень редкое заболевание, но есть парень в Нью-Йорке, который знает о ней все». Вы заходите в Google13 и вводите все ваши симптомы. На первой странице результатов появ-ляется X. Вы щелкаете по ссылке и попадаете в PubMed Central к заголовку «Все об X». Вы щелкаете по нему, и попадаете на Медицинский журнал Новой Англии (New England Journal of Medicine), где говорится «дайте нам 100 долл., и вы смо-жете прочесть информацию про Х». Вы смотрите и понимаете, что этот парень работает на Национальный институт здравоохранения. Уплаченные вами нало-ги работают. Поэтому Либерман14 и другие говорят: «Это бред. Научная инфор-мация сейчас проверяется коллегами и выставляется на общественный доступ, но только за деньги. С чего бы вдруг? Мы уже заплатили за это».

Научные издания предлагают услугу проверки работ коллегами, печати журнала и распределения информации по библиотекам. Но сегодня Интернет распределяет все относительно бесплатно. Это все связано с тем, что сейчас об-щество проходит этап, где права интеллектуальной собственности заканчивают-ся, не успев начаться. Научная литература, особенно проверенная коллегами, возможно — одно из тех мест, где они заканчиваются. Если вам нужна информа-ция о Х, вы возможно найдете, что для лечения Х очень хорошо подходят перси-ковые косточки. Но эта информация попала сюда не из литературы, проверен-ной научными коллегами, а от продавца персиковых косточек, который хочет,

Все научные данные в Интернете• Множество дисциплин пересекаются и используют данные из других отраслей науки

• Интернет может соединить всю литературу и данные

• Переходите от литературы к вычислению данных и обратно к литературе

• Информация доступна каждому и в любом месте

• Повышение скорости научной информации

• Огромное увеличение производительности науки

Извлеченныеи перестроенные данные

Литература

Необработанныеданные

РИСУНОК 3

13 Или, как сказал бы Джим сегодня, Bing.14 Федеральный закон о публичном доступе к исследованиям от 2006 г. (Корнин-Либерман).

Page 29: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XXIX

чтобы вы лечились ими от Х. Поэтому протаптывать тропинку к открытому до-ступу приходится обычным людям, так как качественная информация о здраво-охранении закрыта, а в Интернете доступны непроверенные данные.

НОВАЯ ЦИФРОВАЯ БИБЛИОТЕКА

Как работает новая библиотека? Она бесплатна, потому что в Интернете очень легко разместить страницу или статью. Любой из вас может опубликовать что-то в PubMed Central. Это будет вам стоить всего нескольких тысяч долларов за компьютер — правда, я не знаю, сколько потребуется трафика. Однако кури-рование — удовольствие не из дешевых. Ввод всей информации в компьютер и обеспечение перекрестной индексации стоят Национальной медицинской библиотеке около 100 долларов за курирование каждой отображаемой статьи. Если таких статей за год набирается миллион, что примерно соответствует ожи-даниям, то только на курирование информации потребуется 100 млн долларов. Поэтому нам нужно автоматизировать весь процесс курирования.

Сейчас хранилище PubMed Central, которое является цифровой частью На-циональной медицинской библиотеки, сделало себя мобильным. Существуют версии PubMed Central, которые работают в Великобритании, Италии, ЮАР, Японии и Китае. Британская версия появилась в Интернете на прошлой неделе. Французы, конечно, не хотят, чтобы их Национальная медицинская библиотека находилась в Бетесде, штат Мэриленд, или чтобы она была на английском языке. А англичане не хотят, чтобы тексты были на американском английском, поэтому в версии для Великобритании, в их веб-интерфейсе, скорее всего, будет исполь-зоваться местная орфография. Но в целом вы можете разместить документ в любом из этих архивов, и он появится во всех остальных. Обеспечивать работу этих архивов действительно недорого, но остаются большие задачи в отношении курирования и проверки работ коллегами.

СОВМЕЩЕННЫЕ ЖУРНАЛЫ

Все это может работать на принципе совмещенных журналов. Идея заключает-ся в том, что у вас есть архивы данных и архивы литературы. Статьи хранятся в архивах литературы, а данные — в архивах данных. Далее — есть созданная кем-то система управления журнала, которая позволяет нам, как группе, фор-мировать журнал по вопросу Х. Мы позволяем людям отправлять статьи в наш журнал, сохраняя их в архиве. Мы проводим проверку при помощи коллег, и для тех статей, которые нам понравились, создаем титульную страницу и гово-рим: «Эти статьи нам нравятся», после чего также помещаем ее в архив. Теперь поисковый механизм повышает рейтинг страниц со всеми этими статьями, так как они обновлены этой очень важной титульной страницей. Конечно же, эти статьи также могут указывать на данные. Затем будет система взаимодействия, которая позволит комментировать статьи журнала. Такие комментарии будут

Page 30: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXXX

сохраняться не в архиве, проверенном коллегами, а в другом месте, так как они не проверены — хотя они могут подвергаться модерации.

Национальная медицинская библиотека планирует сделать все это для био-медицинского сообщества, но этого не происходит в других научных сообще-ствах. Для вас, как для членов Совета по компьютерным наукам и телекоммуни-кациям, сообщество компьютерных наук могло бы помочь в этом, предоставив необходимые инструменты для других научных дисциплин.

Мы в Microsoft Research создали программное обеспечение, котороые назы-вается Инструмент управления конференциями (Conference Management Tool, CMT). Мы провели с его помощью около трехсот конференций, и убедились в том, что сервис CMT делает создание конференции обыденной задачей. Инстру-мент поддерживает весь процесс формирования программного комитета, пу-бликации веб-сайта, приемки рукописей, определения конфликтов интересов и самоотвода, проведения обзоров, определения принятых документов, создания программы конференции, уведомления авторов, выполнения редакций и так далее. Сейчас мы работаем над созданием кнопки для отправки статей в arXiv.org или PubMed Central и их вывода на титульную страницу. Теперь мы очень легко можем собирать симпозиумы и конференции. Но также это позволяет нам вести онлайн-журнал. Этот механизм сделает создание совмещенных журналов очень простым.

Кто-то раньше спрашивал, будет ли это трудно для научных изданий. Ответ положительный. Но это будет трудно и для IEEE, и для ACM, не так ли? Дело в том, что научные сообщества испуганы тем, что если у них не будет документа, чтобы отправить вам, вы к ним не присоединитесь. Но, по моему мнению, сво-бодный доступ — только вопрос времени. Я смотрю на зал, и вижу, что большая часть из нас стара, и не относится к поколению Х. Большинство из нас присоеди-няется к этим организациям, так как мы думаем, что это является частью поня-тия профессионала в этой отрасли. Проблема в том, что поколение Х не вступает в организации.

ЧТО ПРОИСХОДИТ С ОБЗОРОМ РАБОТЫ КОЛЛЕГАМИ?

Этот вопрос не относится к вам, но многие спрашивают: «Зачем нам нужен об-зор работ коллегами для всей этой информации? Почему не сделать это в фор-ме вики-страниц?» И, я думаю, ответ здесь в том, что обзор работы коллегами отличается от вики-страниц. Он очень структурированный, он проверяется, и дает степень уверенности в том, о чем говорится. Вики-страницы более уравни-тельные.

Я думаю, есть большой смысл собирать комментарии о литературе после пу-бликации документа. Нужна такая же структура, которую CMT предоставляет для процесса обзора работ коллегами.

Page 31: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XXXI

ПУБЛИКАЦИЯ ДАННЫХ

Теперь я очень кратко расскажу о публикации данных. Я говорил о публикации литературы, но если ответ — 42, то каковы единицы измерения? Вы собираете какие-то данные в файл в Интернете, но это возвращает нас к проблеме файлов. Важный момент, чтобы показать вам работу в контексте, называется источником данных. Как вы получили число 42?

Вот вымышленный эксперимент. Вы сделали что-то научное, и хотите опу-бликовать это. Как вы опубликуете свою работу, чтобы другие смогли прочесть и повторить ваши результаты через 100 лет? Это сделал Мендель, это сделал Дар-вин, но это редкие примеры. Мы сегодня очень отстаем от Менделя и Дарвина в вопросе техник. Это хаос, и мы должны работать над этой проблемой.

ДАННЫЕ, ИНФОРМАЦИЯ И ЗНАНИЯ: ОНТОЛОГИЯ И СЕМАНТИКА

Мы пытаемся сделать знания предметными. Мы можем помочь с основными во-просами, такими как единицы измерения, что такое измерение, кто проводит измерения и когда они проводятся. Это общие моменты, которые применяют-ся ко всем направлениям. В Microsoft Research мы занимаемся компьютерной наукой. Что мы понимаем под планетой, звездой и галактикой? Это астроно-мия. Что такое ген? Это биология. Но что же такое предмет, что такое атрибут, и какие методы (в объектно-ориентированном смысле) для этих предметов? И обратите внимание, что Интернет уже превращается в объектно-ориентирован-ную систему, где люди выбирают предметы. В мире бизнеса они овеществляют понятие заказчика, выставленного счета и так далее. В науке, например, нам по-добным образом нужно сделать предметным понятие гена — этим занимается GenBank15.

И здесь нужно предупредить, что, двигаясь дальше, мы столкнемся с онто-логией, схемой и управляемыми словарями. То есть двигаясь по этому пути, вы столкнетесь с семантикой, иначе говоря: «А что это значит?» И, безусловно, у каждого есть разное мнение о значении разных понятий, поэтому споры могут быть бесконечными.

Наилучший пример для этого — Entrez16, поисковый механизм для науки о жизни, созданный Национальным центром биотехнологической информации (National Center for Biotechnology Information) для Национальной медицинской библиотеки. Entrez позволяет выполнять поиск литературы в PubMed Central, но, кроме того, в PubMed Central есть и данные филогенеза, есть нуклеотидные последовательности, протеиновые последовательности и их трехмерные струк-туры, а еще в нем есть GenBank. Это на самом деле очень впечатляющая система. Еще там есть база данных PubChem и многое другое. Это все — пример взаимо-действия данных и литературы. Вы можете читать статью, затем перейти к дан-

15 www.ncbi.nlm.nih.gov/Genbank16 www.ncbi.nlm.nih.gov/Entrez

Page 32: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ДЖИМ ГРЕЙ ПРО е-НАУКУXXXII

ным гена, проследить ген до заболевания, вернуться к литературе и так далее. Это очень здорово!

В этом мире у нас традиционно были авторы, издатели, кураторы и потре-бители. В новом мире отдельные ученые могут работать в сотрудничестве, а журналы превращаются в веб-сайты для данных и других подробностей экспе-риментов. Кураторы теперь следят за большими цифровыми архивами, и прак-тически единственное, что осталось без изменения — это ученый. Это очень хо-рошее основательное изменение методов, которыми делается наука.

Одна из проблем состоит в том, что все проекты в определенный момент завершаются, и непонятно, что потом происходит с данными. Есть данные лю-бого масштаба. Есть антропологи, которые собирают информацию и вводят ее в свои ноутбуки. А есть физики, которые изучают элементарные частицы в БАК. Большинство байтов информации высокотехнологичные, а большинство наборов данных — нет. Появляются смешанные данные, где наборы данных из различных мест связаны вместе, образуя третий набор данных. Поэтому в таком же смысле, как архивы для публикаций в журналах, нам требуются архивы для данных.

И вот моя последняя рекомендация для Совета по компьютерным наукам и телекоммуникациям: стимулируйте библиотеки цифровых данных. Откро-венно говоря, цифровая библиотека Национального научного фонда больше относилась к метаданным для библиотек, а не к самим цифровым библиотекам. Мы должны создать настоящие цифровые библиотеки для данных и для лите-ратуры.

РЕЗЮМЕ

Суть моего выступления в том, что практически все, связанное с наукой, изме-няется под воздействием информационных технологий. Экспериментальная, теоретическая и вычислительная наука находятся под шквалом данных, и возни-кает четвертая научная парадигма — научные исследования с использованием большого объема данных. Цель — получить такой мир, где вся научная лите-ратура находится в Интернете, все научные данные находятся в Интернете, и они взаимодействуют друг с другом. Для того, чтобы это произошло, требуется множество новых инструментов.

ПРИМЕЧАНИЯ РЕДАКТОРА

Полную расшифровку слайдов выступления Джима Грея можно найти на веб-сайте Четвертой парадигмы17. В данном тексте отсутствует запись сессии во-просов и ответов, но она доступны на веб-сайте. (Обратите внимание, что авторы вопросов не указаны). Представленный здесь текст был немного отредактиро-

17 www.fourthparadigm.org

Page 33: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА XXXIII

ван для улучшения читаемости, также мы добавили сноски и ссылки, но мы уве-рены, что он сохранил свое соответствие презентации Джима.

ССЫЛКИ

[1] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, no. 5919, pp. 1297–1298, 2009, doi: 10.1126/science.1170411.

[2] J. Wing, «Computational Thinking», Comm. ACM, vol. 49, no. 3, Mar. 2006, doi: 10.1145/1118178.1118215.

[3] NSF Regional Scale Nodes, http://rsn.apl.washington.edu.[4] Large Hadron Collider (LHC) experiments, http://public.web.cern.ch/Public/en/

LHC/LHCExperiments-en.html.[5] BaBar, www.slac.stanford.edu/BFROOT.[6] G. Bell, J. Gray, and A. Szalay, «Petascale Computational Systems», IEEE Computer,

pp. 110–112, vol. 39, 2006, doi: 10.1109/MC.2006.29.

Page 34: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 35: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

1. ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

Page 36: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 37: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

ЧЕТВЕРТАЯ ПАРАДИГМА 3

Вступление

ДЭН ФЭЙ (DAN FAY) | Microsoft Research

Изменения неизбежны. Вселенная расширяется, при-рода адаптируется и эволюционирует, и за ними должны следовать научные инструменты и техно-логии, которые мы используем в жестокой борьбе за

знания в науках о космосе, Земле и окружающей среде.Возможностей и задач множество. Новые компьютерные

технологии, такие как облачные вычисления и многоядерные процессоры, в общем виде предоставляют комплексное ре-шение. Но эффективное и своевременное применение таких технологий может помочь нам существенно продвинуться в понимании нашего мира, включая проблемы окружающей среды и возможные методы их решения.

С продвижением в направлении становления науки, ос-нованной на вычислениях и данных, ключевые задачи тех-нологии включают в себя необходимость более качественно собирать, анализировать, моделировать и визуализировать научную информацию. Конечная цель — помочь ученым, исследователям, разработчикам политик и обществу в целом принимать решения, подкрепленные информацией. Так как общество требует действий и ответственности в отношении растущих экологических проблем, новые типы приложений, основанные на научных исследованиях, должны будут уйти от простого обнаружения и извлечения базовых данных, что даст нам знания в поддержку практических решений. Горя-щие вопросы, такие как изменение климата, не будут ждать, пока ученые получат все данные, чтобы заполнить свои про-белы в знаниях.

Как подтверждается статьями в этой части книги, ученые на самом деле активно получают научное понимание посред-ством новых компьютерных технологий. Шалай (Szalay) и

Page 38: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА4

Блейкли (Blakeley) описывают неформальные правила Джима Грея (Jim Gray) для развития с фокусом на данные и то, как они могут служить для создания крупномасштабных наборов данных, доступных при использовании баз дан-ных, с использованием встроенного управления данными и параллельной обра-ботки, присущих SQL-серверам.

Чтобы облегчить принятие рациональных решений на основании надежных научных доказательств, Дозье (Dozier) и Гейл (Gail) исследуют, как применение технологий и существующих научных знаний может стать ключом к предостав-лению инструментов для разработчиков политик и ответственных за принятие решений. Хант (Hunt), Балдоччи (Baldocchi) и ван Инген (van Ingen) описывают происходящие в экологической науке изменения как перемещение от «науки в малом» к крупным взаимодействиям, основанным на синтезе данных. Такие сборные наборы данных вскрывают необходимость в инструментах взаимодей-ствия в облаке, а также простых в использовании инструментах визуализации и анализа. Затем Делейни (Delaney) и Барга (Barga) аргументированно говорят о необходимости мониторинга сложной динамики моря в реальном времени путем создания интерактивной океанской лаборатории. Эта инновационная инфраструктура откроет путь для новых открытий посредством улучшенных моделей океана.

Гудман (Goodman) и Вонг (Wong) подчеркивают необходимость в новых тех-нологиях научного обзора информации. Для улучшения связи существующих ресурсов астрономы могут использовать новый класс инструментов визуали-зации, таких как WorldWide Telescope (WWT). Этот инструмент нового класса предлагает доступ к данным и информации не только для ученых-профессио-налов, но и широкой общественности, как в целях образования, так и, возможно, для новых открытий, совершенных кем-либо с доступом к Интернету. Наконец, Ленинг (Lehning) и другие приводят подробную информацию о плотно внедря-емых датчиках реального времени в комбинации с визуализацией для улучшен-ного понимания динамики окружающей среды — подобно виртуальному теле-скопу, который смотрит на Землю. Эти приложения иллюстрируют, как ученые и технологи получают возможность охватить и привлечь специалистов по граж-данской науке к своим усилиям.

В 1 части и далее во всей книге вы увидите, как новые датчики и инфраструк-туры дают возможность доступа в реальном времени к потенциально огромным количествам данных, но с экспериментальной повторяемостью при использова-нии рабочих процессов. Архитектуры, ориентированные на сервисы, помогают упростить переход к новым базовым технологиям и обеспечивают возможность соединения ресурсов и данных. Этот стремительно развивающийся процесс — единственный доступный нам механизм для работы со шквалом данных, кото-рый поступает от наших инструментов.

Стоящий перед нами вопрос — как наилучшим образом скоординировать интеллектуальные и технологические ресурсы, чтобы решительно направить наши реакции на существующие и будущие задачи. В следующих статьях есть несколько отличных ответов.

Page 39: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

ЧЕТВЕРТАЯ ПАРАДИГМА 5

Законы Грея: Научные вычисления,

основанные на базах данных

Взрыв научных данных создал большие проблемы для современных научных проектов. После того, как объе-мы наборов данных вышли за пределы нескольких де-сятков терабайт, у ученых нет стандартных решений,

которые они могли бы сразу использовать для управления этими данными и их анализа [1].

В сегодняшних успешных проектах используются различ-ные комбинации плоских файлов и баз данных [2]. Однако большинство этих решений приспособлено к конкретным проектам и не может легко обобщаться или масштабировать-ся для следующего поколения экспериментов. К тому же се-годняшние компьютерные архитектуры все менее сбаланси-рованы; разница времени ожидания между многоядерными процессорами и механическими жесткими дисками с каждым годом растет, что затрудняет возможность преодоления про-блем вычислений с использованием большого объема данных [3]. Необходимы систематические и общие подходы к реше-нию этих проблем с архитектурой, которые смогут масштаби-роваться в будущем.

ЗАКОНЫ ГРЕЯ

Джим Грей (Jim Gray) сформулировал несколько неформаль-ных правил — или законов, — которые определяют, какой подход использовать для задач проектирования данных в от-ношении крупных научных наборов данных. Вот они:

АЛЕКСАНДР С. ШАЛАЙ (ALEXANDER S. SZALAY) The Johns Hopkins University

ХОСЕ А. БЛЕЙКЛИ (JOSE A. BLAKELY) Microsoft Research

Page 40: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА6

1. В научных вычислениях используется все больше данных.2. Решение заключается в «горизонтально-масштабируемой» архитектуре.3. Приводить вычисления к данным, а не данные к вычислениям.4. Начинать проектирование следует с «20 вопросов».5. Переходить от одной рабочей версии к другой.

Важно понимать, что анализ наборов данных от наблюдений в огромной степени ограничен относительно низкой производительностью ввода-вывода у большинства сегодняшних вычислительных платформ. Высокопроизводитель-ные числовые модели также все чаще сталкиваются с «узким местом ввода-вы-вода». После того, как наборы данных превышают объем оперативной памяти (RAM), размещение в многоуровневом кэше больше не помогает [4]. Достаточно быструю подсистему ввода-вывода предлагают только несколько профессио-нальных платформ.

Высокопроизводительные и масштабируемые численные вычисления также представляют и алгоритмическую задачу. Традиционные пакеты численного анализа проектировались для работы с наборами данных, которые помещают-ся в оперативной памяти. Чтобы справиться с объемами данных на несколько порядков больше, эти пакеты следует перестроить для работы в многофазовом режиме по типу «разделяй и властвуй», но при этом сохранив их численную точ-ность. Таким образом, предлагается метод, согласно которому объемная пробле-ма разделяется на более мелкие части, которые можно обработать в оператив-ной памяти, а оставшаяся часть остается на диске. Аналогично алгоритмы базы данных, такие как сортировка или объединение, работают с наборами данных, превышающими размеры оперативной памяти. Такие проблемы достигают сво-его критического этапа.

Приобретение более крупных сетевых систем хранения и их подключение к кластерам компьютерных узлов не решает проблему, так как скорости передачи данных растут недостаточно быстро для того, чтобы покрыть ежегодное удвое-ние необходимого хранилища. Горизонтально-масштабируемые решения под-держивают простые составляющие блоки, в которых данные распределены сре-ди узлов с локально подключенным хранилищем [5]. Чем меньше и проще эти блоки, тем лучшим может стать баланс между процессорами, дисками и сетями. Грей представлял простые «кибер-кирпичи» (CyberBricks), где каждый привод имеет собственный процессор и сеть [6]. Хотя количество узлов такой системы было бы намного большим, чем в традиционной архитектуре с вертикальным масштабированием, простота и малая стоимость каждого узла вместе с сово-купной производительностью дали бы в итоге весьма существенный эффект. Теперь, когда появились твердотельные диски и материнские платы с малой по-требляемой мощностью, мы находимся на пороге создания таких систем [7].

Page 41: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 7

ВЫЧИСЛЕНИЯ, ОСНОВАННЫЕ НА БАЗАХ ДАННЫХ

Большинство процессов анализа научных данных выполняется иерархически-ми этапами. На первом этапе подчиненный набор данных извлекается либо при помощи фильтрации по определенным атрибутам (то есть удаляются ошибоч-ные данные), либо извлечением вертикального подчиненного набора столбцов. На следующем этапе данные обычно каким-то образом трансформируются или объединяются. Безусловно, в более сложных наборах данных эти шаблоны за-частую сопровождаются соединениями множества наборов данных, например, такими, как внешняя калибровка или извлечение и анализ различных частей по-следовательности гена [8]. Так как объемы наборов данных продолжают расти, самым эффективным методом для выполнения большей части таких вычисле-ний однозначно является перемещение функций анализа как можно ближе к данным. Также оказывается, что большую часть таких шаблонов можно легко выразить при помощи ориентированного на наборы данных декларативного языка, исполнение которого может заметно выиграть от оптимизации запросов на основе затрат, автоматического параллелизма и индексов.

Грей и его компаньоны на нескольких проектах показали, что в этом кон-тексте могут быть успешно применены существующие технологии реляционных баз данных [9]. Также существуют пути бесшовной интеграции сложных библи-отек классов, написанных на процедурных языках в качестве расширения базо-вого механизма базы данных [10, 11].

В последние годы MapReduce стала популярной парадигмой вычисления и анализа распределенных данных [12]. Принципы этой парадигмы напоминают возможности распределенной группировки и объединения, которые некоторое время существовали в параллельных системах реляционных баз данных. Парал-лельные системы баз данных нового поколения, такие как Teradata, Aster Data и Vertica, создали новый образ этих возможностей, как «MapReduce в базе дан-ных». Разработаны новые критерии сравнения преимуществ каждого из мето-дов [13].

СВЯЗЬ С УЧЕНЫМИ

Одна из самых сложных проблем в проектировании научных баз данных — это установление эффективной связи между создателем базы данных и учеными в конкретной предметной области, которые заинтересованы в анализе. Большин-ство проектов совершают ошибку, когда стараются стать «всем и для каждого». Ясно, что какие-то отдельные функции важнее других, и это вызывает неизбеж-ность компромиссов в структуре системы, которые оборачиваются компромис-сами в производительности.

Джим Грей представил эвристическое правило «20 вопросов». В каждом из проектов, в котором он участвовал, он задавал 20 наиболее важных вопросов, ответы на которые исследователи хотели бы получить от системы данных. Он говорил, что пяти вопросов недостаточно для обзора расширенного шаблона,

Page 42: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА8

а сто вопросов снизят степень определенности. Так как большинство выборов включают в себя решения по принципу «вытянутого хвоста» или так называе-мого распределения 1/f, то понятно, что относительная информация в запросах, разделенная по степени важности, является логарифмической, поэтому резуль-тат в пределах 20 (24,5)—100 (26,5) является достаточно скромным [14].

Правило «20 вопросов» означает этап проектирования, который создает ди-алог между учеными предметной области и инженерами баз данных, помогаю-щий сократить семантическую дистанцию между наименованиями предметов и действий, используемых в науке, и элементами и взаимосвязями, которые хранятся в базах данных. Запросы определяют точный набор вопросов, кото-рые ученые будут задавать базе данных, в терминах элементов и взаимосвязей. После полного выполнения этого упражнения ученый конкретной предметной области и база данных общаются на одном языке.

Этот метод был очень успешным для ориентации процесса проектирования на наиболее важные функции, которые должна поддерживать система, и в то же время помогал ученым понимать компромиссы базы данных, тем самым пре-пятствуя избыточному усложнению системы.

Другой закон проектирования — переходить от одной рабочей версии к дру-гой. Грей очень хорошо понимал, как быстро изменяется архитектура вычис-лений под управлением данных, особенно когда она включает в себя распре-деленные данные. Новые парадигмы распределенных вычислений появляются и развиваются каждый год, что крайне затрудняет возможность использования многолетнего цикла нисходящего проектирования и внедрения. На момент за-вершения такого проекта его стартовая площадка становится устаревшей. Если мы будем строить систему, которая начнет работать только тогда, когда каждый из ее компонентов будет работать правильно, мы никогда не закончим.

Единственный способ выжить и развиваться в таком мире — это создать мо-дульные системы, где отдельные компоненты можно заменять с развитием ос-новных технологий. Хороший тому пример — сегодняшние архитектуры, ори-ентированные на сервисы. Веб-сервисы уже прошли несколько основных этапов эволюции, и сейчас мы уже можем видеть результаты.

НАУЧНЫЕ БАЗЫ ДАННЫХ: ОТ ТЕРАМАСШТАБА К ПЕТАМАСШТАБУ

При помощи Microsoft SQL Server мы успешно справились с несколькими про-ектами в размере от нескольких терабайт (Тб) до десятков терабайт [15-17]. Вне-дрение баз данных, которые вскоре превысят 100 Тб, выглядит вполне законо-мерным [18], но пока не совсем понятно, каким образом наука пересечет барьер петамасштаба. Так как объемы баз данных продолжают расти, неизбежно будет использоваться все более горизонтально-масштабируемая архитектура. Данные будут очень распределенными, и это еще больше будет затруднять распределен-ные, нелокальные запросы и распределенные соединения.

Для большинства сегодняшних проблем петамасштаба простая стратегия об-хода разделов данных с массивным горизонтальным масштабированием и без

Page 43: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 9

разделения ресурсов была вполне адекватной (MapReduce, Hadoop, и проч.). Но также понятно, что такая компоновка очень неоптимальна, когда хороший ин-декс может обеспечить на порядки более высокую производительность. Связи между таблицами с очень разным количеством элементов было очень сложно использовать с такими программами-обходчиками.

Базы данных могут дать эффективные планы. Также нам необходимо пе-ресмотреть практичность ожидания набора монолитных результатов. Можно представить себе программы-обходчики в базах данных с высокой степенью распределенности, внедряющие концепцию, которая может выдавать по при-горшне результатов за раз, что даст более простое создание контрольных точек и восстановление в середине расширенного запроса. Такой метод также полезен для сбора функций с оператором, который произведет остановку, когда резуль-тат находится, например, в пределах 99% точности. Эти простые улучшения по-зволят обойти огромные монолитные запросы, разбивая их на более мелкие и более управляемые.

Облачные вычисления — другая, недавно появившаяся парадигма. Они предлагают очевидные преимущества, такие как совмещение данных и вычис-лений, а также экономичность размещения сервисов. Хотя эти платформы уже очень хорошо зарекомендовали себя в текущем применении для поисковых механизмов или гибкого размещения коммерческих веб-сайтов, их роль в на-учных вычислениях должна быть прояснена. В некоторых сценариях научного анализа данные должны находиться рядом с местом проведения эксперимента. В других случаях узлы должны быть плотно интегрированы с очень низкой за-держкой. Также бывают случаи, когда необходима очень высокая полоса пропу-скания ввода-вывода. Любая из этих стратегий анализа в существующих средах виртуализации не будет оптимальной. Конечно, вскоре должны появиться более специализированные облака. В следующие несколько лет мы увидим, перейдут ли научные вычисления из университетов к коммерческим поставщикам сер-висов, или же возникнет необходимость объединения крупнейших хранилищ научных данных в одно.

ВЫВОДЫ

Экспериментальная наука производит огромное количество данных. При ра-боте проекта Pan-STARRS каждый год будет собираться 2,5 петабайт (ПБ) ин-формации [18]. Большой адронный коллайдер будет образовывать ежегодно 50—100 ПБ данных, из которых около 20 ПБ будет сохраняться и обрабатываться мировой федерацией национальных сетей, которая объединяет 100 тыс. процес-соров [19]. Но общие решения с фокусом на данные, необходимые для обработ-ки таких объемов информации и соответствующего анализа, еще недоступны [20].

Ученым и научным организациям необходимы шаблоны и набор хороших практик, которые дадут сбалансированную архитектуру оборудования и соот-ветствующее программное обеспечение для работы с такими объемами данных.

Page 44: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА10

Тогда не придется заново изобретать колесо. Однозначно необходимы функции баз данных, например, ориентированные на наборы данных декларативные языки и автоматический параллелизм, которые подтвердили свою успешность при создании масштабных научных приложений.

Мы уверены, что сегодняшняя волна баз данных сможет справиться с мас-штабами как минимум следующего порядка. Поэтому мы продолжаем работать. Но уже пора начинать думать и о следующей волне. Научные базы данных — ранний показатель тех требований, которые потребуются обычным корпора-тивным приложениям. Поэтому инвестиции в такие приложения дадут нам тех-нологии, которые получат широкое распространение в ближайшие несколько лет. Сегодняшние научные задачи являются хорошим показателем проблем с управлением данными 21 века. Законы Грея являются превосходным набором руководящих принципов для проектирования будущих систем с использовани-ем большого объема данных.

ССЫЛКИ

[1] A. S. Szalay and J. Gray, «Science in an Exponential World», Nature, vol. 440, pp. 23—24, 2006, doi: .1038/srep01099).

[2] J. Becla and D. Wang, «Lessons Learned from Managing a Petabyte», CIDR 2005 Conference, Asilomar, 2005, doi: 10.2172/839755.

[3] G. Bell, J. Gray, and A. Szalay, «Petascale Computational Systems: Balanced Cyber-Infrastructure in a Data-Centric World», IEEE Computer, vol. 39, pp. 110—112, 2006, doi: 10.1109/MC.2006.29.

[4] W. W. Hsu and A. J. Smith, «Characteristics of I/O traffic in personal computer and server workloads», IBM Sys. J., vol. 42, pp. 347—358, 2003, doi: 10.1147/sj.422.0347.

[5] A. Szalay, G. Bell, et al., «GrayWulf: Scalable Clustered Architecture for Data Intensive Computing», Proc. HICSS-42 Conference, Hawaii, 2009, doi: 10.1109/HICSS.2009.750.

[6] J. Gray, Cyberbricks Talk at DEC/NT Wizards Conference, 2004; T. Barclay, W. Chong, and J. Gray, «TerraServer Bricks — A High Availability Cluster Alternative», Microsoft Technical Report, MSR-TR-2004-107, http://research.microsoft.com/en-us/um/people/gray/talks/DEC_ Cyberbrick.ppt.

[7] A. S. Szalay, G. Bell, A. Terzis, A. S. White, and J. Vandenberg, «Low Power Amdahl Blades for Data-Intensive Computing», http://perspectives.mvdirona.com/content/binary/AmdahlBladesV3. pdf.

[8] U. Roehm and J. A. Blakeley, «Data Management for High-Throughput Genomics», Proc. CIDR, 2009.

[9] J. Gray, D. T. Liu, M. A. Nieto-Santisteban, A. S. Szalay, G. Heber, and D. DeWitt, «Scientific Data Management in the Coming Decade», ACM SIGMOD Record, vol. 34, no. 4, pp. 35—41, 2005; also MSR-TR-2005-10, doi: 10.1145/1107499.1107503.

[10] A. Acheson et al., «Hosting the .NET Runtime in Microsoft SQL Server», ACM SIGMOD Conf., 2004, doi: 10.1145/1007568.1007669.

Page 45: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 11

[11] J. A. Blakeley, M. Henaire, C. Kleinerman, I. Kunen, A. Prout, B. Richards, and V. Rao, «.NET Database Programmability and Extensibility in Microsoft SQL Server», ACM SIGMOD Conf., 2008, doi: 10.1145/1376616.1376725.

[12] J. Dean and S. Ghemawat, «MapReduce: Simplified Data Processing on Large Clusters», OSDI, 2004, doi: 10.1145/1327452.1327492.

[13] A. Pavlo et al., «A Comparison of Approaches to Large-Scale Data Analysis», ACM SIGMOD Conf., 2009, doi: 10.1145/1559845.1559865.

[14] C. Anderson. The Long Tail. New York: Random House, 2007.[15] A. R. Thakar, A. S. Szalay, P. Z. Kunszt, and J. Gray, «The Sloan Digital Sky Survey

Science Archive: Migrating a Multi-Terabyte Astronomical Archive from Object to Relational DBMS», Comp. Sci. and Eng., vol. 5, no. 5, pp. 16—29, Sept. 2003.

[16] A. Terzis, R. Musaloiu-E., J. Cogan, K. Szlavecz, A. Szalay, J. Gray, S. Ozer, M. Liang, J. Gupchup, and R. Burns, «Wireless Sensor Networks for Soil Science», Int. J. Sensor Networks, to be published 2009.

[17] Y. Li, E. Perlman, M. Wan, Y. Yang, C. Meneveau, R. Burns, S. Chen, A. Szalay, and G. Eyink, «A public turbulence database cluster and applications to study Lagrangian evolution of velocity increments in turbulence», J. Turbul., vol. 9, no. 31, pp. 1—29, 2008, doi: 10.1080/14685240802376389.

[18] Pan-STARRS: Panoramic Survey Telescope and Rapid Response System, http://pan-starrs.ifa.hawaii.edu.

[19] A. M. Parker, «Understanding the Universe», in Towards 2020 Science, Microsoft Corporation, 2006, http://research.microsoft.com/towards2020science/background_overview.htm.

[20] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, no. 5919, pp. 1297—1298, 2009, doi: 10.1126/science.1170411.

Page 46: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 47: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

ЧЕТВЕРТАЯ ПАРАДИГМА 13

ДЖЕФ ДОЗЬЕ (JEFF DOZIER) University of California, Santa Barbara

УИЛЬЯМ Б. ГЕЙЛ (WILLIAM B. GAIL) Microsoft

Новая наука экологических приложений

Наука о Земле и окружающей среде прошла два боль-ших этапа и входит в третий. На первом этапе, ко-торый завершился два десятилетия назад, наука о Земле и окружающей среде была в большой мере

ориентирована на дисциплину и сфокусирована на получе-нии знаний в геологии, химии атмосферных процессов, эко-системах и других аспектах Земли.

В 1980-х гг. научное сообщество осознало тесную взаимос-вязь этих дисциплин и начало изучать их как взаимодейству-ющие элементы единой системы. На втором этапе возникла парадигма науки о Земле. С ней пришла возможность пони-мания сложных системно-ориентированных феноменов, та-ких как изменение климата, которые объединяют концепции науки об атмосфере, биологии и поведении человека. Крайне важной для изучения взаимодействующих систем Земли была возможность сбора, управления и предоставления данных спутниковых наблюдений. Параллельно с этим были разра-ботаны новые модели для выражения нашего растущего по-нимания сложных процессов в динамике системы Земли [1].

На новом, третьем этапе, научные знания дополняются знаниями, созданными для практических применений. Это новое направление знаний можно назвать наукой приложе-ний окружающей среды. Изменение климата является самым ярким примером важности этого перехода. До сегодняшнего дня научное сообщество по вопросам климата было сфокуси-ровано на критических вопросах, которые включали базовые знания от измерения величины изменения до определения причин. Теперь, когда уже получено базовое понимание, воз-никает потребность в знаниях программного обеспечения для климата. Как можно количественно оценить и отслеживать

Page 48: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА14

общую биомассу лесов, чтобы рынки эмиссионных квот могли охарактеризо-вать его выбросы? Какое влияние оказывают региональные изменения в водных ресурсах на демографические тренды, показатели сельского хозяйства и произ-водство электроэнергии? В какой степени морские дамбы и другие конструк-ции, необходимость в которых вызвана повышением уровня моря, влияют на побережье?

Ответы на эти вопросы дает фундаментальная наука, но они вызывают до-полнительные проблемы, которые можно решить только посредством новой научной дисциплины, сфокусированной именно на приложениях, которая объ-единяет физические, биогеохимические, инженерные и человеческие процессы. Эти основные вопросы отражают фундаментальную пытливость в отношении самой природы мира, в котором мы живем, и которая сдерживается понима-нием того, что важность вопроса растет вместе с его соответствием требовани-ям общества. Как заметил лауреат Нобелевской премии и министр энергетики США Стивен Чу (Steven Chu): «Мы ищем решения. Мы больше не ищем — могу ли я сказать так? — просто научные факты» [2].

Чтобы проиллюстрировать взаимосвязь фундаментальной науки и прило-жений, подумайте о роли стока талых вод в запасах воды. Во всем мире 1 млрд человек зависит от таяния снегов или ледников, обеспечивающих запасы воды [3]. Конструкция и принципы работы систем водоснабжения традиционно пола-гались на исторические измерения стационарного климата вместе с эмпириче-скими взаимосвязями и моделями. С изменением климата и землепользования, ростом и перемещением населения, а также с устареванием созданных нами систем эти эмпирические методы управления нашими водными запасами ста-ли неточными — это ребус под названием «стационарность умерла» [4]. Талые воды обычно дают воду для различных целей: городское и сельскохозяйственное водоснабжение, гидроэнергетика, мелиорация и экосистемы. Во многих районах идут и дожди, и снег, что приводит к мысли о том, что будущий, более теплый климат, даст большую долю осадков в виде дождей, с поступлением воды за не-сколько месяцев до пиковых потребностей сельского хозяйства, и более быстрые стоки, которые вызовут большее количество наводнений. В этих смешанных системах со снегом и дождем потребность общества заключается в следующем: «Как можно сохранить контроль над наводнениями и выгоды, которые вода дает людям и экосистемам, если изменения во времени и величине стоков, ско-рее всего, сделают существующую инфраструктуру неадекватной?»

Чтобы разработать решения в ответ на требования общества, необходимо более фундаментальное понимание, основанное на процессе круговорота воды в природе. В настоящее время практиками и решениями для систем защиты от наводнений и водоснабжения управляют исторические данные. Противопавод-ковые мероприятия и объемы водохранилищ определяются распоряжениями, которые статичны и не учитывают тип гидрологического года, текущее состо-яние снежной массы или риск наводнения. На протяжении многих лет ранние талые воды не сохранялись, так как основанные на статистике предположения в

Page 49: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 15

отношении наводнений не реализовывались ввиду отсутствия снега. Чем дальше будет идти потепление, тем чаще подобные случаи будут влиять на запасы воды [5]. Связанные с этим научные задачи таковы: (1) Используемые сейчас стати-стические методы не пытаются оценивать баланс воды в бассейнах, и при нали-чии существующих сетей измерений даже в США нам не хватает необходимой информации о количестве снега в бассейнах; (2) Мы не можем разделить воду, поступающую в виде дождя и снега, или разделить этот снег и дождь между эва-потранспирацией и стоками; (3) Нам не хватает знаний для управления взаимос-вязью между снежным покровом, лесами и углекислотой; (4) Прогнозы стока, не основанные на физических принципах, относящихся к таянию снегов, зачастую неточны; и (5) Мы не знаем, какие стимулы и организационные мероприятия обеспечат лучшее управление водосборными бассейнами для услуг экосистемы.

В целом модели не учитывают такие типы взаимодействий, а следовательно, и необходимость науки приложений для окружающей среды. Ее ключевые ха-рактеристики отличают ее от фундаментальной науки о Земле и окружающей среде:

• Управлениеотпотребностипротивуправленияотпытливости. Фундамен-тальная наука управляется вопросами; в отличие от нее, новая прикладная наука управляется в большей степени общественными нуждами, чем науч-ным интересом. Вместо поиска ответов на вопросы она сосредоточена на соз-дании возможности для поиска образа действий и определения их послед-ствий.

• Внешниеограничения.Внешние обстоятельства зачастую определяют, ког-да и как потребуются знания и приложения. Процесс создания рынков квот на выбросы углерода не будет ждать, пока мы полностью подсчитаем коли-чество углерода в лесах. Это произойдет согласно графику, продиктованно-му политикой и экономикой. Процессы строительства и ремонта городской инфраструктуры водоснабжения не будут ждать, пока ученые разберутся в глобальных изменениях климата. Прикладная наука должна быть готова к обслуживанию действий, вызванных такими внешними механизмами, без привязки к академическим графикам, которые описывают время и методы для наилучшего получения знаний.

• Последовательностьирекурсивность. Действия, возникающие из наших зна-ний о Земле, зачастую изменяют ее, что создает необходимость в новых зна-ниях о том, что мы изменили. Например, чем больше мы узнавали о место-нахождении популяций рыб, тем больше эти популяции истощались. Наши исходные данные о них быстро устаревали в результате наших же собствен-ных действий. Прикладная наука ищет понимания не только этих аспектов Земли, на которые направлены отдельные сценарии использования, но и последствий и внешних эффектов, которые возникают в результате такого сценария использования. Свежий пример — перевод сельскохозяйственных

Page 50: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА16

угодий на выращивание зерновых для получения этилового спирта: попытка компенсации изменений климата, которые мы видим сейчас в форме суще-ственного сокращения водных ресурсов.

• Полезностьдажевнезавершенномвиде.Как показывает пример снежной массы, действия часто бывают необходимы, несмотря на неполные данные или частичные знания. С учетом утраты постоянства, связанного с измене-нием климата, особенно смущает неуверенность в качестве наших знаний. Следует разработать новые средства эффективного использования частич-ных знаний, включая надежные механизмы составления выводов и статисти-ческой интерпретации.

• Масштабируемость. Знания фундаментальной науки не всегда масштаби-руются для поддержки требований приложений. Превосходная иллюстра-ция — это пример торговли квотами на выбросы углерода. Фундаментальная наука говорит нам, как соотнести содержание углерода с измерениями типа и плотности вегетации, но она не дает нам инструментов для масштабиро-вания на мировые запасы. Необходимо создать новые инструменты знаний для точного создания и обновления этих запасов посредством экономичных дистанционных датчиков или других средств.

• Надежность. Люди, ответственные за принятие решений, обычно имеют ограниченное понимание того, как были получены знания, которыми они руководствуются, и в каких ситуациях применимы эти знания. Чтобы исклю-чить ошибки, знания должны быть описаны очень надежными терминами. Они должны быть устойчивыми во времени и не поддаваться воздействию индивидуальных интерпретаций, изменяющих контекст и особые условия.

• Использование большого количества данных. Фундаментальная наука по праву использует большое количество данных, но источники данных, кото-рые ее поддерживают, зачастую недостаточны для поддержки приложений. Локализованные воздействия с глобальным масштабом, например, попада-ние инвазивных видов, часто бывает сложно проверить в централизованных проектах с небольшим количеством исследователей. Необходимо опреде-лить новые, подходящие для приложений источники, и разработать новые методы наблюдений (включая использование сообществ в качестве источни-ков сбора данных).

Каждая из этих характеристик предполагает разработку новых типов знаний и новых инструментов для получения этих знаний. Пример снежной массы ил-люстрирует, что это требование означает для отдельного направления. Именно теперь появились все четыре компонента, которые вместе дают возможность развертывания системы измерений и информации, способной поддерживать решения в масштабах крупных речных бассейнов: (1) точные и подтвержденные спутниковые оценки заснеженных участков всех горных районов; (2) надежные

Page 51: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 17

и недорогие датчики и системы телеметрии для снега и почвенной влаги; (3) данные социальных наук, которые дополняют данные природных и инженер-ных систем для того, чтобы появилась возможность анализа принятия решений человеком; и (4) развитие киберинфраструктуры для интеграции данных и их передачи практически в реальном масштабе времени.

Научная задача максимальной важности для речных бассейнов с преобла-данием снега — это оценка пространственного распределения и разнородности эквивалентного слоя воды, то есть количества воды, которая может образоваться при таянии снега. Так как после выпадения снега он перераспределяется под дей-ствием ветра, снег на поверхности располагается более разнородно, чем дожди, с разницей в несколько метров на расстоянии 10—100 м. Разнородность глубины снега сглаживает ежедневные стоки за счет разной длительности таяния снежной массы [6]; сезонно она образует квазиприводные зоны повышенной влажности почвы, которые сохраняются до лета. Такой метод оценки эквивалентного слоя воды включает в себя несколько задач с использованием усовершенствованных данных: (1) расширенная проверка спутниковых оценок снежного покрова и его отражения, как показано на рисунке 1; (2) использование результатов рекон-струкции баланса энергии снежного покрова для улучшения интерполяции от более расширенных наземных измерений и спутниковых данных [7]; (3) разра-ботка новых методов, чтобы характеризовать разнородность [8]; и (4) тестиро-вание интерполированных оценок на модели пространственно-распределенных стоков [9]. Измерения также могут помочь определить точность оценок осадков из моделей регионального климата.

Третий этап науки о Земле и окружающей среде будет развиваться в сле-дующем десятилетии, так как научное сообщество начинает его использовать. Метеорология уже создала устойчивые возможности в прикладной науке; наибольшая часть науки о Земле должна перенять и развить этот опыт. Необ-ходимость в фундаментальной науке и дальнейших открытиях не исчезнет, а будет дополнена и расширена этим новым этапом. Стоящие вопросы имеют как практическую важность, так и интеллектуальную привлекательность. Придут ли в упадок наши навыки гидрологических прогнозов, когда изменения осадков устранят ценность статистики, полученной из исторических шаблонов? Где воз-никнет следующая крупная проблема изменения климата, и какие сегодняшние действия смогут помочь нам ее предвидеть?

Также важно улучшать применение этих знаний в нашей ежедневной жизни. Интернет и мобильные телефоны, с их глобальным охватом, дают новые методы быстрого и широкого распространения информации. У нас была информация, которая могла исключить большую часть разрушений от цунами в Азии и урага-на Катрина, но у нас не было инструментов для быстрого принятия решений и коммуникации по необходимым действиям.

Таким образом, прикладная наука является интегративной. Она объединяет понимание физических феноменов и исследований в таком виде, чтобы люди и организации могли использовать улучшенные знания для принятия решений. Общество в целом также может вносить важный вклад в локализованные на-

Page 52: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА18

блюдения Земли, дополняя ограниченные сети спутников и датчиков такими простыми устройствами, как камеры мобильных телефонов. Для нового этапа развития науки об окружающей среде возможность использования этих новых способов сбора данных станет важной задачей.

Безопасность и благосостояние почти 7 млрд человек все больше зависит от нашей возможности собирать и применять информацию об окружающем нас мире. Фундаментальная наука об окружающей среде дала отличную стартовую точку. Сейчас мы должны развить это в надежную науку экологических прило-жений.

35N

36N

37N

38N

39N

40N

41N

122W 120W 118W 122W 120W 118W 122W 120W 118W

0 1 2 3 4

Высота над уровнемморя, км

0 0.25 0.5 0.75 1.0

Распределениеснежного покрова

MODIS, 19 января 2008 г.Полосы 2,4,3 (RGB)

РИСУНОК 1.

Иллюстрация типа данных, полезных для анализа снежного покрова. В левой части показаны вы-соты Сьерра-Невада и Калифорнийской долины, вместе с частью северо-западной Невады. В цен-тральной части — необработанные спутниковые данные в трех полосах спектра (0,841—0,876, 0,545—0,565 и 0,459—0,479 мкм), полученные от сканирующего спектрорадиометра среднего разрешения (Moderate Resolution Imaging Spectroradiometerfrom) (MODIS) NASA, который пре-доставляет ежедневные глобальные данные в разрешении 250—1000 м в 36 полосах спектра. Из семи «наземных» полос с разрешением 500 м мы получили распределение снежного покрова — то есть доли каждой 500-метровой ячейки, покрытой снегом, что показано в правой части [10].

Page 53: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 19

ССЫЛКИ

[1] National Research council, Earth Observations from Space: The First 50 Years of Scientific Achievement. Washington, D.c.: national Academies Press, 2007.

[2] R. DelVecchio, «Uc Berkeley: Panel looks at control of emissions», S.F. Chronicle, March 22, 2007.

[3] T. P. Barnett, J. c. Adam, and D. P. Lettenmaier, «Potential impacts of a warming climate on water availability in snow-dominated regions», Nature, vol. 438, pp. 303—309, 2005, doi: 10.1038/nature04141.

[4] P. c. D. Milly, J. Betancourt, M. falkenmark, R. M. Hirsch, Z. W. Kundzewicz, D. P. Lettenmaier, and R. J. stouffer, «Stationarity is dead: whither water management?» Science, vol. 319, pp. 573—574, 2008, doi: 10.1126/science.1151915.

[5] R. c. Bales, n. P. Molotch, T. H. Painter, M. D. Dettinger, R. Rice, and J. Dozier, «Mountain hydrology of the western United states», Water Resour. Res., vol. 42, W08432, 2006, doi: 10.1029/2005WR004387.

[6] J. D. Lundquist and M. D. Dettinger, «How snowpack heterogeneity affects diurnal streamflow timing», Water Resour. Res., vol. 41, W05007, 2005, doi: 10.1029/2004WR003649.

[7] D. W. cline, R. c. Bales, and J. Dozier, «Estimating the spatial distribution of snow in mountain basins using remote sensing and energy balance modeling», Water Resour. Res., vol. 34, pp. 1275—1285, 1998, doi: 10.1029/97WR03755.

[8] N. P. Molotch and R. c. Bales, «Scaling snow observations from the point to the grid element: implications for observation network design», Water Resour. Res., vol. 41, W11421, 2005, doi: 10.1029/2005WR004229.

[9] C. L. Tague and L. e. Band, «RHessys: regional hydro-ecologic simulation system—an object- oriented approach to spatially distributed modeling of carbon, water, and nutrient cycling», Earth Int., vol. 19, pp. 1—42, 2004.

[10] T. H. Painter, K. Rittger, c. McKenzie, R. e. Davis, and J. Dozier, «Retrieval of subpixel snow- covered area, grain size, and albedo from MODIs», Remote Sens. Environ., vol. 113, pp. 868—879, 2009, doi: 10.1016/j.rse.2009.01.001.

Page 54: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 55: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

ЧЕТВЕРТАЯ ПАРАДИГМА 21

ДЖЕЙМС Р. ХАНТ (JAMES R. HUNT) University of California, Berkeley, and the Berkeley Water Center

ДЕННИС Д. БАЛДОЧЧИ (DENNIS D. BALDOCCHI) University of California, Berkeley

КАТАРИН ВАНИНГЕН (СATHARINE VANINGEN) Microsoft Research

Переопределение экологической науки при помощи данных

Экология изучает жизнь и ее взаимодействие с физи-ческой средой. Так как изменение климата требует быстрой адаптации, новые инструменты анализа дан-ных крайне важны для оценки таких изменений среди

огромного природного разнообразия. В экологии исследова-ния выполняются преимущественно в небольших группах, с записью и сохранением данных на ноутбуках. Однако сейчас предпринимаются попытки проведения крупных комплекс-ных исследований при участии сотен ученых, как результат развития двух направлений: методов реализации науки и вопросов управления ресурсами, и важность таких исследо-ваний растет. Вычислительная поддержка является неотъем-лемой частью такого взаимодействия и ключом к научному процессу.

КАК ГЛОБАЛЬНЫЕ ИЗМЕНЕНИЯ ВЛИЯЮТ НА ЭКОЛОГИЧЕСКУЮ НАУКУ

Мировой климат и ландшафт Земли изменяются, и ученые должны оценить взаимосвязи атмосферных, океанских и на-земных процессов для правильного изучения этого феномена. Например, сейчас ученые задаются вопросом, как колебания температуры, объема осадков, интенсивности солнечного из-лучения, длительности посевного периода и количества экс-тремальных погодных событий, таких как засухи, влияют на обмен углерода между растительностью и атмосферой.

Page 56: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА22

Этот вопрос охватывает множество дисциплин науки о Земле, с их соответ-ствующими данными, моделями и предположениями.

Для этих изменений требуются новые методы решения вопросов по управ-лению ресурсами. В ближайшие несколько десятилетий экосистемы не смогут восстановиться до прежнего состояния. Например, учитывая потепление клима-та на Западном побережье США, имеет ли смысл ориентироваться на историче-ские данные по прибрежным бассейнам в южной Калифорнии для прогнозиро-вания районов обитания рыб в прибрежных бассейнах северной Калифорнии? И что, например, нам могут сказать о вырубке лесов дистанционные датчики? Для решения этих задач требуется синтез данных и моделей, которые охваты-вают масштабы от очень локальных (бассейны рек) до глобальных (океаны) и временную шкалу от нескольких десятков миллисекунд до столетий.

ПРИМЕР ЭКОЛОГИЧЕСКОГО СИНТЕЗА

На рисунке 1 показан простой при-мер «смешивания наук» для синте-тического исследования. На графике приводится сравнение ежегодных стоков из относительно небольших бассейнов в предгорьях Сьерра-Не-вада в Калифорнии с локальными ежегодными осадками за несколько лет. Значения ежегодных стоков полу-чены от Геологической службы США (U.S. Geological Survey, USGS) по трем гидрометрическим станциям в Драй-крик и экспериментальной площадке Университета Шуберта, Калифорния (Schubert University of California)1. Долговременные записи количества осадков от расположенных непода-леку дождемеров были получены от Национального центра климатиче-ских данных (National Climatic Data Center)2. Осадки, которые не стекают, подвергаются эвапотранспирации (ЭТ), которая в большой степени обе-спечивается растительностью бассей-на. В этих бассейнах за все годы, по

В м и л л и м е т р а х

С р е д н е г о д о в ы е о с а д к и

0 200 400 800 1000600

400

300

100

0

200

500

Шуберт (1,03 км2)Драй-Крик (181 км2)

Драй-Крик (689 км2)Драй-Крик (829 км2)

Ежег

од

ны

е ст

оки

РИСУНОК 1.

Простой годовой баланс воды для оценки эва-потранспирации в бассейнах предгорья Сьер-ра-Невада. Пунктирная линия представляет ежегодную ЭТ в 400 мм.

1 http://waterdata.usgs.gov/nwis2 www.ncdc.noaa.gov

Page 57: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 23

которым представлены данные, наблюдалось отдельное значение в 400 мм. По-добное значение годовой ЭТ было получено путем независимых измерений при помощи атмосферных датчиков, установленных в экосистеме дубовой саванны на башне AmeriFlux Tonzi Ranch3.

Этот синтез исторических данных определяет модель бассейна, подходящую для исторических условий, и предоставляет справочную структуру для решения эффектов изменения климата в системе с высокой степенью изменений.

ГРЯДУЩЕЕ НАВОДНЕНИЕ ЭКОЛОГИЧЕСКИМИ ДАННЫМИ

Новые синтетические исследования стали возможными благодаря объединению недорогих датчиков, дистанционных датчиков, подключения к Интернету и массовой вычислительной обработки. Группы исследователей начинают исполь-зовать датчики не только в кратковременных кампаниях, но и для длительного мониторинга с большей детализацией и более разнообразными инструмента-ми. Спутники обеспечивают глобальное покрытие для удаленных или сложных районов, где полевые исследования затруднены особенностями физической и политической логистики. Подключение к Интернету дает возможность обмени-ваться данными между организациями и дисциплинами. Результатом этих трех факторов становится наводнение данными. Массовая вычислительная обработ-ка дает часть решения, позволяя совместить этот поток информации с моделя-ми, которые включают в себя различные физические и биологические процес-сы, а также соединять различные модели для охвата необходимых масштабов и времени.

Поток экологических данных и синтез экологической науки представляет уникальные задачи вычислительной инфраструктуры и новые возможности. В отличие от таких наук, как физика или астрономия, где датчики являются общими, в экологии данные образуются большим количеством групп, кото-рые используют большое количество методов отбора проб и моделирования и стандартов данных. Как показано на рисунке 1, для получения данных эва-потранспирации было необходимо использование опубликованных данных из двух различных источников. Для такого синтеза требовался цифровой доступ к долговременным записям, обработка этих наборов данных для получения ЭТ, и окончательная проверка по независимым измерениям метеорологической стан-ции. Для других синтетических действий потребуется доступ к появляющимся ресурсам от правительственных организаций, таких как NASA или USGS, на-учных сообществ, таких как Национальная сеть экологических обсерваторий (National Ecological Observatory Network) и WATERS Network4, отдельных уни-верситетских научно-исследовательских групп, таких как «Жизнь у вас под нога-

3 www.fluxdata.org:8080/SitePages/siteInfo.aspx?US-Ton4 www.watersnet.org

Page 58: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА24

ми» (Life Under Your Feet)5, и даже гражданских научных групп, таких как Обще-ственная сеть по дождю, граду и снегу (Community Collaborative Rain, Hail and Snow Network)6 и Национальная сеть фенологии США (USA National Phenology Network)7.

В то время как текущие данные, поступающие с полевых датчиков, радаров или спутников, уже имеют цифровой формат, критически важные для науки исторические и полевые данные проходят процесс оцифровки. Последние дан-ные не всегда равномерно распределены по времени; они могут включать даты появления листьев или снимки аэрофотосъемки с различной длиной волны и разрешением для оценки бассейнов по таким параметрам, как влажность по-чвы, растительность и использование земель. Получение научных переменных от удаленных датчиков остается активной областью исследований; для обработ-ки полученных тяжелым трудом результатов полевых измерений необходима разработка алгоритмов преобразования. Все более важными становятся поле-вые наблюдения гражданской науки, такие как виды растений, развитие расте-ний (например, даты появления листьев или развитие кроны дерева), количе-ство рыб и птиц. Интеграция такой разнообразной информации является все более усложняющейся задачей для научных аналитиков.

ИССЛЕДОВАНИЕ ПОТОКА ЭКОЛОГИЧЕСКИХ ДАННЫХ

Первым этапом любого экологического анализа является обнаружение и гар-монизация данных. Сегодня можно выявлять более крупные наборы данных. Исторические наборы данных и наборы данных меньшего размера зачастую пе-редаются в устной форме. Ввиду разнообразия источников публикации данных отсутствует общий протокол отчетности. Преобразование единиц измерения, геопространственное повторное проектирование и выравнивание масштабов времени и размера стали стилем жизни. Возникают порталы каталогов данных, такие как Sci-Scope8 и веб-сервисы с общими моделями данных, подобно пред-лагаемым Открытым геопространственным консорциумом (Open Geospatial Consortium)9.

Неотъемлемая часть таких поисковых порталов научных данных — это зна-ние геопространственных функций и переменное посредничество в простран-стве имен. Первое позволяет выполнять поиск в исследуемых бассейнах или гео-логических районах, а также в пределах произвольных многоугольников. Второе позволяет выполнять поиск с различными терминами — например, «дождь», «ливень» и «осадки» — когда он выполняется в хранилищах с различными со-

5 www.lifeunderyourfeet.org6 www.cocorahs.org7 www.usanpn.org8 www.sciscope.org9 www.opengeospatial.org

Page 59: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 25

глашениями о названиях. Новое поколение реестров метаданных, которое ис-пользует семантические интернет-технологии, дает возможность выполнения более обширного поиска, а также обеспечивает автоматическое преобразование названий и единиц измерения. Комбинация обеих разработок позволит выпол-нять поиск научных данных по запросам типа «Найти данные по ежедневному речному стоку и расходу взвешенных наносов по всем бассейнам штата Вашинг-тон со среднегодовыми осадками более 30 дюймов».

ПЕРЕМЕЩЕНИЕ ЭКОЛОГИЧЕСКОГО СИНТЕЗА В ОБЛАКО

Наборы данных крупного синтеза также приводят к переходу от настольных к облачным вычислениям. Большая часть наборов данных экологии представляет собой коллекции файлов. В качестве примера можно привести синтетический набор данных Fluxnet LaThuile, который содержит 966 площадко-лет информа-ции датчиков от 253 площадок во всем мире.

Данные для каждого площадко-года публикуются в виде простого файла с разделением запятыми или файла с поддержкой MATLAB для сводки за день или за полчаса. Большая часть ученых загружает какую-то часть или все эти файлы, после чего выполняет их локальный анализ. В других видах синтеза ис-пользуются альтернативные облачные сервисы, которые соединяют MATLAB на рабочем столе с кубом данных SQL Server Analysis Services в облаке. Данные вы-глядят локальными, но ученым не нужно беспокоиться об обработке отдельных файлов. Локальная загрузка и работа с данными дистанционных датчиков, ко-торые могли бы дополнить эти данные датчиков, для многих ученых не являет-ся практичной. Для выполняемого сейчас проекта облачного анализ, в котором используются оба типа данных для расчета изменений в эвапотранспирации в США, за последние 10 лет будут загружены 3 терабайта изображений и будут использованы 4 тыс. часов работы процессора для получения менее 100 Мб ре-зультатов. Проведение анализа вне рабочего стола позволяет использовать более высокую полосу пропускания, более крупные временные хранилища и вычис-лительный парк, доступные в облаке.

Синтетические исследования также создают необходимость для появления инструментов облачного взаимодействия. Научные данные имеют значение для ученых-владельцев информации в виде публикаций, грантов, репутации и сту-дентов. Обмен этими данными с другими скорее увеличит эту ценность. Опре-деление подходящих политик цитирования, признания и соавторства для син-тетических документов остается открытым для обсуждения вопросом в более крупных сообществах, таких как Fluxnet10 и Северо-американская программа углерода11. Место в журналах и ограничения авторства также являются важным моментом в этих обсуждениях. Важно решить этический вопрос: что означает

10 www.fluxdata.org11 www.nacarbon.org/nacp

Page 60: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА26

быть соавтором? Достаточным ли является вклад данных, если он основан на существенных интеллектуальных и физических усилиях? После согласования таких политик простые инструменты взаимодействия в облаке смогут суще-ственно упростить логистику, необходимую для публикации документов, предо-ставить возможность поиска соавторов, и позволят исследователям быть в курсе использования своих данных.

КАК КИБЕРИНФРАСТРУКТУРА ИЗМЕНЯЕТ ЭКОЛОГИЧЕСКУЮ НАУКУ

Наводнение экологическими данными разрушит научную разрозненность и позволит проводить научные исследования нового поколения. Цель понимания воздействия изменения климата управляет исследованиями, которые охватыва-ют такие дисциплины, как физиология растений, почвоведение, метеорология, океанография, гидрология и флювиальная геоморфология. Для совмещения различных масштабов времени и величин потребуется набор моделей взаимо-действия. Для разработки и проверки этих моделей критически важен синтез полевых наблюдений с результатами применения этих моделей при ключевых масштабах времени размера.

Для киберинфрастуктуры разнообразие размеров экологических наборов данных, их семантики и источников публикации ставит задачи, которые будут решаться в течение нескольких ближайших лет. Синтетическая наука управля-ет не только непосредственным, но и виртуальным общением между учеными различных отраслей. Разрушить семантические и синтаксические преграды в этом общении может продвижение в представлении метаданных. Визуализация данных, от простой смеси до более сложных виртуальных миров, также являет-ся ключевым элементом этого общения. Облачный доступ к обнаруживаемым, распределенным наборам данных, и, возможно, еще более важный фактор — анализ облачных данных вблизи более массивных наборов данных, позволят появиться новому поколению междисциплинарной науки.

Page 61: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

ЧЕТВЕРТАЯ ПАРАДИГМА 27

ДЖОН Р. ДЕЛЕЙНИ (JOHN R. DELANEY) University of Washington

РОДЖЕР С. БАРГА (ROGER S. BARGA) Microsoft Research

Будущее океанологии — 2020 год

Мировой океан остался последним физическим барьером на Земле. Покрывая 70 процентов по-верхности планеты, он является крупнейшим и наиболее сложным из известных нам биомов. Это

огромный мобильный резервуар тепла и действующей мас-сы. Таким образом, океан является «движителем», который управляет погодно-климатическими системами бассейнов океана и континентов, непосредственно воздействуя на про-изводство продуктов питания, засухи и наводнения. Вода не пропускает электромагнитное излучение, поэтому морское дно изучено не так хорошо, как поверхность Марса и Венеры, и хотя пространственные связи бассейнов океана достаточно понятны, кратко- и долговременные колебания и сложность динамики океана изучены мало.

Являясь конечным хранилищем отходов человечества, океан с 1800 г. поглотил почти половину ископаемого углеро-да. Бассейны океана являются источником опасности: земле-трясений, цунами и гигантских штормов. Это эпизодические, мощные, часто очень мобильные, и с трудом прогнозируемые события. Так как океанические бассейны являются огромным, но имеющим свои пределы хранилищем ресурсов для жизни и других целей, мы обращаемся к ним за продуктами питания, энергией и рядом минералов, необходимых для поддержания широкого спектра видов жизнедеятельности человека. Мно-гие ученые уверены, что подводные вулканы были горнилом, в которых зародилась первая жизнь на Земле и, возможно, на других планетах. Океаны соединяют все континенты; они не принадлежат никому и при этом принадлежат всем вви-ду своей подвижной природы. Океаны можно рассматривать

Page 62: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА28

как общее наследие человечества для поддержания жизни на Земле, за которую мы несем общую ответственность.

СЛОЖНОСТЬ ОКЕАНА

Наша задача состоит в оптимизации преимуществ и устранении рисков жизни на планете, у которой два основных источника энергии: солнечный свет, кото-рый управляет атмосферой и большей долей верхней части океана, и внутрен-нее тепло, которое отвечает за тектонику плит и нижнюю часть океана. Более чем четыре миллиарда лет мировой океан подвергался воздействию этих двух мощнейших движущих сил, так как Земля, океаны, атмосфера и жизнь эволю-ционировали параллельно. Как следствие, наши океаны имели долгую и слож-ную историю, которая привела к образованию сегодняшней крайне сложной системы, в которой тысячи физических, химических и биологических процессов непрерывно взаимодействуют в различных масштабах времени и пространства, так как океаны поддерживают нашу экологическую «зону комфорта» в плане-тарном масштабе.

На рисунке 1 показана крайне упрощенная схема питания океана энерги-ей сверху и снизу. Для более глубокого понимания этой «системы поддержания жизни на Земле» требуются совершенно новые методы исследований, которые позволят множеству ученых одновременно изучать разнообразные и интерак-тивные океанические процессы — методы, которые позволят вести непрервыное изучение связей различных процессов в согласованных по времени и простран-ству рамках. Внедрение таких новых мощных методов является как задачей, так и перспективой для океанологии следующего поколения.

ИСТОРИЧЕСКАЯ ПЕРСПЕКТИВА

На протяжении тысяч лет люди уходили в море на кораблях, чтобы убегать, за-воевывать, вести торговлю или исследовать. В октябре 1957 г. человек запустил первый спутник на орбиту Земли, а в январе 1960 г. погрузился в самую глу-бокую часть океана. Последние 50 лет корабли, спутники и подводные лодки были основой пространственных океанографических исследований. Сейчас мы находимся на пороге следующего технологического прорыва, который двинет вперед изучение океана. Доминантой исследований станут время и взаимо-действие. Новая эра будет основана на появлении и взаимодействии новейших технологий. Именно об этом говорил Марсель Пруст: «настоящее путешествие, полное открытий, состоит не в поиске новых ландшафтов, но в обладании но-выми глазами».

Такое видение океанографических исследований и образования следующего поколения включает в себя использование множества различных инновацион-ных технологий для одновременного и непрерывного изучения большого коли-чества разнообразных процессов, которые происходят в океане, изнутри океана. Некоторые из этих технологий позволят удаленно обнаруживать локальные

Page 63: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 29

РИСУНОК 1.

Два основных источника энергии оказывают мощное воздействие на океанические бассейны: излучающий энергию солнечный свет и внутренняя теплота со своей конвекцией и проводи-мостью. Сложность океанов требует документирования и количественной оценки — в четко определенных за десятилетия рамках пространства и времени — мириад процессов, которые постоянно изменяются и взаимодействуют друг с другом.

Иллюстрация разработана Джоном Делейни (John Delaney) и Марком Штермером (Mark Stoermer); создана Цен-тром визуализации окружающей среды (Center for Environmental Visualization, CEV) для программы NEPTUNE.

Page 64: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА30

критические изменения, имеющие место в некоторых частях океана. Быстрая реконфигурация основных матриц датчиков, подключенных к Интернету под-водными электрооптическими кабелями, позволит нам собирать, отображать, документировать и измерять сильные и ранее недоступные для научных иссле-дований феномены, такие как извергающиеся вулканы, шаблоны крупных ми-граций, подводные оползни и множество других.

ЧЕТВЕРТАЯ ПАРАДИГМА

Человек всегда пытался изучить океан во всей его сложности, и океан постоянно оставался изученным не до конца. Сегодняшний набор числовых и теоретиче-ских моделей океана с большим количеством вычислений намного опережает уровень данных, необходимых для воплощения этих моделей в реальности. Как следствие, мы не могли даже подойти к полезным прогностическим моделям реального поведения океанов. Только при оценке мощных эпизодических со-бытий, таких как гигантские штормы и извергающиеся вулканы, в контексте более длительных, десятилетних изменений, мы можем начать приближаться к надежным прогностическим моделям поведения океана. Со временем, так как адаптивные модели все более подтверждаются постоянным сравнением с фак-тическими данными из реальных систем, мы постепенно получим возможность предсказывать будущее поведение этих крайне сложных природных систем. Чтобы достичь этой цели, мы должны предпринимать шаги для фундаменталь-ного изменения наших методов, с которыми мы подходим к океанографии.

Этот путь состоит из нескольких основных этапов. Мы должны иметь воз-можность документирования состояния и измерения потоков в океане, одновре-менно и в реальном времени, в различных масштабах времени и пространства, независимо от глубины, энергии, подвижности или сложности задействованных процессов. Измерения должны проводиться при помощи совместно располо-женных матриц датчиков различных типов, которые управляются исследова-телями в периоды от десятилетий до столетий. Данные должны немедленно собираться, архивироваться, отображаться и сравниваться с моделями, четко настроенными для работы с уровнями сложности в масштабах, сопоставимых по времени и пространству с фактическими измерениями.

Этот метод дает три основных преимущества: (1) Модели должны прогрес-сивно эмулировать измеренную реальность за счет постоянного сравнения с данными для получения реального поведения океанов в «пространстве модели» для продвижения в направлении более прогностических моделей; (2) Если моде-ли и данные не согласованы, и предполагается, что данные верны, мы должны немедленно использовать морские роботизированные системы датчиков, чтобы полностью охарактеризовать разворачивающиеся события, так как они, очевид-но, дают новые знания в тех комплексах, которые нам необходимы для охвата в нерабочих моделях; (3) Выполняя и архивируя все наблюдения и измерения в согласованных рамках пространства и времени, мы сможем предоставить мно-

Page 65: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 31

жеству исследователей (даже не связанных со сбором данных) возможность из-учения корреляции среди любого количества выбранных феноменов во время (или намного позже) происхождения процессов или событий. Если архивные данные немедленно становятся широко доступными при помощи Интернета, то вследствие растущего количества потенциальных исследователей, которые мо-гут изучать быстро расширяющийся спектр «пространства параметров», суще-ственно возрастает потенциал новых открытий. Для ученых, которые работают в этой насыщенной информацией среде, возникнет необходимость в разработ-ке нового набора продуктов для научного процесса, которые смогут упростить архивирование, ассимиляцию, визуализацию, моделирование и интерпретацию информации по всем интересующим научным системам. Отчеты по нескольким симпозиумам, которые предлагают примеры таких «продуктов процесса», до-ступны в открытой литературе [1, 2].

ПОЯВЛЕНИЕ И СБЛИЖЕНИЕ

Океанология получает выгоды от множества мощных появляющихся техноло-гий, управляемых различными сообществами, которые являются полностью внешними по отношению к исследованию океана — например, такими, как нанотехнологии, биотехнологии, информационные технологии, компьютерное моделирование, технологии визуализации и робототехника. Еще более мощным будет результат интеграции этих возможностей, так как они адаптированы для проведения сложных удаленных морских операций новыми методами, с объ-единением инновационных технологий в необходимые исследовательские или экспериментальные системы.

Например, потребуются системы хранения больших объемов данных, об-лачные вычисления, решения для научной обработки данных, расширенные дисплеи визуализации и портативные супервычисления. Электрическое пита-ние и огромная пропускная способность оптоволокна будут использоваться для трансформации различных видов научных и образовательных операций, кото-рые могут выполняться в океане, вместо батарей и спутников, которые исполь-зовались для удаленных районов. Применение электрооптических кабелей про-мышленного стандарта в океанографических исследованиях может полностью изменить природу телеприсутствия человека во всем объеме океана за счет вво-да беспрецедентной, но уже доступной мощности и полосы пропускания в про-странство океана. Оптические и акустические датчики с высоким разрешением станут частью более широкой технологии «систем визуализации океана». Эти методы будут использовать видео с высоким разрешением, при необходимости со стереозвуком, а также гидролокаторы высокого разрешения, акустические линзы, лазерное формирование изображений и пространственный отбор проб. Расширенные технологии датчиков будут включать в себя химическое зонди-рование при помощи удаленных и мобильных масс-спектрометров и газовых хроматографов, эко-геномного анализа и адаптивных техник отбора проб.

Page 66: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА32

КОМПЛЕКСНЫЙ ПОДХОД

После нескольких десятилетий планирования [3, 4] Национальный научный фонд США (U.S. National Science Foundation, NSF) готов инвестировать более 600 млн долл. США в течение 6 лет в строительство и начало работы иннова-ционной инфраструктуры, известной под названием Программа океанических обсерваторий (Ocean Observatories Initiative, OOI) [4]. Расчетный срок действия программы — 25 лет. Кроме выполнения крайне необходимых высокоширот-ных и прибрежных измерений, которые поддерживаются относительно низ-кой пропускной способностью спутниковых систем связи, эта программа будет включать в себя мероприятия по внедрению систем наблюдения с электрооп-тическими кабелями в северо-восточной части Тихого океана [5-7] у побережья Вашингтона, Орегона и Британской Колумбии, как показано на рисунке 2.12

Эта интерактивная распределенная сеть датчиков в США и Канаде создаст «природную лабораторию» с широкой апертурой для проведения большого ко-личества долговременных инновационных экспериментов в океане при помощи управления всей «лабораторной» системой в реальном времени. Распростра-нение беспрецедентной мощности и полосы пропускания на широкий спектр интерактивных датчиков, приборов и роботов, распределенных в водах океана, в местах соприкосновения воды с воздухом, на дне и под ним в скважинах, от-кроет дорогу для творчества следующего поколения и исследования временных интервалов широкой аудиторией исследователей. Вашингтонский университет (University of Washington) управляет вопросами кабелей в инициативе NSF, из-вестной как Региональная измерительная сеть (Regional Scale Nodes, RSN) (ра-нее известная и финансированная как NEPTUNE); Викторианский университет (University of Victoria) отвечает за развитие инициативы в Канаде, которая назы-вается NEPTUNE Canada. Эти два метода были совместно запущены в 2000 г. в сотрудничестве США и Канады. Консорциум по лидерству в океане (Consortium for Ocean Leadership) из Вашингтона (округ Колумбия) занимается управлением и интеграцией всей системы OOI для NSF. Океанографический институт Вудс Хол (Woods Hole Oceanographic Institution) и Калифорнийский университет, Сан-Диего (University of California, San Diego), отвечают за контроль прибреж-но-глобальной и киберинфраструктурной частей программы соответственно. Университет штата Орегон (Oregon State University) и Институт океанографии Скриппса (Scripps Institution of Oceanography) являются участниками прибреж-но-глобальной части OOI.

Метод кабельной океанской обсерватории совершит революцию в океано-логии и предоставит непрервыный интерактивный доступ к океаническим дан-ным и приборам в ближайшие два-три десятилетия. Более чем 1200 километров электрооптического подводного кабеля обеспечат десятками киловатт мощно-сти узлы на дне океана, где приборы, которые могут быть установлены в радиусе 50 км от узла, будут подключаться либо непосредственно, либо через вторичные

12 www.interactiveoceans.ocean.washington.edu

Page 67: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 33

удлинительные кабели. Основной кабель обеспечит полосу пропускания в пре-делах 2,5—10 Гбит/с между землей и растущим количеством стационарных и мобильных групп датчиков. Ожидается, что такая доступность локальной мощ-ности и полосы пропускания приведет к появлению множества новых методов океанографии. Основным преимуществом станет возврат данных в реальном времени и командное управление флотом аппаратов с дистанционным управ-лением и автономных подводных устройств.

Инфраструктура будет адаптируемой, расширяемой и экспортируемой для заинтересованных пользователей. Политика в отношении данных по OOI при-зывает делать всю информацию доступной заинтересованным пользователям

Аксиал Симаунт

РИСУНОК 2.

Часть программы OOI фокусируется на динамическом поведении плиты и мощных процессах, происходящих в океане и атмосфере, которые находятся над ней. Недавние изменения Регио-нальной измерительной сети были направлены на элементы, отмеченные красным цветом, а розовые элементы представляют направления для расширения в будущем. На выноске показан хребет вулкана Аксиал Симаунт (Axial Seamount) вдоль активной гряды Хуан де Фука. Каждая ограниченная квадратом площадка предоставит уникальную электрическую мощность и полосу пропускания для исследований и обучения. На этих площадках могут исследоваться многие про-цессы, показанные на рисунке 1.

Изображение создано CEV для OOI-RSN.

Page 68: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА34

через Интернет (за исключением информации, которая имеет отношение к на-циональной безопасности).

Подключенные к Интернету кабельные обсерватории предоставят ученым, студентам, педагогам и обществу виртуальный доступ к значительным участкам нашей планеты, которые ранее редко посещались человеком. По сути, Интернет будет расширен на морское дно, с возможностью взаимодействия с различными инструментами, включая потоковое видео в высоком разрешении из множества точек внутри океанов, как показано на рисунке 3. Системы кабельных обсерва-торий смогут охватить процессы в масштабах тектонической плиты, океанских водоворотов средней величины или даже меньших масштабах. Благодаря новой инфраструктуре можно будет проводить исследования репрезентативных про-цессов, отвечающих за изменение климата, основную биологическую продук-тивность в начале пищевой цепи, расширяющееся окисление океана и т.д. С ис-пользованием тех же инвестиций в эту кабельную инфраструктуру можно будет выполнять новые исследования центров распространения в открытом океане, трансформных разломов и особенно процессов в зоне субдукции у основания

РИСУНОК 3.

Ученые или граждане следующего поколения. На виртуальном изображении показан глубоко-водный осьминог Grimpoteuthis и часть подводной гидротермальной системы гряды Хуана де Фука. В ближайшие пять лет подобное отображение трехмерного видео высокого разрешения в реальном времени станет повседневной возможностью.

Изображение разработано Марком Штермером и создано CEV для проекта NEPTUNE в 2005 г.

Page 69: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 35

материкового склона, которые могут вызывать землетрясения в северо-запад-ной части Тихого океана.

Интерактивная океаническая лаборатория будет поддерживаться общей ки-беринфраструктурой, объединяющей множество обсерваторий, тысячи прибо-ров, десятки тысяч пользователей и петабайты информации. Цели кабельной океанической лаборатории могут быть достигнуты только в том случае, если морская часть проекта будет дополнена современной ИТ-инфраструктурой, со-зданной при плотном взаимодействии компьютерных ученых и океанологов. Та-кое сотрудничество позволит ученым взаимодействовать с океаном при помощи команд и управления датчиками в реальном времени; обеспечить постоянную подачу данных для моделей; автоматизировать контроль качества данных и их калибровку, а также поддерживать новые методы управления, анализа и визуа-лизации данных.

ЧТО ВОЗМОЖНО?

На рисунке 4 показаны некоторые из новых возможностей, имеющих потенци-ал дальнейшего развития. В долговременной перспективе ключевым элементом введения уникальной мощности и полосы пропускания в глубины океана будет возможность реализации интеграционных проектов и разработок. Они позво-лят нам лучше понимать — и, возможно, прогнозировать — поведение Земли, океана и атмосферы, их взаимодействие и влияние на развитие жизни на пла-нете.

ВЫВОД

В кабельной океанической обсерватории объединяются грандиозные достиже-ния в технологиях датчиков, робототехнических системах, высокоскоростной связи, экогеномике и нанотехнологиях с инфраструктурой океанской лабора-тории, причем такими путями, которые существенно изменят методы взаимо-действия ученых, педагогов, технологов и разработчиков политики с динамикой мирового океана. В ближайшие десятилетия в большинстве стран в прибрежных зонах их территориальных морей будут внедрены системы этого типа. Так как эти системы становятся все более сложными, а данные становятся постоянно до-ступными в Интернете, последний станет самым мощным инструментом океа-нографического исследования на планете. Таким образом, наследие Джима Грея (Jim Gray) продолжит развиваться с нашим обнаружением новых знаний

Появление кабельных обсерваторий будет иметь глубокие последствия для методов, которыми ученые, инженеры и педагоги ведут свою профессиональ-ную деятельность. Наиболее перспективным эффектом может быть существен-ное изменение отношения общества к океанам и научному процессу. Данные, получаемые в реальном времени, и высокоскоростная связь, присущие кабель-ным системам дистанционного наблюдения, также откроют новые пути для вза-имодействия общества с миром природы.

Page 70: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА36

РИСУНОК 4.

Некоторые из трансформирующих разработок, которые могут стать привычными в ближай-шие 5 лет при помощи вспомогательной кабельной системы. На верхнем рисунке показана ми-ниатюра систем геномного анализа, адаптированных к океану на базе наземных лабораторий, которые позволят ученым при помощи переключателя в лаборатории, расположенной на рас-стоянии сотен миль, дистанционно отбирать образцы окружающей среды и проводить локаль-ные операции секвенирования генов в океане. Данные могут стать доступными в Интернете в считанные минуты после решения о взятии пробы микробов из магмы извергающегося под водой вулкана, или сезонного цветения фитопланктона. В нижней части показана концептуаль-ная иллюстрация комплекса удаленной аналитической биологической лаборатории на морском дне, которая позволяет выполнять множество локальных измерений или препарирований при помощи видео в высоком разрешении с поддержкой стереозвука для проведения высокоточных дистанционных манипуляций.

Научные концепции Джинджера Армбруста (Ginger Armbrust) и Джона Делейни; графический дизайн — Марк Штермер для CEV.

Page 71: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 37

В конечном счете наличие прогностических моделей функционирования океана на основании многолетнего уточнения сложных компьютерных моделей высококачественными наблюдениями распределенных сетей датчиков сфор-мирует основы для управления наиболее мощной системой изменения климата планеты — мировым океаном, или, как минимум, адаптации к ней.

БЛАГОДАРНОСТЬ

Мы благодарны значимому влиянию Джима Грея, который решительно заявил о том, что метод кабельных наблюдений океана с использованием потока данных в реальном времени и с широкой полосой пропускания может стать неотъемле-мой частью прогресса человечества и понимания мира, в котором мы живем. Мы также благодарим за поддержку Вашингтонский университет, Националь-ный научный фонд, Консорциум по лидерству в океане и группу по внешним исследованиям Microsoft за техническое взаимодействие и финансовую помощь. NSF и программа Национального океанографического партнерства были осо-бенно ценны на ранних этапах реализации концепции проекта NEPTUNE с 1998 по 2005 гг., с грантами Дж. Р. Делейни. Дебора Келли (Deborah Kelley), Ненси Пенроуз (Nancy Penrose) и Марк Штермер приложили множество усилий для подготовки этой рукописи и обсуждения ее содержания.

ССЫЛКИ

[1] «Project Trident: A Scientific Workflow Workbench Brings Clarity to Data», http://research.microsoft.com/en-us/collaboration/focus/e3/workflowtool.aspx.

[2] Две ссылки по симпозиуму NSF о задачах научных процессов:http://grids.ucs.indiana.edu/ptliupages/publications/IEEEComputer-gil.pdf http://vtcpc.isi.edu/wiki/index.php/Main_Page.

[3] National Research Council of the National Academies, Enabling Ocean Research in the 21st Century: Implementation of a Network of Ocean Observatories. Washington, D.C.: National Academies Press, 2003, p. 220.

[4] «Ocean Observatories Initiative (OOI) Scientific Objectives and Network Design: A Closer Look», 2007, http://ooi.ocean.washington.edu/cruise/cruiseFile/show/40. Ocean Leadership Web site for the Ocean Observatories Initiative: www.oceanleadership.org/ programs-and-partnerships/ocean-observing/ooi.

[5] J. R. Delaney, F. N. Spiess, S. C. Solomon, R. Hessler, J. L. Karsten, J. A. Baross, R. T. Holcomb, D. Norton, R. E. McDuff, F. L. Sayles, J. Whitehead, D. Abbott, and L. Olson, «Scientific rationale for establishing long-term ocean bottom observatory/laboratory systems», in Marine Minerals: Resource Assessment Strategies, P. G. Teleki, M. R. Dobson, J. R. Moor, and U. von Stackelberg, Eds., 1987, pp. 389—411.

[6] J. R. Delaney, G. R. Heath, A. D. Chave, B. M. Howe, and H. Kirkham, «NEPTUNE: Real-time ocean and earth sciences at the scale of a tectonic plate», Oceanography, vol. 13, pp. 71—83, 2000, doi: 10.1109/OCEANS.2001.968033.

Page 72: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА38

[7] A. D. Chave, B. St. Arnaud, M. Abbott, J. R. Delaney, R. Johnson, E. Lazowska, A. R. Maffei, J. A. Orcutt, and L. Smarr, «A management concept for ocean observatories based on web services», Proc. Oceans’04/Techno-Ocean’04, Kobe, Japan, Nov. 2004, p. 7, doi: 10.1109/ OCEANS.2004.1406486.

Page 73: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

ЧЕТВЕРТАЯ ПАРАДИГМА 39

АЛИСА А. ГУДМАН (ALYSSA A. GOODMAN) Harvard University

КЕРТИС Г. ВОНГ (CURTIS G . WONG) Microsoft Research

Приближая ночное небо: открытия в шквале данных

Астрономы привыкли к информации, которая падает с неба. Теперь возможность сохранения данных о небе «в облаках» предлагает вдохновляющие новые мето-ды доступа распределения, использования и анализа

данных, как в исследованиях, так и в образовании. Здесь мы рассматриваем три взаимосвязанных вопроса: (1) Какие тен-денции мы видели и вскоре увидим благодаря растущим объ-емам данных и изображений с телескопов? (2) Как мы будем решать задачу поиска пресловутой иголки в стоге сена этих данных для продвижения научных открытий? (3) Какие воз-можности визуализации и анализа нас ожидают в будущем?

ТЕНДЕНЦИИ РОСТА ДАННЫХ

Астрономия имеет историю сбора данных, уходящую корня-ми как минимум до эпохи Стоунхенджа — а это более трех тысяч лет назад. Со временем формат информации, которая регистрировалась астрономами, изменился с резьбы по кам-ню до письменных записей и ручных набросков, а затем до фотографий и цифровых носителей.

Хотя телескоп (изобретенный в 1600 г.) и открытие элек-тромагнитного спектра за пределами длин волн, видимых глазу человека (в 1940 г.) привели к качественным изменениям природы астрономических исследований, они не увеличили объема собираемых данных в такой мере, как это произошло в цифровую эру.

Приборы с зарядовой связью (charge-coupled devices, CCD), получившие широкое распространение в 1980-х гг., и аналогичные датчики неоптических длин волн стали более эффективными, чем традиционные аналоговые средства (на-

Page 74: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА40

пример, фотографические пластинки). Это привело к продолжающемуся (и, возможно, бесконечно ускоряющемуся) увеличению объема данных, доступных астрономам. Растущие возможности и падающие цены на цифровые устрой-ства, используемые в обработке сигналов, анализе данных и их хранении, в ком-бинации с расширением Интернета, сделали астрономию из наблюдательной науки цифровой и компьютерной.

Например, Большой обзорный телескоп (Large Synoptic Survey Telescope, LSST), строительство которого будет завершено в этом десятилетии, даст в пер-вый год своей работы данных намного больше данных — 1,28 петабайт — чем любой другой телескоп за всю историю существования телескопов. LSST достиг-нет этого за счет очень чувствительного CCD с огромным количеством точек на относительно большом телескопе с очень быстрой оптикой (f/1,234) и ши-роким полем обзора (9,6 квадратных градусов), а также за счет выполнения се-рии снимков с более короткой экспозицией (в сравнении с традиционными, с более длинной экспозицией), которые могут использоваться для изучения пове-дения астрономических источников во времени. И в то время как LSST, решетка астрономических телескопов Pan-STARRS и другие будущие астрономические мега-проекты — многие из которых работают в неоптической длине волны — будут создавать огромные наборы данных, охватывающих все небо, другие группы и отдельные специалисты будут добавлять к ним свои меньшие, но по-тенциально более целевые наборы данных.

В следующей части этой статьи мы предположим, что задача управления этим взрывоподобным ростом данных будет решена (скорее всего, за счет раз-умного использования «облачного» хранилища и новых структур данных), и сфокусируемся на вопросе, как предлагать лучшие инструменты и новую техни-ческую и социальную аналитику, которые позволят узнать нам больше о нашей Вселенной.

Множество возникающих тенденций, включая краудсорсинг, демократиза-цию доступа при помощи новых браузерных технологий и растущую вычис-лительную мощность, может помочь нам искать «иглы в стогах сена» данных, доступных в Интернете.

КРАУДСОРСИНГ

Слоуновский цифровой обзор неба (Sloan Digital Sky Survey) выполнялся для получения снимков и измерения спектров миллионов галактик. Так как снимки галактик автоматически исключались из широкоугольных изображений, обре-занных в автоматическом процессе, большую часть из них мы никогда не виде-ли. Чтобы проверить заявление, что большая часть галактик вращается против часовой стрелки, а не наоборот, команда Слоуна использовала пользователь-ский код для создания веб-страницы, которая предоставляла снимки галактик желающим поиграть в онлайн-игру Galaxy Zoo, основной задачей которой явля-ется классификация направлений вращения галактик. В этой игре продуманные

Page 75: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 41

алгоритмы показывают одну и ту же галактику различным пользователям как в качестве справочного образца, так и чтобы проверить точность игроков.

Результаты сводной классификации галактик широким сообществом за пер-вый год работы были такими же точными, как и проводимые астрономами. За первый год пользователи провели более 50 млн классификаций для миллиона галактик, и заявление о преобладании право- или левостороннего вращения было наконец опровергнуто. При этом Ханни Ван Аркель (Hanny Van Arkel), школьный учитель из Голландии, обнаружил галактику, которая сейчас счита-ется самой синей во Вселенной. Она была тщательно исследована основными телескопами, включая радиотелескоп с очень большой антенной решеткой (Very Large Array, VLA) и вскоре будет исследоваться Космическим телескопом Хаб-бла (Hubble Space Telescope).

ДЕМОКРАТИЗАЦИЯ ДОСТУПА ПРИ ПОМОЩИ НОВЫХ БРАУЗЕРНЫХ ТЕХНОЛОГИЙ

Время, необходимое для получения данных от любого астрономического объ-екта, пропорционально как минимум квадрату расстояния до этого объекта. Поэтому любой сервис, который может накапливать пользовательские коллек-ции уже полученных изображений и данных, эффективно приближает ночное небо. Использование архивных онлайн-данных, сохраненных в «облаке дан-ных» упрощается при помощи новых программных инструментов, таких как Microsoft WorldWide Telescope (WWT), который предоставляет интуитивно по-нятный доступ к снимкам ночного неба, полученным астрономами с использо-ванием многих тысяч часов работы телескопов.

При помощи WWT (рисунок 1) любой желающий может перемещаться по небу на длинах волн от рентгеновского излучения до радиочастот, а также рас-сматривать трехмерную модель Вселенной, созданную на основе реальных на-блюдений, просто ради интереса. Любой пользователь может отметить необыч-ное соответствие аспектов на разных длинах волны в одной и той же точке неба, при помощи щелчка мыши увидеть все опубликованные статьи в журналах и обсудить эту часть неба. Каждый желающий может подключить телескоп к ком-пьютеру с установленным WWT и накладывать реальные, новые изображения поверх онлайн-изображений этого же участка неба практически на любой дли-не волны. В своих исследованиях можно воспользоваться «маршрутами», состав-ленными пользователями WWT. С появлением все большего количества таких «маршрутов» WWT становится настоящим «небесным браузером». Исследова-тели будут перемещаться путями, которые соединяют объекты общего интереса, объединяя идеи и людей. Переход от маршрута к маршруту будет подобен пере-ходу между веб-страницами.

Но мощность WWT выходит далеко за пределы этой отдельной способности. Он становится частью экосистемы онлайн-астрономии, которая ускорит про-гресс «гражданской» и «профессиональной» науки в ближайшие годы.

Page 76: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА42

Компания Microsoft посредством WWT и Google посредством Google Sky со-здали среды интерфейса прикладного программирования (API), которые позво-ляют работать программному обеспечению просмотра неба внутри веб-страни-цы. Эти API упрощают создание всего, что угодно — от образовательной среды для детей до сайтов «гражданской науки» и распределения данных для профес-сиональных научных исследований.

Благодаря API теперь легко внедрять такие инструменты, как Galaxy Zoo. Поэтому теперь астрономические и образовательные сообщества отвечают за повышение желания общества помогать в исследовании растущего притока дан-ных. Студенты высших учебных заведений для совершения реальных открытий о Вселенной сегодня могут использовать спутниковые данные, которые еще ни-кто не анализировал, а не просто двигать блоки по наклонной плоскости на за-нятиях по физике. Астрономы-любители могут собирать данные по требованию для заполнения информационных пробелов, о которых студенты, профессиона-

РИСУНОК 1.

WorldWide Telescope показывает район туманности Тарантул вблизи Большого Магелланова Об-лака.

Изображение предоставлено Национальной оптической астрономической обсерваторией (National Optical Astronomy Observatory)/Национальный научный фонд.

Page 77: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 43

лы и другие астрономы спрашивают в Интернете. Возможности сотрудничества и образования действительно безграничны.

Роль WWT и подобных инструментов в сообществе профессиональной астрономии продолжает расширяться. В частности, WWT уже стал лучшим из методов доступа к обзорам неба в сравнении с любыми существующими про-фессиональными инструментами. WWT как часть действий по международной «виртуальной обсерватории» бесшовно подключается к инструментам оценки и исследований, к которым привыкли астрономы, чтобы дать красивый и кон-текстный обзор для информации, которая обычно подавалась частями. И он уже начал восстанавливать целостный обзор данных, который использовался астрономами до того, как цифровая эра разбила небо на огромное количество мелких частей в несовместимых форматах.

РАСТУЩАЯ ВЫЧИСЛИТЕЛЬНАЯ МОЩНОСТЬ

В течение 10 лет многоядерные процессоры увеличат массовую вычислитель-ную мощность по сравнению с сегодняшней на два-три порядка. Как вся эта компьютерная мощь поможет справиться со шквалом данных? Более быстрые компьютеры, увеличенные хранилища и полоса пропускания безусловно по-зволят использовать современные методы для охвата более крупных наборов данных. Кроме того, станут доступны совершенно новые методы обработки и анализа данных. Например, техники компьютерного зрения уже используются в бытовых цифровых фотоаппаратах с обнаружением и распознаванием лица в качестве базовой функции.

Большая вычислительная мощность позволит нам сортировать и иденти-фицировать уникальные предметы, события и посторонние данные сразу при их обнаружении и направлять их в гражданско-научные сети для подтвержде-ния. За счет более качественных интерфейсов, которые смогут из работы сде-лать игру, может быть оптимизировано привлечение гражданских ученых к сети оповещения для этой последней составляющей обнаружения. Интерфейсы потенциально могут объединить подтверждение предметов человеком с гло-бальными сетями игр и симуляторов, где данные реального времени широко распространены и встроены в обширные игры в реальном времени с большим количеством игроков, которые бесшовно интегрируют правильную идентифи-кацию предметов в лестницу достижений в игре. Такие игры смогут дать детям возможность повысить свой социальный престиж среди других игроков, при этом делая ценный вклад в науку.

ВИЗУАЛИЗАЦИЯ И АНАЛИЗ ДЛЯ БУДУЩЕГО

WWT представляет краткий обзор будущего. С расширением разнообразия и масштаба собранных данных, программное обеспечение должно стать более сложным в отношении доступа к данным, при этом становясь более интуитив-ным, настраиваемым и совместимым.

Page 78: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА44

Методы улучшения таких инструментов, как WWT, скорее всего, будут связа-ны с более масштабной задачей улучшения использования инструментов визуа-лизации и анализа данных во всех сферах — а не только в астрономии.

Задачи визуализации и анализа в науке очень схожи. Представьте, например, астронома и специалиста по климату, работающих вместе. Они оба хотят изу-чить свойства физических систем, наблюдаемых в сферической системе коорди-нат. Оба хотят бесшовно перемещаться, например, между наблюдениями линии спектра отдельных источников в некоторых особых положениях на сфере (на-пример, изучать состав звездной атмосферы или СО2 в атмосфере Земли), кон-текстом этих положений на сфере, а также статьями в журналах и онлайн-об-суждениями этих феноменов.

Сегодня, даже в пределах отдельной дисциплины, ученые часто сталкивают-ся с множеством возможностей выполнения одной и той же подзадачи анализа, но ни один из пакетов не содержит всех необходимых им задач. Для ученых или специалистов по данным, сотрудничающих с учеными, будущее имеет потенци-ал разработки собственного программного обеспечения путем соединения ком-понентов модульных приложений по необходимости. Так, например, астроном и климатолог могут использовать какую-то обобщенную версию WWT как часть отдельной, пользовательской системы, которая соединит их избранные пакеты, относящиеся к конкретной дисциплине или ученому, для решения таких задач, как анализ линии спектра.

ВЫВОД

Вопрос, которые соединяет все три рассмотренные темы — как мы можем со-здать новые инструменты для астрономии, которые упростят процесс откры-тий в шквале данных? Ответ, скорее всего, заключается в соединении различных существующих ресурсов — включая гражданских ученых, желающих помогать в анализе данных; доступные браузеры изображений, подобные WWT; и более приспособленные для пользователя инструменты визуализации, собранные из общих компонентов. Этот метод, направленный на более бесшовное соединение (и повторное использование) различных компонентов, в ближайшем десятиле-тии, скорее всего, станет общим для многих отраслей науки — а не только для астрономии.

ССЫЛКИ

[1] WorldWide Telescope http://www.worldwidetelescope.orghttp://research.microsoft.com/en-us/projects/wwt/http://research.microsoft.com/en-us/research/toys/worldwide-telescope.aspxhttp://www.microsoft.com/ru-ru/devcenter/MRTelescope.aspx (рус.)

Page 79: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА

ЧЕТВЕРТАЯ ПАРАДИГМА 45

МИХАЭЛЬ ЛЕНИНГ, НИКОЛАС ДЕЙВС, МАТИАС БЕВЕЙ (MICHAEL LEHNING, NICHOLAS DAWES, MATHIAS BAVAY) WSL Institute for Snow and Avalanche Research SLF

МАРК ПАРЛАНЖ (MARC PARLANGE) École Polytechnique Fédérale de Lausanne

СУМАН НАТ, ФЕНГ ДЖАО (SUMAN NATH, FENG ZHAO) Microsoft Research

Оснащение Земли приборами: Сети датчиков

следующего поколения и экология

Повышенная озабоченность глобальным изменением климата и растущие во всем мире экологические про-блемы говорят об острой необходимости улучшения методов решения задач экологии. Существующие си-

стемы мониторинга окружающей среды большого масштаба, с их низким пространственно-временным разрешением, не только дороги, но и неспособны выявлять сложные взаимо-действия между компонентами атмосферы и земной поверх-ности с точностью, достаточной для получения точных моде-лей экосистемы.

В особенности это применимо к горным районам с очень сложной поверхностью, которые являются мировым источни-ком пресной воды и шаблонов погоды. Количество данных, необходимых для понимания и моделирования этих взаи-модействий, настолько огромно (терабайты, и продолжает расти), что ни одно из стандартных решений не позволяет ученым легко управлять ими и анализировать их. Это быстро привело к растущему мировому взаимодействию ученых-эко-логов и компьютерных ученых для системного решения этих проблем и разработки решений датчиков и баз данных, кото-рые позволят экологам проводить эксперименты следующего поколения.

Page 80: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА46

ЭКОЛОГИЯ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ

Новое поколение наук об окружающей среде, как показано на рисунке 1, моти-вировано следующими наблюдениями сообщества науки об атмосфере: во-пер-вых, наиболее выдающейся задачей в прогнозировании погоды и климата яв-ляется понимание процессов взаимодействия земли и атмосферы. Во-вторых, среднее влияние неоднородной поверхности на атмосферу может существенно отличаться от влияния, рассчитанного путем усреднения отдельных свойств по-верхности, таких как температура или влажность [1-3] — особенно в горах, где разнообразие поверхности стандартно высокое.

На рисунке 2 показан такой при-мер — очень сложная горная поверх-ность с голыми скалами, засоренными участками вечной мерзлоты, частич-ным снежным покровом, разбросан-ными деревьями, а также мелкими и глубокими слоями почвы с различной растительностью. Все эти типы поверх-ности могут находиться в пределах одного километра — а такие разреше-ния обычно не охватываются моделя-ми прогноза погоды даже последнего поколения. В существующих моделях прогноза погоды и изменения клима-та все еще используют разрешающую способность сетки, которая слишком слаба (несколько километров) для четкого и правильного определения разнородности поверхности в горах (и других местах). Это может приво-дить к грубым ошибкам в понимании и прогнозах.

В экологии следующего поколения проблема разрешения данных будет решена при помощи плотной сети датчиков (обычно беспроводных). Не-давние усовершенствования беспро-водных датчиков сделали возможным получение информации о физиче-ском мире с высоким разрешением и точностью в течение длительного пе-риода времени. Беспроводная связь обеспечивает надежный сбор данных

РИСУНОК 1

Типовой контекст источников данных для экологии следующего поколения с внедрением разнообразных датчиков, который включа-ет следующее: (1) мобильные станции, (2) традиционные погодные станции с высоким разрешением, (3) полноразмерные снежные и погодные станции, (4) внешние погодные станции, (5) спутниковая съемка, (6) метео-рологический радар, (7) мобильный метеоро-логический радар, (8) потоковые наблюдения, (9) наблюдения, передаваемые гражданами, (10) наземный лидар, (11) воздушный лидар, (12) замеры азота и метана, (13) датчики ги-дрологии снега и лавин, (14) сейсмодатчики, (15) распределенные оптоволоконные датчи-ки температуры, (16) отбор проб воды, (17) потоковые гидрометрические станции, (18) быстрые исследования движения масс, (19) станции стоков и (20) исследования почвы.

Page 81: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 47

от удаленных датчиков для отправки в лаборатории в целях обработки, анализа и архивирования. Такое зондирование в высоком разрешении дает ученым воз-можность понять вариабельность и динамику параметров окружающей среды с большей точностью. Беспроводное зондирование также обеспечивает ученым безопасный и удобный метод наблюдения за датчиками на местах, позволяя включать, отлаживать и тестировать их из лаборатории.

Это позволяет снизить до минимума посещения площадок, которые могут занимать много времени, быть дорогостоящими, а иногда и опасными.

Однако внедрение плотной сети датчиков в сложных и удаленных районах по нескольким причинам остается проблемным. Во-первых, весь процесс зон-дирования, вычисления и передачи данных должен быть предельно энергоэф-фективным, чтобы датчики могли работать длительное время от небольших ба-тарей, солнечных панелей или других источников энергии окружающей среды. Во-вторых, датчики и их каналы связи должны быть очень надежными, чтобы обеспечить сбор данных в сложных природных условиях. В-третьих, ошибочные данные датчиков, полученные в результате отказов системы или природного

778500 779500779250779000 779750778750187000

186000

185750

186750

186250

186500

No Snow0-200200-400400-600

600-800800-10001000-12001200-1400

1400-1600>1600

Картография и дизайн: Грюневальд Т.Основная карта: Географическая карта Швейцарии № 1197 1:25000

Глубина снега в миллиметрах

РИСУНОК 2.

Сканирование распределения снега в швейцарских Альпах наземным лазером показывает типо-вой неравномерный снежный покров.

Page 82: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА48

воздействия, должны определяться и обрабатываться должным образом (напри-мер, отмечаться или даже отфильтровываться из набора данных). Хотя недав-ние исследования (включая «Швейцарский эксперимент» (Swiss Experiment) и «Жизнь у вас под ногами» (Life Under Your Feet) частично устраняют эти пробле-мы, для решения подобных задач во множестве продукционных систем требу-ются дальнейшие исследования.

УПРАВЛЕНИЕ И ИССЛЕДОВАНИЕ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ ОТ ДАТЧИКОВ

Зондирование экологических данных в высоком разрешении ставит перед уче-ными серьезные задачи по управлению данными. Сюда относится надежное архивирование больших объемов (несколько терабайт) данных, обмен такими данными с другими пользователями в пределах политики контроля доступа, а также сохранение достаточного контекста и источников данных датчиков с ис-пользованием подходящих метаданных [4].

Ученые-экологи могут использовать коммерческие инструменты работы с базами данных для решения множества задач управления и изучения данных, связанных с этим массивным потоком данных. Например, проект Microsoft SenseWeb [5] предоставляет инфраструктуру, которая включает основную базу данных Microsoft SQL Server, для архивирования большого количества данных от датчиков, которые могут сжиматься и распределяться по множеству компью-теров. SenseWeb также поддерживает подходящие индексы данных и позволяет эффективно обрабатывать запросы, чтобы пользователи могли быстро иссле-довать наборы данных в целях обнаружения функций для детального анали-за [5-7]. Но даже с этими возможностями SenseWeb касается только верхушки айсберга сложных задач по управлению данными, которые стоят перед учены-ми-экологами. Для эффективной интеграции данных от датчиков с подходящим контекстом и сохранения информации об источниках данных требуются допол-нительные инструменты. Одной из задач остается запрос таких данных в унифи-цированной системе. Также требуются дополнительные исследования для рабо-ты с неточными данными, поступающими от датчиков с помехами, а также для обработки постоянного потока данных из распределенных местоположений.

Для лучшего понимания феноменов окружающей среды ученым нужно вы-водить и применять различные модели для преобразования данных от датчиков в научные и прочие практические результаты. Технология баз данных может помочь ученым легко интегрировать данные наблюдений от различных источ-ников, возможно, распределенных в Интернете, с оценками моделей и прогноза-ми — такую процедуру называют ассимиляцией данных. Расширенные техники сбора данных могут позволить ученым легко исследовать пространственно-вре-менные шаблоны данных (как интерактивно, так и в группах архивных данных). Техники моделирования могут предоставить своевременные и точные прогнозы таких феноменов, как наводнения, оползни или циклы лавин, которые могут быть очень полезны для планирования действий и профилактики ущерба, даже

Page 83: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 49

если подобные прогнозы становятся доступными всего за несколько часов до события. В метеороло-гии такие кратковремен-ные прогнозы называют прогнозами на период до двух часов.

Ученые из проекта «Швейцарский экспери-мент»13 заметно продви-нулись в ассимиляции полезных данных и крат-ковременных прогнозах. В одном из направлений этого проекта к прогно-зированию природных опасностей в Альпах применяются расширенные датчики и модели [8]. Уточненный кратковремен-ный прогноз полагается на рабочие прогнозы погоды для определения целевых зон потенциальных бурь, которые могут затронуть небольшие районы (в не-сколько квадратных километров) в горах.

Рабочий прогноз погоды должен давать достаточно времени для установки локальных мобильных станций (типа станций SensorScope14) и дистанционных датчиков в целевом районе для составления моделей опасности в высоком раз-решении. В долговременной перспективе будут разработаны специализирован-ные модели прогноза погоды для возможности проведения более точных про-цессов локального моделирования.

Для повышения осведомленности общества об окружающей среде и в целях поддержки разработчиков политик и решений полезные находки научных экс-периментов должны быть представлены и распространены в практичной фор-ме. Например, SenseWeb предоставляет онлайн-интерфейс пользователя под названием SensorMap15, представляющий экологические факторы в реальном времени и истории в простой для понимания визуальной форме. Он накладыва-ет пространственные образы (например, значки текущего загрязнения воздуха в различных местах или изображения распространения снегопадов) на географи-ческую карту с возможностью просмотра различных участков, визуализирует выбранные наборы экологических данных в форме видеозаписи поверх геогра-фической карты и показывает важные тенденции исторических экологических

РИСУНОК 3.

SensorMap показывает распределение температуры, нало-женное на трехмерную карту горной поверхности.

13 www.swiss-experiment.ch14 www.swiss-experiment.ch/index.php/SensorScope:Home15 www.sensormap.org

Page 84: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА50

данных, а также сводку таких данных в реальном времени (см. рисунок 3). В настоящее время такие платформы поддерживают только ограниченный набор способов визуализации, и для поддержки более сложной визуализации, необхо-димой для различных аудиторий пользователей, требуется решение по-прежне-му большого количества задач.

ВСЕМИРНЫЙ МОНИТОРИНГ ОКРУЖАЮЩЕЙ СРЕДЫ

Мы описали систему экологического мониторинга следующего поколения в изо-лированном виде — сфокусированной на отдельный регион, например, горный район, ледовое поле или лес. Таким образом, экологические системы только на-чинают внедряться. Однако мы предвидим появление намного более широких систем мониторинга, которые позволят ученым обмениваться данными друг с другом, объединять и коррелировать данные, получаемые от миллионов датчи-ков со всего мира и получать еще более качественное понимание мировых эко-логических шаблонов.

Такое внедрение датчиков в мировом масштабе создаст как уникальные выгоды, так и новые проблемы. Традиционные техники управления данными (например, загрузка данных в базу данных SQL и последующие запросы) с уве-личением объема наборов данных датчиков становятся неадекватными. Для исключения перемещения массивных объемов данных вычисления должны быть распределены и производиться как можно ближе к источникам данных [7]. Для сокращения использования хранилищ и каналов связи наборы данных должны максимально сжиматься без потери достоверности. Для поддержки анализа данных с допустимой задержкой вычисления лучше выполнять над сжатыми данными [9]. Для научного анализа также, скорее всего, понадобят-ся дополнительные метаданные, такие как спецификации датчиков, параметры экспериментов, источники данных и другая информация о контексте. Данные из различных источников должны будут интегрироваться в унифицированной системе управления и исследования данных [10].

Очевидно, что инструменты компьютерной науки смогут поддерживать та-кую экологию следующего поколения только в том случае, если они будут при-меняться учеными этой предметной области на практике. Такие инструменты должны быть интуитивно понятными, простыми в использовании и надежны-ми, чтобы ускорить их использование учеными. Кроме того, они не могут быть универсальным решением для всех отраслей науки — наоборот, это должны быть специальные для конкретной отрасли инструменты — или, как минимум, пользовательские варианты инструментов общего назначения. Для разработки таких инструментов требуется определить важные проблемы, на которые ищут ответы ученые этой предметной области, проанализировать компромиссы их структуры и сфокусироваться на важных функциях. Хотя такие методы проек-тирования приложений являются стандартными для ненаучного применения, пока они не являются основными в приложениях для науки. Это должно изме-ниться.

Page 85: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 51

ВЫВОД

Тесное взаимодействие между экологией и компьютерной наукой дает новые и более качественные методы проведения научных исследований при помощи сбора данных с высокими разрешением и точностью, упрощенного управле-ния данными большого масштаба, мощного моделирования и поиска данных, а также эффективного обмена данными и визуализации. В этом документе мы выделили несколько задач, чтобы наметить возможности развития экологии следующего поколения. В этом контексте уже наблюдается заметный прогресс — например, «Швейцарский эксперимент» и SenseWeb, где расширенная и инте-грированная инфраструктура экологических данных используется в различных крупных проектах экологических исследований, экологического образования и отдельными учеными. Кроме того, большой прогресс идет и во вспомогатель-ных областях, таких как базовая технология датчиков. Мы ожидаем, что все эти шаги в оснащении Земли приборами помогут нам реализовать мечты науки об окружающей среде следующего поколения, и позволят ученым, правительствам и обществу лучше понимать окружающую среду и более безопасно жить в ней.

ССЫЛКИ

[1] M. Bavay, M. Lehning, T. Jonas, and H. Löwe, «Simulations of future snow cover and discharge in Alpine headwater catchments», Hydrol. Processes, vol. 22, pp. 95—108, 2009, doi: 10.1002/ hyp.7195.

[2] M. Lehning, H. Löwe, M. Ryser, and N. Raderschall, «Inhomogeneous precipitation distribution and snow transport in steep terrain», Water Resour. Res., vol. 44, 2008, doi: 10.1029/2007WR006545.

[3] N. Raderschall, M. Lehning, and C. Schär, «Fine scale modelling of the boundary layer wind field over steep topography», Water Resour. Res., vol. 44, 2008, doi: 10.1029/2007WR006544.

[4] N. Dawes, A. K. Kumar, S. Michel, K. Aberer, and M. Lehning, «Sensor Metadata Management and Its Application in Collaborative Environmental Research», presented at the 4th IEEE Int. Conf. e-Science, 2008.

[5] A. Kansal, S. Nath, J. Liu, and F. Zhao, «SenseWeb: An Infrastructure for Shared Sensing», IEEE MultiMedia, vol. 14, no. 4, pp. 8—13, Oct. 2007, doi: 10.1109/MMUL.2007.82.

[6] Y. Ahmad and S. Nath, «COLR-Tree: Communication Efficient Spatio-Temporal Index for a Sen- sor Data Web Portal», presented at the Int. Conf. Data Engineering, 2008, doi: 10.1.1.65.6941.

[7] A. Deshpande, S. Nath, P. B. Gibbons, and S. Seshan, «Cache-and-Query for Wide Area Sensor Databases», Proc. 22nd ACM SIGMOD Int. Conf. Management of Data Principles of Database Systems, 2003, doi: 10.1145/872757.872818.

[8] M. Lehning and C. Wilhelm, «Integral Risk Management and Physical Modelling for Mountainous Natural Hazards», in Extreme Events in Nature and Society, S. Albeverio, V. Jentsch, and H. Kantz, Eds. Springer, 2005.

Page 86: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗЕМЛЯ И ОКРУЖАЮЩАЯ СРЕДА52

[9] G. Reeves, J. Liu, S. Nath, and F. Zhao, «Managing Massive Time Series Streams with MultiScale Compressed Trickles», Proc. 35th Int. Conf. Very Large Data Bases, 2009.

[10] S. Nath, J. Liu, and F. Zhao, «Challenges in Building a Portal for Sensors World-Wide», presented at the First Workshop on World-Sensor-Web, 2006, doi: 10.1109/MPRV.2007.27.

Page 87: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

2. ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

Page 88: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 89: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

ЧЕТВЕРТАЯ ПАРАДИГМА 55

Вступление

САЙМОН МЕРСЕР (SIMON MERCER) | Microsoft Research

Во второй части этой книги исследуются результаты раз-вития и задачи самой персональной, интимной и непо-средственно влияющей на всех живущих на планете области знаний: здравоохранении и медицине.

В первой статье описывается ситуация. Гиллам (Gillam) и его соавторы рассказывают о прогрессе медицины на протя-жении всей истории человечества и о том, как будут выглядеть комплексные технологии, которые изменят лицо здравоохра-нения при нашей жизни. Остальные статьи сосредоточены на конкретных задачах медицинской науки и технологиях, кото-рые разрабатываются для их решения.

В любое утверждение о том, что грядущая революция в медицине будет универсальной, можно поверить только в том случае, если мы сможем убедительно продемонстрировать, как она сможет пересечь экономические и социальные сфе-ры современного мира. Робертсон (Robertson) и его соавторы показывают, что комбинация всемирно распространенной технологии мобильных телефонов и вычислительных техник Байесовских сетей может обеспечить сбор компьютеризиро-ванных медицинских карт в районах, где здравоохранение мало распространено, а также автоматическую выдачу точ-ных диагнозов.

Понимание человеческого мозга является одной из вели-чайших задач медицины, и Лихтман (Lichtman) и его соав-торы описывают свои методы создания огромных наборов данных, необходимых для понимания этих наиболее сложных структур. Даже визуализация мозга человека на субклеточ-ном уровне, с его расчетными 160 триллионами синаптиче-

Page 90: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ56

ских связей, является задачей, которая проверит пределы хранилищ данных и станет только первым шагом в определении функций из формы.

Методы понимания процессов нашего мышления на следующем этапе раз-вития науки представлены Горвицем (Horvitz) и Кристианом (Kristan), которые описывают техники записи последовательностей активности нейронов и их кор-реляции с поведением простейших организмов. Эта работа приведет к появле-нию новых программных инструментов, привлекающих технологии машинного обучения и искусственного интеллекта к получению новых медицинских зна-ний.

Хотя наборы данных, составляющие медицинскую карту отдельного паци-ента, на порядки меньше описывающих архитектуру мозга, текущие тенденции в направлении универсальных электронных медицинских карт означают, что большая часть населения планеты вскоре будет иметь свои медицинские карты в цифровой форме. Они образуют набор данных, который по размеру и слож-ности будет конкурировать с наборами данных неврологии. Здесь мы находим параллельные проблемы и возможности. Бучан (Buchan), Винн (Winn) и Бишоп (Bishop) к этим большим объемам медицинских данных применяют новые тех-ники машинного обучения для автоматизации выбора терапии, которая даст наиболее желательный результат. Технологии, подобные этим, потребуются нам в случае реализации мира «Сингулярности здравоохранения», где коллектив-ный медицинский опыт используется для моментального информирования о наилучших клинических практиках.

Поскольку грядущая эра компьютеризированных медицинских карт обеща-ет дать более доступные и подробные медицинские данные, для возможности использования этой информации потребуется применение стандартных форм шифрования, которые позволят делать заключения на основании различных наборов данных. Карделли (Cardelli) и Приами (Priami) смотрят в будущее, в ко-тором медицинские данные можно будет накладывать на исполняемые модели, в которых закодирована базовая логика биологических систем — не только для демонстрации поведения организма, но и для прогнозирования его будущего состояния или реакций на стимул. В случае с неврологией такие модели могут помочь в понимании процессов нашего мышления, а в случае с медицинскими картами они могут помочь понять механизмы появления заболеваний и их лече-ния. Хотя компьютерное моделирование биологических феноменов находится только на стадии зарождения, оно может дать, возможно, самые интригующие знания о возникающих комплементарных и синергических взаимосвязях между вычислительными и живыми системами.

Page 91: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

ЧЕТВЕРТАЯ ПАРАДИГМА 57

Сингулярность здравоохранения и эра

семантической медицины

Когда в 1499 г. португальский мореплаватель Васко да Гама вернулся домой после первого морского путе-шествия из Европы в Индию, у него осталось меньше половины команды — цинга забрала жизни 100 из 160

человек. В эпоху великих географических открытий1 цинга была основной причиной смерти моряков. Капитаны кора-блей во время своих походов обычно планировали смертность на уровне половины команды. Подозревали, что проблема с цингой вызвана питанием, но никто не мог этого доказать. Бо-лее чем столетием позже, в ходе путешествия из Англии в Ин-дию в 1601 г., капитан Джеймс Ланкастер на одном из своих четырех кораблей стал давать членам команды по три ложки лимонного сока каждый день. К середине плавания почти 40% команды (110 из 278) на трех кораблях умерли, а на корабле, где давали лимонный сок, выжили все [1]. Британский воен-но-морской флот отреагировал на это открытие повторением эксперимента спустя 146 лет.

В 1747 г. британский корабельный врач Джеймс Линд ле-чил моряков, страдающих цингой, при помощи шести произ-вольных методов, и продемонстрировал, что цитрусовые уби-рают все симптомы. Через 48 лет британский военно-морской флот принял новые указания по питанию с применением ци-трусовых, которые практически мгновенно истребили цингу

МИХАЭЛЬ ГИЛЛАМ (MICHAEL GILLAM), КРЕЙГ ФАЙЕД (CRAIG FEIED), ДЖОНАТАН ХАНДЛЕР (JONATHAN HANDLER), ЭЛАЙЗА МУДИ (ELIZA MOODY)Microsoft

БЕН ШНАЙДЕРМАН (BEN SHNEIDERMAN), КАТРИН ПЛЕЗАН (CATHERINE PLAISANT) Мэрилендский университет (University of Maryland)

МАРК СМИТ (MARK SMITH) Институт инноваций компании MedStar Health (MedStar Health Institutes for Innovation)

ДЖОН ДИКАСОН (JOHN DICKASON) Частная практика

16 15—17 век.

Page 92: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ58

на британском флоте. Британская торговая палата утвердила подобные правила питания для торгового флота еще через 70 лет — в 1865 г.

Общее время с момента демонстрации Ланкастером метода профилактики цинги до его утверждения по всей Британской империи составило 264 года [2].

Впоследствии темпы перехода медицинских открытий на практику заметно ускорились. Но в отчете Института медицины (Institute of Medicine) за 2003 г. обнаружено, что период между значимыми открытиями и началом их использо-вания в стандартной лечебной практике до сих пор составляет 17 лет [3, 4]. Такой долгий переход от знаний к клинической практике плохо влияет на стоимость и качество лечения пациентов. Общенациональная оценка 439 показателей каче-ства выявила, что только половина взрослых получает лечение, рекомендован-ное национальными стандартами США [5].

ВЛИЯНИЕ ИНФОРМАЦИОННОГО ВЗРЫВА В МЕДИЦИНЕ

Мы сталкиваемся с новой задачей вследствие стремительного роста открытий медицинских знаний, несмотря на существенные улучшения степени их внедре-ния. Более 18 миллионов статей уже внесены в каталоги биомедицинской ли-тературы, 800 тыс. из них появились в 2008 г. Скорость пополнения удва-ивается каждые 20 лет, и в 2012 г. коли-чество статей в год должно превысить 1 млн, как показано на рисунке 1.

Ввод всех этих новых медицин-ских знаний в практику является сложной задачей. Пятьсот лет назад Леонардо да Винчи мог быть худож-ником, инженером, музыкантом и ученым. Сто лет назад говорили, что терапевт должен знать практически все о медицине2. Сегодня обычный врач первой помощи должен знать примерно 10 тыс. заболеваний и син-дромов, 3 тыс. видов лечения и 1,1 тыс. лабораторных анализов [6]. По оценкам исследователей из библио-тек, терапевт только по одной специ-альности — эпидемиологии — дол-жен учиться 21 час в день только для того, чтобы не отставать от развития

17 www.medinfo.cam.ac.uk/miu/papers/Hanka/THIM/default.htm

Медицинские статьи, которые вносятся в каталог каждый год

Всег

о ст

атей

Год

РИСУНОК 1.

Количество биомедицинских статей, которые ежегодно вносятся в каталог, резко растет, и в 2012 г. должно превысить 1 млн.

Page 93: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 59

науки [7]. Клинические врачи постоянно отстают при столкновении с этим пото-ком медицинской информации, несмотря на свою специализацию [8].

Чувство перегруженности информацией присутствовало на удивление дав-но. Об этом говорит речь доктора Генри Нойеса (Dr. Henry Noyes) 1865 г. для Американского офтальмологического сообщества (American Ophthalmologic Society). Он говорил, что «врачи мужественно сражаются, чтобы сохранять уро-вень своих знаний при развитии мира медицины, но слишком часто они пер-выми осуждают себя за невозможность выполнения ежедневных задач...» И продолжал: «Подготовительные работы к медицинскому исследованию, при правильном его проведении, настолько огромны, что лишь немногие могут тра-тить время на их тщательное выполнение...» [9].

МОЖЕТ ЛИ ВНЕДРЕНИЕ ЗНАНИЙ В ЗДРАВООХРАНЕНИИ СТАТЬ ПРАКТИЧЕСКИ МГНОВЕННЫМ?

Скорость перехода значительных медицинских открытий в широкую практику за последние два тысячелетия постоянно увеличивалась, как показано на рисун-ке 2.

Если рассматривать последние 150 лет, когда влияние индустриализации и информационного взрыва стало особенно ощутимым, траектория немного сгла-живается, но остается преимущественно линейной, как видно по рисунку. (Под-бор асимптоты составляет r2 от 0,73, а подбор прямой — 0,83.)

Учитывая то, что даже скорость света имеет свои пределы, эта тенденция неизбежно станет асимптотической к горизонтальной оси. Если линейность в достаточной степени сохранится и далее, в следующие 20 лет возможно начало особого этапа здравоохранения, характеризующегося практически мгновенным переходом от медицинских открытий к широкой медицинской практике.

Приближение этой траектории к оси произойдет примерно в 2025 г. В ответ на огромный вычислительный прогресс, который наблюдается по закону Мура, и развитие параллельных и распределенных вычислительных архитектур, Рей Курцвайл (Ray Kurzweil) в книге «Сингулярность уже близка» предсказывает, что 2045 г. станет годом сингулярности, когда компьютеры достигнут или пре-высят вычислительные способности человека, и когда их способность к само-стоятельному улучшению может привести к «взрыву интеллекта», который в конечном счете затронет все аспекты человеческой культуры и технологии [10]. Математика определяет сингулярность как точку, где объект меняет свою при-роду и приобретает характеристики, не свойственные объекту такого класса. Се-годня пути распространения медицинской информации сложны и многогран-ны, они включают в себя рекламу, лекции, брошюры, коллег и журналы. В мире с практически мгновенным переходом знаний в практику пути распростране-ния станут практически полностью цифровыми и прямыми.

Page 94: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ60

Переход медицинских открытий в клиническуюпрактику: последние 2500 лет

Ангина

Артемизинин

Аутопсии

Карантин

Перевязки Анестезия

Цинга ПрививкаПослеродовой сепсис

Послеродовой сепсис

Хеликобактер

Лет д

о пе

рехо

да в

меди

цинс

кую

пра

ктик

уЛе

т до

пере

хода

в мед

ицин

скую

пра

ктик

у Последние 150 летЛет

Лет

ПастерРахит — солнечный свет

Антисептическаяповязка

Переливание крови

Рахит — питание Пенициллин Дородовые стероиды

Хеликобактер пилориНациональный институтмедицинской отчетности

Подробности указанного диапазона

2025год

РИСУНОК 2.

С момента появления первого отчета об ангине до его общего применения в медицине прошло 2300 лет, но современные открытия распространяются все быстрее и быстрее. Если рассма-тривать последние 150 лет, эта тенденция сохраняет свою линейность, приближаясь к оси при-мерно в 2025 г.

Page 95: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 61

Несмотря на то, что идеи о технологической сингулярности остаются проти-воречивыми3, авторы называют переломный момент, когда медицинские знания станут «текучими», и их поток из исследований в практику («от лабораторного стола до кровати») станет ровным и мгновенным, «сингулярностью здравоохра-нения».

ЧТО БУДЕТ ПОСЛЕ ДОСТИЖЕНИЯ СИНГУЛЯРНОСТИ ЗДРАВООХРАНЕНИЯ

20 мая 1999 г. Администрация США по пищевым продуктам и лекарственным веществам (U.S. Food and Drug Administration, FDA) признала лекарственный препарат Rofecoxib (Vioxx) безопасным и эффективным. 30 сентября 2004 г. ком-пания Merck отозвала его с рынка из-за подозрений о возможных побочных эф-фектах для сердечно-сосудистой системы. По оценкам FDA, за 5 лет нахождения этого препарата на рынке, rofecoxib стал причиной более 27 тыс. инфарктов или внезапных сердечных смертей и 140 тыс. случаев сердечной недостаточности [11]. Rofecoxib был одним из самых популярных лекарств, которые когда-либо отзывались; его принимали более 80 млн человек, образуя продажи на уровне 2,5 млрд долл. США в год4.

Сегодня следует ожидать, что после заявления FDA об отзыве этого препара-та с рынка пациенты будут извещены, а врачи немедленно пропишут альтерна-тивы. Но существующие каналы распространения информации задерживают такую реакцию. В мире сингулярного здравоохранения ситуация изменится. Для поддержки мгновенного перехода статьи журналов будут состоять не толь-ко из слов, но и из битов. Текст будет соединен с кодом, и статьи будут считаться полными только в том случае, если будут содержать алгоритмы.

С такой автоматизацией знаний каждый новый препарат будет проходить через каскад пострыночных исследований, которые будут независимо созда-ваться и изучаться ведущими учеными разных континентов (эффективная про-верка качества методом краудсорсинга). Подозрительные наблюдения будут отмечаться в реальном времени, небезопасные методы лечения будут общей волной удаляться из систем медицинских предписаний различных организаций и клиник. Взрыв биомедицинской информации станет, наконец, управляемым.

Другие сценарии распространения знаний также будут беспрепятственны-ми: врачи-резиденты смогут отказаться от справочников с перечнем медикамен-тов, которые они традиционно носили, и вместо них использовать клинические системы, которые персонализируют лечение с учетом региона на основании чувствительности к лекарствам, необходимая информация будет поступать в реальном времени из локальной микробиологической лаборатории и корректи-роваться в соответствии с профилем генома пациента.

18 http://en.wikipedia.org/wiki/Technological_singularity19 http://en.wikipedia.org/wiki/Rofecoxib

Page 96: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ62

Поиск знаний также будет улучшен. Практикующие врачи получат доступ к высокопроизводительным и очень точным базам данных медицинских карт пациентов, чтобы предлагать профилактическое лечение, выявлять успешные шаблоны лечения [12, 13] и снижать число медицинских ошибок. Клинические врачи смогут создавать причинно-следственные гипотезы, выполнять виртуаль-ные клинические исследования для создания персональных планов лечения и моделировать сценарии, которые смогут исключить возникновение пандемий.

Заглядывая еще дальше — мгновенный поток знаний от исследовательских центров на передовую клинического лечения ускорит лечение и профилактику новых заболеваний. В тот момент, когда исследовательские лаборатории выявят эпитопы для вспышки новых заболеваний, синтезаторы протеина, ДНК, РНК и липидов, установленные в каждом крупном госпитале мира, получат инструк-ции по локальному синтезу вакцин или даже указания по терапии антителами для быстрого применения на пациентах, дистанционно переданные из цен-трального органа.

ДВИЖЕНИЕ К СИНГУЛЯРНОСТИ ЗДРАВООХРАНЕНИЯ

Такие компании, как Microsoft и Google, сейчас создают технологии, которые обеспечат текучесть данных и знаний. Microsoft HealthVault и Google Health — это расположенные в Интернете безопасные и частные «пользовательские обла-ка данных», где данные каждого клинического пациента могут быть получены от устройств и других информационных систем. Что важно — после того, как данные поступают в такие «облака пациента», они принадлежат пациенту. Па-циенты самостоятельно определяют, какие данные могут быть доступными, и кто может иметь к ним доступ.

В исследовании KLAS за февраль 2009 г. рассматривается новый класс ре-шений, предназначенных для сбора данных для здравоохранения. Такие реше-ния для организаций («облака данных компании») унифицируют данные сотен или тысяч различных систем (таких как MEDSEEK, Carefx, dbMotion, Medicity и Microsoft Amalga)5. Эти платформы начинают использоваться как каналы дан-ных для заполнения облаков данных пациентов. Свежий пример — канал связи между больничной системой сбора данных Amalga Пресвитерианского госпи-таля (Presbyterian’s hospital) Нью-Йорка и службой HealthVault его пациентов6. Данные практически мгновенно могут поступать из госпиталя к пациентам по-средством этих каналов связи.

Возникновение пользовательских облаков данных создает новые пути, кото-рыми медицинские знания могут непосредственно поступать к пациентам.

21 апреля 2009 г. клиника Мейо (Mayo Clinic) заявила о запуске собственного сервиса Health Advisory — онлайн-приложения с повышенной приватностью

20 www.klasresearch.com/Klas/Site/News/PressReleases/2009/Aggregation.aspx21 http://chilmarkresearch.com/2009/04/06/healthvault-ny-presbyterian-closing-the-loop-on-care

Page 97: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 63

и безопасностью, которое предлагает индивидуальные указания и рекомен-дации по здоровью, основанные на клинической экспертизе клиники Мейо, с использованием конфиденциальных данных о здоровье пациента из Microsoft HealthVault7. Что важно, новые медицинские знания и рекомендации могут при помощи компьютера вводиться в это приложение и практически мгновенно применяться к пациентам во всем мире.

Новая технология соединяет исследовательские лаборатории с клинической практикой. 28 апреля 2009 г. компания Microsoft объявила о выпуске Amalga Life Sciences, расширения линейки продуктов сбора данных для ученых и исследова-телей. С этим выпуском Microsoft предлагает масштабируемые решения «сбора и текучести данных», которые соединяют три аудитории: пациентов, поставщи-ков и исследователей. Такие компании, как Microsoft, работают над тем, чтобы данные и знания проходили по семантически взаимодействующей сети пациен-тов, поставщиков и исследователей. Эти усилия по обеспечению связи помогут добиться эффективного и мгновенного распространения медицинских знаний во всей системе здравоохранения. Сингулярность здравоохранения может стать дверью в новую Эру семантической медицины.

Мгновенный переход знаний в медицину не просто желателен, но и крайне важен. Он может быть — и, возможно будет — достигнут во время нашей жизни.

ССЫЛКИ

[1] F. Mosteller, «Innovation and evaluation», Science, vol. 211, pp. 881—886, 1981, doi: 10.1126/science.6781066.

[2] J. Lind, A Treatise of the Scurvy (1753). Edinburgh: University Press, reprinted 1953.[3] E. A. Balas, «Information Systems Can Prevent Errors and Improve Quality», J. Am.

Med. Inform. Assoc., vol. 8, no. 4, pp. 398—399, 2001, PMID: 11418547.[4] A. C. Greiner and Elisa Knebel, Eds., Health Professions Education: A Bridge to

Quality. Washington, D.C.: National Academies Press, 2003.[5] E. A. McGlynn, S. M. Asch, J. Adams, J. Keesey, J. Hicks, A. DeCristofaro, et al., «The

quality of health care delivered to adults in the United States», N. Engl. J. Med., vol. 348, pp. 2635—2645, 2003, PMID: 12826639.

[6] T. H. Davenport and J. Glaser, «Just-in-time delivery comes to knowledge management», Harv. Bus. Rev., vol. 80, no. 7, pp. 107—111, 126, July 2002, doi: 10.1225/R0207H.

[7] B. S. Alper, J. A. Hand, S. G. Elliott, S. Kinkade, M. J. Hauan, D. K. Onion, and B. M. Sklar, «How much effort is needed to keep up with the literature relevant for primary care?» J. Med. Libr. Assoc., vol. 92, no. 4, pp. 429—437, Oct. 2004.

[8] C. Lenfant, «Clinical Research to Clinical Practice — Lost in Translation?» N. Engl. J. Med., vol. 349, pp. 868—874, 2003, PMID: 12944573.

[9] H. D. Noyes, Specialties in Medicine, June 1865.

22 www.microsoft.com/presspass/press/2009/apr09/04-21MSMayoConsumerSolutionPR.mspx

Page 98: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

[10] R. Kurzweil, The Singularity Is Near: When Humans Transcend Biology. New York: Penguin Group, 2005, p. 136.

[11] D. J. Graham, D. Campen, R. Hui, M. Spence, C. Cheetham, G. Levy, S. Shoor, and W. A. Ray, «Risk of acute myocardial infarction and sudden cardiac death in patients treated with cyclo-oxygenase 2 selective and non-selective non-steroidal anti-inflammatory drugs: nested case- control study», Lancet, vol. 365, no. 9458, pp. 475—481, Feb. 5—11, 2005.

[12] C. Plaisant, S. Lam, B. Shneiderman, M. S. Smith, D. Roseman, G. Marchand, M. Gillam, C. Feied, J. Handler, and H. Rappaport, «Searching Electronic Health Records for temporal patterns in patient histories: A case study with Microsoft Amalga», Proc. Am. Med. Inform. Assoc., Washington, D.C., Nov. 2008.

[13] T. Wang, C. Plaisant, A. Quinn, R. Stanchak, B. Shneiderman, and S. Murphy, «Aligning temporal data by sentinel events: Discovering patterns in electronic health records», Proc. ACM CHI2008 Human Factors in Computing Systems Conference, ACM, New York, Apr. 2008, pp. 457—466, doi: 10.1145/1357054.1357129.

Page 99: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

ЧЕТВЕРТАЯ ПАРАДИГМА 65

ДЖОЭЛ РОБЕРТСОН (JOEL ROBERTSON), ДЕЛ ДЕХАРТ (DEL DEHART) Робертсоновский исследовательский институт (Robertson Research Institute)

КРИСТИН ТОЛЛЕ (KRISTIN TOLLE) ДЭВИД ХЕКЕРМАН (DAVID HECKERMAN) Microsoft Research

Предоставление медицинских услуг

в развивающихся странах: задачи и потенциальные

решения

Даже для стран с достаточно высокоразвитой техно-логической инфраструктурой актуально развитие интеллектуальной информатики здравоохранения для решения проблемы сокращения затратности и

повышения качества здравоохранения. Большая часть медицинских знаний и информации остается в бумаж-ной форме, и даже будучи оцифрованной, эта информация зачастую попадает в различные наборы данных и хранилища в произвольных форматах. Обмен данными не распространен и часто нарушается из-за невозможности безопасной деиден-тификации для сохранения конфиденциальности пациента. Все эти проблемы мешают собирать и анализировать данные, которые могли бы улучшить прогностическую и профилак-тическую медицину.

Развивающиеся страны сталкиваются с такими же про-блемами, а кроме них — с воздействием экономических и геополитических ограничений, транспортными и географи-ческими барьерами, недостатком кадров и инфраструктуры. Простые и очень действенные меры, такие как универсальные прививки для детей и материнский уход за детьми, затрудня-ются слабыми системами мониторинга и отчетности. В недав-ней статье журнала Lancet, написанной группой Кристофера Мюррея (Christopher Murray), говорится о том, что «охват

Page 100: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ66

вакцинации прогрессирует медленно и не до того уровня, который ожидался по официальным оценкам ВОЗ и ЮНИСЕФ. Существует острая необходимость в неза-висимом и контролируемом мониторин-ге показателей здоровья в эру глобальных инициатив, с целевой направленностью и финансированием в соответствии с про-изводительностью» [1].

Кроме того, в последнем отчете ООН по Целям развития тысячелетия (Millennium Development Goals) отме-чается, что «пневмония убивает больше детей, чем любое другое заболевание, и при этом в развивающихся странах доля детей в возрасте до 5 лет с подозрением на пневмонию, которые поступают на лечение, сохраняется очень низкой» [2]. Предоставление в необходимых местах

надежной поддержки сбора данных и принятия решений по диагностике от са-мых квалифицированных из доступных специалистов — это цель общественных усилий в здравоохранении, но инструменты для ее реализации были дорогосто-ящими, недоступными и не имели поддержки.

Ниже мы сосредоточимся на задачах предоставления медицинских услуг в развивающихся странах и опишем созданную нами для их решения технологию, которая опирается на компьютеры и мобильные телефоны. В центре этой техно-логии находится NxOpinion Knowledge Manager1 (NxKM), которая разрабатыва-лась Робертсоновским исследовательским институтом с 2002 г. Эта медицинская платформа включает в себя медицинские знания, собранные большой командой экспертов в США и развивающихся странах, диагностический механизм на ос-нове Байесовских сетей и мобильные телефоны для взаимодействия с конечным пользователем.

ИЗМЕНЕНИЕ МАСШТАБА И ПРИБЛИЖЕНИЕ

Ограничения масштабирования являются одним из крупнейших барьеров для развертывания систем поддержки принятия решений и электронных медицин-ских карт. Термин «увеличение масштаба» относится к возможности системы поддерживать крупные базы данных — охватывающие сотни тысяч или мил-лионы людей. «Уменьшение масштаба» относится к возможности системы рабо-тать в нескольких странах и регионах, а также с ограниченным набором заболе-

Индийские врачи используют медицин-скую платформу NxOpinion.

1 www.nxopinion.com/product/knowledgemng

Page 101: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 67

ваний. Многие системы работают только с одним заболеванием и не очень легко подстраиваются под регион — например, местный язык, положения и процессы. «Приближение» относится к возможности системы собирать информацию и со-поставлять ее для одного конкретного человека.

В большинстве систем рассматривается обобщенный пациент, они не улав-ливают уникальных характеристик, которые могут быть эффективными для индивидуального лечения.

На предмет увеличения масштаба система NxKM тестировалась в Индии, Конго, Доминиканской республике, Гане и Ираке. Она также тестировалась в бедных районах с низким уровнем медицинского обслуживания в США. При консультации с экспертами по масштабированию баз данных архитектура была рассчитана на объединение множества индивидуальных баз данных с деиденти-фицированной центральной базой данных, что в принципе дает неограничен-ные варианты масштабирования.

Для уменьшения масштаба для работы с различными типами заболеваний и его увеличения для предоставления точных индивидуальных диагнозов требу-ется огромное количество знаний. Например, INTERNIST-1, экспертная система диагноза во внутренней медицине, содержит около 250 тыс. связей с примерно 600 заболеваниями и 4 тыс. результатов [3]. Мы собрали вместе медицинскую ли-тературу, информацию справочников и рекомендации экспертов для создания растущей базы данных для NxKM, которая на сегодня насчитывает более 1 тыс. заболеваний и более 6 тыс. результатов, основываясь на ранних работах одного из нас (Хекермана), который разработал эффективные методы оценки и пред-ставления экспертных медицинских знаний посредством Байесовской сети [4]. Система также может «приближаться», обеспечивая очень подробный сбор дан-ных. Каждый результат в отдельной медицинской карте или в отдельном случае диагностики может отслеживаться. Такой уровень подробности обеспечивает уникальную гибкость в определении факторов, относящихся к результатам и точности диагностики.

С точки зрения масштабирования на регион, существующие в развивающих-ся странах задачи крайне разнообразны и зависят от специфических для региона условий медицины. Например, заболевание, которое часто встречается в одном регионе, может практически не встречаться в другом. В то время как основан-ные на правилах экспертные системы требуют полного перепроектирования для каждого региона, основанная на сетях вероятностного подобия [4] модуль-ная природа базы знаний NxKM дает возможность быстрой настройки под каж-дый регион. В текущей версии NxKM используются региональные приоритеты, основанные на оценках экспертов. Она также может обновлять приоритеты для каждого региона по мере практического использования. NxKM также содержит модульную систему, которая упрощает настройку к терминам, видам лечения и языкам, привычным для каждого региона. Если информация для конкретного региона неизвестна или недоступна, до момента сбора или определения таких данных используется стандартный модуль.

Page 102: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ68

ТОЧНОСТЬ И ЭФФЕКТИВНОСТЬ ДИАГНОСТИКИ

Исследования показывают, что даже высококвалифицированные терапевты переоценивают точность своей диагностики. По недавним оценкам Института медицины, от 44 тыс. до 98 тыс. смертей, которых можно было избежать, про-изошли по вине врачебных ошибок, большая часть которых заключалась в не-правильно поставленном диагнозе [5]. В развивающихся странах совокупность проблем неправильных диагнозов и недостатка данных не только снижают каче-ство медицинского обслуживания, но и приводят к недостаточному выявлению заболеваний и неправильным оценкам и планированию здоровья населения.

И опять, основываясь на диагностической методологии сетей вероятност-ного подобия [4], для выдачи точных диагнозов NxKM использует Байесовский механизм оценки. Важным компонентом этой системы, дающим повышенную точность, является возможность задавать пользователю дополнительные вопро-сы для сужения круга возможных диагнозов. NxKM может запрашивать у поль-зователя дополнительные данные на основании расчета ценности информации (например, функции затрат) [4]. Также для клинического использования важна возможность определения степени уверенности в диагнозе (то есть вероятности наиболее подходящего диагноза). Такое определение особенно полезно для ме-нее опытных пользователей системы, что важно для лечения больных в развива-ющихся регионах, где глубокие медицинские знания встречаются редко.

ПОСЛЕДНЯЯ МИЛЯ

Другой ключевой задачей является выполнение диагностики там, где она боль-ше всего необходима. Мобильные телефоны — это естественный выбор ввиду их распространенности в развивающихся странах. На самом деле, во множестве таких регионов доступ к мобильной связи намного выше, чем к чистой воде. На-пример, согласно рыночной базе данных Wireless Intelligence2, 80% населения земли в 2008 г. находились в зоне покрытия сети мобильной связи. И показате-ли Международного союза телекоммуникаций (International Telecommunication Union)3 говорят о том, что к концу 2006 г. 68% мировых подписок на услуги мо-бильной связи были в развивающихся странах. Более свежие данные Между-народного союза телекоммуникаций показывают, что в период с 2002 по 2007 г. подписки на услуги мобильной связи были самой быстрорастущей сферой телекоммуникаций в мире, и рост на душу населения был самым быстрым в развивающемся мире4. Поэтому мы разработали систему, в которой мобильные телефоны используются для доступа к центральной базе знаний NxKM и диа-гностическому механизму, установленному на ПК. Сейчас мы проводим тести-

2 www.wirelessintelligence.com3 www.itu.int4 www.itu.int/ITU-D/ict/papers/2009/7.1%20teltscher_IDI%20India%202009.pdf

Page 103: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 69

рование этой системы с врачами в сельских районах Индии. Кроме предоставле-ния рекомендаций по лечению для врачей решение с телефоном и центральным ПК может использоваться для создания портативных личных медицинских карт.

Одна из наших партнерских организаций, Программа ежегодного отчета о здоровье школьников (School Health Annual Report Programme, SHARP), бу-дет использовать эту систему для наблюдения за более чем 10 млн индийских школьников в 2009 г., создавая уникальную виртуальную медицинскую карту для каждого ребенка.

Другим преимуществом этого метода является то, что данные, собранные этой системой, могут использоваться для улучшения базы знаний NxKM. На-пример, как говорилось выше, информация о преобладании специфических заболеваний региона важна для точной медицинской диагностики. Особенно важна своевременная информация о вспышках заболеваний в конкретном ре-гионе. При использовании клинического приложения подтвержденные случаи заболевания, включая относящиеся к новой вспышке, немедленно поступают в NxKM. Кроме того, можно централизованно контролировать индивидуальные диагнозы. Если загруженные результаты отдельного пациента будут признаны неточными, пациент может быть идентифицирован для дальнейшего контроля.

ИНТЕРФЕЙС ПОЛЬЗОВАТЕЛЯ

Проблема мобильной технологии — очень ограниченный интерфейс пользова-теля и сложность ввода данных при помощи относительно маленького экрана и клавиатуры. Наша система упрощает этот процесс несколькими способами. Во-первых, в системе предварительно заполняются общие результаты для от-дельного местоположения (например, факты о конкретной деревне). Также, как говорилось выше, система может выдавать вопросы — с несколькими вари-антами ответа — после ввода только базовой информации, такой как основная жалоба больного. Кроме того, вопросы могут подстраиваться под организацию, местоположение или уровень знаний врача.

Так как пользователи часто меняют телефоны, важно, чтобы интерфейс пользователя был независимым от оборудования. Наше приложение интерфей-са установлено на платформе среднего уровня, которую мы внедрили для мно-жества устройств.

Кроме простого ввода, интерфейс обеспечивает простой доступ к важной информации. Например, он предоставляет ежедневную сводку по пациентам, требующим внимания, включая их диагноз, адрес в деревне и предыдущих вра-чей, к которым они обращались.

РЕШЕНИЯ ДЛЯ ОБМЕНА ДАННЫМИ

Даже вне унаследованных хранилищ данных (таких как EPIC и CERNER [5]) все еще сохраняются препятствия для обмена важными медицинскими данными — включая вопросы конфиденциальности и независимости. Доступность данных

Page 104: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ70

Инновационный метод NxOpinion при помощи искусственного интеллекта показывает данные, когда вы хотите их видеть, в удобной для вас форме и на нужном устройстве.

Page 105: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 71

может ограничиваться регионально (например, в Индии и ЮАР), организаци-ями (например, Всемирной организацией здравоохранения, World Vision или фармацевтическими компаниями) или поставщиками (например, страховыми компаниями и группами поставщиков медицинских услуг).

Каждый из этих наборов данных содержит огромную ценность для обще-ственного здоровья, и следует предпринять усилия для преодоления барьеров сбора данных в общие и деидентифицированные глобальные наборы. Такие пу-бличные наборы данных, являясь ценными самими по себе, также добавляют ощутимую ценность для собственных наборов данных, предоставляя ценный общий контекст.

NxKM импортирует, управляет и экспортирует данные через публичные наборы. Эти процессы позволяют различным заинтересованным группам (пра-вительствам, организациям здравоохранения, поставщикам услуг первичной медицинской помощи, небольшим больницам, лабораториям, поставщикам специальных услуг и страховщикам) использовать общую интерактивную де-идентифицированную (сохраняющую конфиденциальность) базу данных, при этом сохраняя контроль над собственными и защищенными данными.

ВЗГЛЯД В БУДУЩЕЕ

Но некоторые задачи еще не решены. Хотя врачи с полным медицинским об-разованием сразу могут использовать такие инструменты наборов данных и поддержки диагностики, другие врачи, такие как Аккредитованные активисты общественного здоровья (Accredited Social Health Activists, ASHA) и другие сель-ские работники зачастую неграмотны или общаются только на местном диалек-те. Мы исследуем два потенциальных решения — первое использует технологию распознавания речи, а второе позволяет отвечать пользователям на вопросы с вариантами ответов при помощи цифровой клавиатуры телефона. Распознава-ние речи дает дополнительную гибкость ввода, но — по крайней мере, сейчас — для него требуется обучение под каждого конкретного пользователя.

Другой задачей является уникальная и повторяемая идентификация пациен-та — проверка того, что личность человека, получающего лечение, определена правильно — притом, что в большинстве регионов с недостатками медицинско-го обслуживания стандартной системы идентификации не существует. Распоз-навание речи в комбинации с распознаванием лица и новыми методами био-метрики, вместе с подтверждением местоположения при помощи GPS, может помочь подтвердить, что лечение получает именно тот пациент, которому оно требуется.

Другое препятствие — целостность данных. Например, большинство сель-ских жителей заявляют о диагнозах, не подтвержденных квалифицированным медицинским персоналом, которые могут быть ошибочными. Мы старались устранить эту проблему за счет использования механизма логического вывода, который позволяет понижать размерность неподтвержденных сведений.

Page 106: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ72

Развертывание систем, способных работать в любой точке мира, может при-вести к созданию большого количества информации о пациентах. Хранение, со-вмещение и затем доступ к этой информации на местах, при сохранении ее кон-фиденциальности и безопасности, является исключительно трудной задачей, когда количество пациентов исчисляется миллионами (а не десятками тысяч, как в большинстве существующих систем медицинской информации). Кроме того, остается сложной задачей ввод проверенных данных такого масштаба об-ратно в систему для улучшения возможности прогноза с сохранением возмож-ности анализа получением отдельных сегментов (поиск информации).

И последним, возможно, самым большим препятствием является отсут-ствие взаимодействия. Если организации, правительства и компании захотят использовать общую деидентифицированную глобальную базу данных, при этом защищая и сохраняя права на собственную базу данных, медицина и здра-воохранение останутся в выигрыше. Унифицированная база данных, дающая возможность интеграции среди различных систем мониторинга и оценки и баз данных, должна помочь в быстром и эффективном определении устойчивости к лекарствам, в предупреждении вспышек заболеваний, а также в мониторинге эффективности лечения и медицинского вмешательства. Глобальная база дан-ных должна поддерживать запросы, которые защищают от идентификации лю-дей и при этом предоставляют достаточно информации для анализа и проверки. Такие технологии уже появляются (например, [6]), но сохраняется сложность за-дачи поиска системы поощрения для такого сотрудничества.

РЕЗЮМЕ

Мы разработали и начинаем внедрять систему сбора, анализа и передачи меди-цинских знаний и данных в развивающихся странах. Эта система имеет сервер, на котором содержатся медицинские знания и данные, с возможностью диа-гностики в реальном времени, и клиентскую часть на мобильном телефоне для медицинских работников на местах. Мы уверены, что такая система улучшит медицинские услуги в развивающихся странах за счет более качественных диа-гнозов, наборов более точных и своевременных данных по множеству людей, и улучшенного распространения точных и своевременных медицинских знаний и информации.

Если мы задумаемся о том, как мир объединенных медицинских карт может быть использован для улучшения медицины, мы увидим, что потенциальное влияние очень велико. Зная практически каждого человека, его заболевания и местоположение, при улучшении целостности данных и сбора данных в цен-тральное хранилище мы сможем совершить революцию в медицине, а может быть, и истребить большую часть болезней. Такая глобальная система может от-слеживать влияние различных гуманитарных усилий и тем самым приспосабли-вать их, курсы лечения и ресурсы для конкретных регионов. Мы надеемся, что система, которая сможет ставить высококачественные диагнозы, а также соби-

Page 107: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 73

рать и быстро распространять подтвержденные данные, сможет спасти миллио-ны жизней. Ответы на запросы могут стать практически мгновенными, и, таким образом, привести к определению устойчивости к лекарствам, возникновения заболеваний и эффективного лечения всего лишь за доли того времени, которое эти процессы занимают сейчас. Потенциал усиления медицинских работников в развивающихся странах при помощи глобальной системы диагностики и баз данных — просто грандиозный.

ССЫЛКИ

[1] S. S. Lim, D. B. Stein, A. Charrow, and C. J. L. Murray, «Tracking progress towards universal childhood immunisation and the impact of global initiatives: a systematic analysis of three-dose diphtheria, tetanus, and pertussis immunisation coverage», Lancet, vol. 372, pp. 2031—2046, 2008, doi: 10.1016/S0140-6736(08)61869-3.

[2] The Millennium Development Goals Report. United Nations, 2008.[3] R. A. Miller, M. A. McNeil, S. M. Challinor, F. E. Masarie, Jr., and J. D. Myers, «The

Internist-1/ Quick Medical Reference Project—Status Report», West. J. Med. vol. 145, pp. 816—822, 1986.

[4] D. Heckerman. Probabilistic Similarity Networks. Cambridge, MA: MIT Press, 1991.[5] L. Kohn, J. Corrigan, and M. Donaldson, Eds. To Err Is Human: Building a Safer

Health System. Washington, D.C.: National Academies Press, 2000.[6] C. Dwork and K. Nissim, «Privacy-Preserving Datamining on Vertically Partitioned

Databases», Proc. CRYPTO, 2004, doi: 10.1.1.86.8559.

Page 108: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 109: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

ЧЕТВЕРТАЯ ПАРАДИГМА 75

ДЖЕФФ В. ЛИХТМАН (JEFF W. LICHTMAN) Р. КЛЕЙ РЕЙД (R. CLAY REID) ГАНС ПЕТЕР ФИСТЕР (HANS PETER PFISTER) Гарвардский университет (Harvard University)

МАЙКЛ Ф. КОЭН (MICHAEL F. COHEN) Microsoft Research

Изучение принципиальной схемы мозга

Центр наших когнитивных способностей — мозг — возможно, самая сложная загадка всей биологии. Каждую секунду в человеческом мозгу миллиарды корковых нервных клеток передают миллиарды

сообщений и выполняют сверхсложные расчеты. Как работает мозг — как его функции следуют за его структу-рой — остается тайной.

Огромное количество нервных клеток мозга соединены синапсами в цепи неимоверной сложности. В общем пред-полагается, что специфика этих соединений является осно-вой нашей возможности воспринимать и классифицировать объекты, нашего поведения, как приобретенного (например, игра на пианино), так и врожденного (например, ходьба), и памяти — не считая управления низкоуровневыми функци-ями, такими как сохранение позы и даже дыхание. На самом высоком уровне наши эмоции, наше самоощущение, само наше сознание полностью являются результатом действия на-шей нервной системы.

На макроуровне человеческий мозг состоит из участков, которые приблизительно можно связать с определенными видами деятельности. Но на самом деле в выполнении одной задачи часто используется несколько частей мозга. Эта слож-ность возникает в первую очередь из-за того, что большинство действий начинается с сигнала органов чувств, после которо-го происходит анализ, принятие решения и, в конце концов, само действие или моторика.

На микроскопическом уровне мозг состоит из миллиар-дов нейронов, каждый из которых соединен с другими ней-ронами несколькими тысячами синаптических связей. У нас нет подробной принципиальной схемы мозга человека или

Page 110: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ76

любого другого млекопитающего, хотя о существовании таких синаптических цепей знали более века назад. На самом деле составить карту нервных контуров пытались всего лишь раз, и это было двадцать лет назад с маленьким червем, ко-торый имеет всего 300 нервных клеток. Основным камнем преткновения являет-ся огромная техническая сложность, связанная с составлением подобной карты. Но недавние технологические прорывы в визуализации, компьютерных науках и молекулярной биологии позволяют снова заняться этой проблемой. Однако даже при наличии принципиальной схемы нам нужно знать, какие сообщения проходят по нейронам этой цепи — подобно тому, как прослушиваются сигналы в компьютерном чипе. Это является вторым барьером для понимания: традици-онные методы физиологии позволяют нам прослушивать только очень малую часть нервов этой цепи.

Чтобы понять масштабы проблемы, представьте себе кору головного мозга человека, которая содержит более 160 триллионов синаптических связей. Эти соединения проходят от миллиардов нейронов. Каждый нейрон имеет синапти-ческие связи с сотнями или даже тысячами различных нейронов, и каждый от-правляет информацию по синапсам к аналогичному числу целевых нейронов. Такой огромный коэффициент объединения по входу и выходу может возникать потому, что каждый нейрон имеет сложное геометрическое строение со множе-ством процессов приема (дендриты) и одним очень разветвленным исходящим процессом (аксон), который может простираться на достаточно большие рассто-яния.

Можно надеяться на возможность обратного проектирования цепей голов-ного мозга. Другими словами, если мы научимся прикасаться только к отдель-ным нейронам и видеть их связи и прочность таких связей, мы сможем как мини-мум начать получать инструменты для расшифровки функций отдельной цепи. Огромное количество и сложные формы клеток являются не единственным аспектом этой проблемы. Цепи, соединяющие нервные клетки, имеют наномас-штаб. Плотность синапсов в коре головного мозга составляет около 300 млн на кубический миллиметр.

Функциональная магнитно-резонансная томография (фМРТ) предоставля-ет возможность краткого обзора работы мозга в макроскопическом объемном виде. Но самое высокое разрешение фМРТ составляет около 1 мм3 на воксел — в этом кубическом миллиметре может содержаться 300 млн синапсов. Таким об-разом, даже в самых подробных функциональных изображениях человеческо-го мозга содержится огромное количество цепей. Кроме того, размер этих си-напсов слишком мал для ограниченных дифракцией разрешения стандартных технологий оптического получения изображений.

Составление карты цепей потенциально может подвергаться анализу при помощи цветовой кодировки нейронных процессов [1] и использования техник, не ограниченных дифракцией [2]. В настоящее время золотым стандартом для анализа синаптических связей является использование электронной микроско-пии (ЭМ), нанометрического (нм) разрешения которой более чем достаточно

Page 111: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 77

для выявления мельчайших деталей соединений нервных клеток. Но для со-ставления карты цепей необходимо преодолеть технический барьер: ЭМ обыч-но отображает очень тонкие участки (толщиной в десятые нанометра), поэтому для реконструкции объема требуется «последовательная реконструкция», где информация изображения из смежных сечений одного объема реконструиру-ется в объемный набор данных. Существует несколько методов получения таких объемных данных (см., например, [3-5]), но все они имеют потенциал создания очень объемных библиотек данных цифровых изображений, как описано далее.

НЕКОТОРЫЕ ЦИФРЫ

Для того, чтобы реконструировать при помощи ЭМ все синаптические цепи в 1 кубическом миллиметре мозга (объем, который мог бы поместиться на острие иглы), потребуется набор последовательных изображений на миллиметр в глу-бину. Для получения всех ветвлений аксонов и дендритов потребуется секцио-нирование на уровне, возможно, не более 30 нм. Таким образом, для глубины в 1 мм потребуется 33 тыс. изображений. Чтобы рассмотреть все типы везикул (источник нейротрансмиттеров) и синапсов, каждое изображение должно иметь поперечное разрешение не менее 10 нм. Изображение одного миллиметра ква-дратного с разрешением 5 нм — это изображение с ~4 x1010 пикселями или 10 - 20 гигапикселями. Таким образом, данные изображения в 1 кубическом миллиме-тре будут находиться в пределах 1 петабайта 1 (250 ~ 1 000 000 000 000 000 байт). Человеческий мозг содержит около 1 млн. мм3 нервной ткани.

СЕГОДНЯШНИЕ УСПЕХИ

При такой пугающей задаче хочется опустить руки и найти более простую про-блему. Однако новые технологии и техники дают проблеск надежды. Мы ис-пользуем их с конечной целью создания полной принципиальной схемы мозга. Для этой цели потребуется интенсивное и масштабное сотрудничество биоло-гов, инженеров и компьютерных ученых.

Три года назад лаборатории Рейда (Reid) и Лихтмана (Lichtman) начали работать над методами автоматизации и ускорения крупномасштабных после-довательных сечений ЭМ. Фокусируясь конкретно на крупных объемах коры головного мозга в высоком разрешении, группа Рейда сконцентрировалась на высокой производительности и процессах с высокой степенью автоматизации. Пока их работа была опубликована только в абстрактной форме [3], но они уве-рены, что в ближайшем времени получат первые 10 терабайт объемных данных по анатомии мозга в большом разрешении. Физиологические эксперименты те-перь могут показать функцию практически каждого нейрона в кубе размером 300 мкм. Новые данные ЭМ обладают разрешением, способным показать прак-тически каждый аксон, дендрит и синапс — физические связи, обеспечивающие функцию нейронов.

Page 112: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ78

Разделение и отслеживание отдельных нейронов в общем объеме остается ак-туальной проблемой. Однако определенные успехи достигнуты при помощи эк-зотических средств. Лаборатория Лихтмана нашла метод выражения различных комбинаций красного, зеленого и синего флуоресцентного протеина в создан-ной генной инженерией мыши. Эти случайные комбинации сейчас предоставля-ют около 90 цветов или их комбинаций [1]. При помощи этого метода можно от-слеживать отдельные нейроны с их разветвлением к возможным синаптическим связям с другими нейронами или конечным органам в мускулах. Маркирован-ные различными цветами нервы (процесс «мозговой дуги» (brainbow)), показан-ные на рисунке 1, похожи на разноцветные провода в компьютере и служат для той же цели: маркировка проводов, идущих на большие расстояния.

Так как эти цветные метки присутствуют в живой мыши, можно отслеживать изменения синаптических связей, наблюдая одни и те же участки несколько раз в течение минут, дней или даже месяцев.

Лаборатория Рейда смогла разметить нейроны зрительной коры крысы и кошки таким образом, что они «загораются» при активации. Стимулируя кошку линиями различной ориентации, они буквально могут видеть, какие нейроны включаются, в зависимости от конкретных визуальных стимулов. Сравнивая ор-ганизацию зрительной коры у крысы и у кошки, они обнаружили, что в то время как нейроны крысы кажутся случайно организованными на основании визуаль-ных стимулов, нейроны кошки имеют различимую структуру (см. рис. 2).

Для достижения максимального разрешения при помощи ЭМ требуется со-здание изображений очень тонких срезов нервной ткани.

Один метод начинается с блока ткани; после каждого прохода создания изображения из блока удаляется тонкий срез, после чего процесс повторяется. Исследователи группы Лихтмана в Гарварде разработали новое устройство —

РИСУНОК 1.

Изображения «мозговой дуги» с различными нейронами, флуоресцирующими разными цветами. Наблюдая за нейронами в группах срезов, мы можем отслеживать сложную структуру ветвле-ния каждого нейрона для создания древовидных структур на рисунке справа.

Page 113: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 79

подобие высокотехнологичного токарного станка, который они называют Авто-матическим лентосборочным токарным станком-ультрамикротомом (Automatic Tape-Collecting Lathe Ultramicrotome, ATLUM), способного обеспечивать эффек-тивное создание изображений в наномасштабе на больших объемах ткани. (См. рис. 3 на следующей странице).

ATLUM [3] автоматически разделяет установленный блок мозговой ткани на тысячи сверхтонких сечений и собирает их на длинной покрытой углеродом ленте для последующей маркировки и построения изображений в сканирую-щем электронном микроскопе (СЭМ). Так как процесс полностью автомати-зирован, объемы размером в десятки кубических миллиметров — достаточно большие для охвата целых нейронных цепей нескольких участков — могут быть быстро и точно сокращены до ленты со сверхтонкими сечениями. Изображения СЭМ таких полученных на ATLUM сечений могут иметь поперечные разреше-ния в 5 нм и выше — что достаточно для построения изображений отдельных синаптических везикул, а также определения и отслеживания всех связей в цепи.

РИСУНОК 2.

Нейроны зрительной коры отмечены на живом организме при помощи чувствительного к кальцию красителя. Слева: Трехмерная реконструкция тысяч нейронов зрительной коры кры-сы, полученная из группы изображений (300 мкм сбоку). Нейроны имеют цветовую кодировку в соответствии с ориентацией зрительного стимула, который их возбудил в большей степени. Посередине: Двухмерное изображение плоскости сечения изображения слева. Нейроны, отреаги-ровавшие на различную ориентацию стимула (разные цвета) кажутся произвольно расположен-ными в коре. Вставка: Цветовая кодировка ориентации стимула. Справа: Для сравнения — зри-тельная кора кошки крайне упорядочена. Нейроны, отреагировавшие на различные ориентации стимула, разделены с удивительной точностью. Это изображение представляет собой полную трехмерную функциональную карту более чем 1000 нейронов в объеме зрительной коры разме-ром 300x300x200 мкм [6, 7].

Page 114: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ80

Тонкие срезы — это изображения одного небольшого участка за один раз. После получения серии отдельных изображений, они должны быть сшиты в очень крупные изображения, и по возможности собраны в объеме.

В Microsoft Research продолжаются работы по сшиванию и последующему интерактивному просмотру изображений с миллиардами пикселей1.

После организации таких гигапиксельных изображений в иерархическую пирамиду приложение HD View может передавать запрошенные изображения через Интернет для просмотра2. Это дает возможность исследования деталей в большом и малом масштабах. На рис. 4 показан анализ результата.

После получения и сшивания изображений множественные срезы образца необходимо собрать для получения согласованного объема. Возможно, самой сложной задачей на этом этапе является извлечение отдельных ветвей нейронов. В Гарварде ведутся работы по предоставлению интерактивных инструментов для выделения отдельных «процессов» с последующим их отслеживанием меж-ду срезами для выявления каждого дендрического или аксонового волокна [8, 9] (см. рис. 5). Синаптические связи находить автоматически еще сложнее; однако

Нож движется вперед

Эта лента ткани собирается погру-женным ленточным конвейером

Образец вращается

Эти синхронизированные движения дают спиральный рез в блоке ткани, обеспечивая постоянную ленту ткани в водяной емкости ножа

Уровень воды ножа регулируется этой впускной трубкой

РИСУНОК 3.

Автоматический лентосборочный токарный станок-ультрамикротом (ATLUM), обеспечива-ющий эффективное создание изображений в наномасштабе для крупных объемов ткани.

1 http://research.microsoft.com/en-us/um/redmond/groups/ivm/ICE2 http://research.microsoft.com/en-us/um/redmond/groups/ivm/HDView

Page 115: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 81

РИСУНОК 5.

NeuroTrace позволяет неврологам интерактивно исследовать и разделять нервные процессы в данных ЭМ с высоким разрешением.

РИСУНОК 4.

HD View позволяет интерактивно исследовать это 2,5-гигапик-сельное изображение. Слева: Срез нервной ткани. Большое серое образование по центру — это ядро нейрона. Посередине: При-ближенный капиллярный и миелинизированный аксон Справа: Приближенные миелиновые слои, окружающие поперечное сечение аксона. Снизу: Увеличенное изображение тонких везикул, окружа-ющих синаптическую связь между очень мелкими структурами.

Page 116: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ82

развитие интерфейсов пользователя и компьютерного зрения дают надежду на то, что весь процесс может стать управляемым.

Расшифровка полной принципиальной схемы человеческого мозга представ-ляет собой одну из величайших задач 21 века. Продвижения на биологическом и техническом уровне определенно приведут к новым успехам и открытиям и скорее всего они помогут ответить на фундаментальные вопросы о том, как наш мозг мечтает или думает.

ССЫЛКИ

[1] J. Livet, T. A. Weissman, H. Kang, R. W. Draft, J. Lu, R. A. Bennis, J. R. Sanes, and J. W. Lichtman, «Transgenic strategies for combinatorial expression of fluorescent proteins in the nervous system» Nature, vol. 450, pp. 56–62, 2007, doi: 10.1038/nature06293.

[2] S. Hell, «Microscopy and its focal switch» Nature Methods, vol. 6, pp. 24–32, 2009, doi: 10.1038/ NMeth.1291.

[3] D. Bock, W. C. Lee, A. Kerlin, M. L. Andermann, E. Soucy, S. Yurgenson, and R. C. Reid, «High- throughput serial section electron microscopy in mouse primary visual cortex following in vivo two-photon calcium imaging» Soc. Neurosci. Abstr., vol. 769, no. 12, 2008.

[4] W. Denk and H. Horstmann, «Serial block-face scanning electron microscopy to reconstruct three-dimensional tissue nanostructure» PLoS Biol., vol. 2, p. e329, 2004, doi: 10.1017/ S1431927606066268.

[5] K. J. Hayworth, N. Kasthuri, R. Schalek, and J. W. Lichtman, «Automating the Collection of Ultrathin Serial Sections for Large Volume TEM Reconstructions» Microsc. Microanal., vol. 12, pp. 86–87, 2006.

[6] K. Ohki, S. Chung, Y. H. Ch’ng, P. Kara, and R. C. Reid, «Functional imaging with cellular resolution reveals precise microarchitecture in visual cortex» Nature, vol. 433, pp. 597–603, 2005, doi:10.1038/nature03274.

[7] K. Ohki, S. Chung, P. Kara, M. Hübener, T. Bonhoeffer, and R. C. Reid, «Highly ordered arrangement of single neurons in orientation pinwheels» Nature, vol. 442, pp. 925–928, 2006, doi:10.1038/nature05019.

[8] W. Jeong, J. Beyer, M. Hadwiger, A. Vazquez, H. Pfister, and R. Whitaker, «Scalable and Interactive Segmentation and Visualization of Neural Processes in EM Datasets» IEEE Trans. Visual. Comput. Graphics, Oct. 2009.

[9] A. Vazquez, E. Miller, and H. Pfister, «Multiphase Geometric Couplings for the Segmentation of Neural Processes» Proceedings of the IEEE Conference on Computer Vision Pattern Recognition (CVPR), June 2009.

Page 117: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

ЧЕТВЕРТАЯ ПАРАДИГМА 83

На пути к компьютерному микроскопу

для нейробиологии

Хотя нейробиология развивается большими шагами, мы до сих пор не понимаем, как симфония связей между нейронами приводит к богатому и осознан-ному поведению животных. Как местные взаимо-

действия между нейронами сливаются в поведенческую ди-намику нервных систем, давая животным их впечатляющие возможности чувствовать, учиться, принимать решения и действовать в окружающем мире? Множество подробностей остается под покровом тайны. Новые знания появятся благо-даря применению вычислительных методов, в особенности машинного обучения и процедур логического вывода, для создания объяснительных моделей из данных о действиях по-пуляций нейронов.

НОВЫЕ ИНСТРУМЕНТЫ ДЛЯ НЕЙРОБИОЛОГОВ

Большую часть истории электрофизиологии, нейробиоло-ги отслеживали свойства мембран нейронов позвоночных и беспозвоночных животных при помощи стеклянных микро-пипеток, заполненных проводящим раствором. Овладевая техниками, которые могли бы впечатлить даже лучших ча-совщиков, нейробиологи изготовили стеклянные электроды с наконечниками диаметром зачастую меньше микрона, и использовали специальные машины для проведения наконеч-ников в тело клетки отдельных нейронов — надеясь, что ней-роны будут работать так же как и в более крупных группах. Этот метод предоставил данные о напряжениях мембраны и потенциале действий отдельной или нескольких клеток.

ЭРИК ГОРВИЦ (ERIC HORVITZ) Microsoft Research

УИЛЬЯМ КРИСТЕН (WILLIAM KRISTAN) Калифорнийский университет, Сан-Диего (University of California, San Diego)

Page 118: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ84

Однако взаимосвязь между нейробиологами и данными о нервных системах изменяется. Новые регистраторы предоставляют данные по действию больших популяций нейронов. Такие данные делают процедуры вычислений все более важными, вместе с экспериментальными инструментами для нового понимания взаимосвязей, архитектуры и общего комплекса нервных систем.

Новые возможности для экспериментов и моделирования в более крупном масштабе стали доступными с приходом быстрых методов оптического постро-ения изображений. В этом методе для отслеживания уровней кальция и потен-циалов мембраны нейронов используются красители и фотоувеличители с вы-соким пространственным и временным разрешением. Такие оптические записи с высокой степенью достоверности позволяют нейробиологам исследовать одно-временную деятельность популяций от десятков до тысяч нейронов. В относи-тельно короткое время доступные данные об активности нейронов выросли из тонкой струйки информации, собранной путем отбора небольшого количества нейронов, в крупномасштабные наблюдения нейронной активности.

Пространственно-временные наборы данных по поведению популяций ней-ронов создают привлекательные дедуктивные задачи и возможности. Следую-щая волна открытий о нейрофизиологической основе когнитивных способно-стей, возможно, придет через применение новых типов вычислительных линз, направляющих информационно-теоретическую «оптику» в потоки данных о пространственно-временных популяциях.

Мы полагаем, что нейробиологи, изучающие популяции нейронов, со вре-менем начнут пользоваться инструментами, которые служат в качестве вычис-лительных микроскопов — систем, объединяющих машинное обучение, оценку и визуализацию для помощи ученым в формулировании и проверке гипотез на основании данных. Выводы, полученные из потоков пространственно-вре-менных данных подготовки, могут даже накладываться на традиционные оп-тические изображения во время проведения экспериментов, дополняя такие изображения аннотациями, которые могут помочь в выборе направления для проведения исследования.

Интенсивный компьютерный анализ станет основой для моделирования и визуализации данных по высокоразмерным популяциям, где множество нейро-нов взаимодействует и принимает участие в действиях других нейронов и групп, и где взаимодействия потенциально чувствительны к контексту — цепи и потоки могут существовать динамически, кратковременно и даже одновременно на об-щем нейронном субстрате.

ВЫЧИСЛЕНИЯ И СЛОЖНОСТЬ

Мы видим многочисленные возможности для объединения движущихся бы-стрым темпом вычислений, чтобы помочь нейробиологам с вопросом понима-ния данных о популяциях нейронов. В исследованиях популяций нейронов уже используется статистический анализ. Например, статистические методы исполь-зовались для идентификации и определения характеристик нейронной актив-

Page 119: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 85

ности в виде траекторий в крупных пространствах динамических состояний [1]. Мы восхищены возможностью применения более мощного машинного обуче-ния и механизмов оценки для создания объяснительных моделей из библиотек случаев данных о популяциях нейронов. Вычислительные процедуры помогут ученым в получении знаний из необработанных данных нейронной активности путем поиска по более крупным наборам альтернатив и оценки достоверности различных объяснительных моделей. Вычислительные методы могут работать с различной степенью детализации, от исследования локальных связей и функ-ций нейронов одной цепи до потенциально ценных обобщений более высокого уровня популяций нейронов — которые могут дать упрощенное представление о работе нервных систем.

Кроме создания пояснений из наблюдений, дедуктивные модели можно ис-пользовать для вычисления ожидаемой ценности информации, что поможет нейробиологам определять, какие тесты лучше провести или какую инфор-мацию лучше собрать в свете текущих целей и неопределенности. Вычисление ценности информации может помочь в направлении интервенционных иссле-дований, например, руководства по стимуляции отдельных единиц, соедине-ния напряжения отдельных клеток или выборочной модификации клеточной активности при помощи агонистических и антагонистических фармакологиче-ских средств.

Мы уверены в потенциале автоматических и интерактивных систем, вклю-чая такие, которые используются в качестве настольных инструментов для про-цессов в реальном времени. Однажды компьютерные инструменты даже смогут предоставить указания для датчиков и интервенций посредством визуализации и рекомендаций, которые динамически создаются при исследовании изображе-ний.

Выходя за пределы исследований отдельных систем животных, компьютер-ные инструменты для анализа данных популяций нейронов скорей всего будут ценными в изучении строения нервных систем во время эмбриогенеза, а также при сравнении нервных систем различных видов животных. Такие исследова-ния смогут выявить изменения в цепях и функциях в процессе развития, а также под давлением эволюционной адаптации.

СПЕКТР СЛОЖНОСТИ

Нейробиологи исследуют нервные системы позвоночных и беспозвоночных животных по всему спектру сложности. Мозг человека состоит примерно из 100 млрд нейронов, которые взаимодействуют друг с другом при помощи при-мерно 100 трлн синапсов. А мозг нематоды Caenorhabditis elegans (C. elegans) имеет всего 302 нейрона. Такие нервные системы беспозвоночных дают воз-можность изучить принципы неврональных систем, которые можно обобщить до более сложных систем, включая нашу. Например, C. elegans была эталонной системой для исследования структуры нейронных цепей, и в составлении карты точных связей между ее нейронами достигнуты большие успехи.

Page 120: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ86

Многие нейробиологи останавливаются на изучении более простых нервных систем, даже если ими движут вопросы о нейробиологической природе челове-ческого интеллекта. Нервные системы получаются в процессе улучшений и мо-дификаций, поэтому очень вероятно, что ключевые аспекты обработки нейрон-ной информации заключены в головном мозге разной сложности. Хотя новые обобщения, слои и взаимодействия могли появляться в более сложных нервных системах, виды мозга разной степени сложности скорее всего основываются на схожих нервных тканях — о которых мы многого еще не знаем.

В работе с нашими коллегами Эшишем Капуром (Ashish Kapoor), Эриком Честейном (Erick Chastain), Джонсоном Апасиблем (Johnson Apacible), Дэниэ-лом Вагенааром (Daniel Wagenaar) и Пэкстоном Фреди (Paxon Frady) мы исполь-зуем машинное обучение, механизмы оценки и визуализацию для понимания базовых механизмов принятия решений у Hirudo — европейской медицинской пиявки. Мы применяем компьютерный анализ для получения информации из оптических данных об активности популяций нейронов в сегментальной ган-глии Hirudo. Ганглия состоит примерно из 400 нейронов, и оптическая система создания изображения обнаруживает активность около 200 нейронов одновре-менно — то есть всех нейронов с одной стороны нервного узла. Несколько ка-дров оптических изображений Hirudo показаны на рисунке 1. Яркость каждого из показанных нейронов представляет уровень деполяризации клеток, который является основой для потенциалов действия.

Мы разрабатываем инструменты анализа и сбора в стремлении к разработке компьютерных микроскопов для понимания активности популяций нейронов и ее связи с поведением. В одном методе мы создаем графические вероятностные временные модели, которые могут прогнозировать будущее поведение Hirudo

РИСУНОК 1.

Изображение последовательности нейронов Hirudo перед принятием решения ползти или плыть.

Page 121: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 87

РИСУНОК 2.

Возможные соединения и ско-пления, полученные из данных популяции при построении изображения Hirudo.

РИСУНОК 3.

Предполагаемые информацион-ные взаимосвязи между нейро-нами в сегментальном нервном узле Hirudo. Схожая динамика в активности нейронов по време-ни выделена дугами и скоплени-ями.

Page 122: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ88

на основании анализа данных популяции. Модели создаются методом поиска в большом пространстве допустимых моделей, где нейроны и абстракции ней-ронов служат случайными переменными, среди которых возможны временные и вневременные зависимости. Эти методы могут определить модули нейронов, которые действуют вместе и могут динамически проявляться в ходе активности, которая приводит к принятию животным решения. В дополнительной работе мы рассматриваем роль состояний нейронов при определении траекторий че-рез пространство состояний динамической системы.

ПОЯВЛЕНИЕ КОМПЬЮТЕРНОГО МИКРОСКОПА

Мы начали создавать интерактивные средства просмотра и инструменты, кото-рые позволяют ученым управлять дедуктивными предположениями и параме-трами, а также визуально проверять последствия. Например, ползунки позво-ляют плавно изменять пороги допустимых связей между нейронами, а также испытывать прочность взаимосвязей и членства в модулях. Мы очень хотим увидеть мир, где подобные инструменты будут широко использоваться нейро-биологами и дополняться компонентами обучения, логического вывода и визуа-лизации, разработанными сообществом этих ученых.

На рисунке 2 показан снимок экрана прототипа инструмента, который мы называем MSR Computational Microscope, разработанного Эшишем Капуром, Эриком Честейном и Эриком Горвицем в Microsoft Research в процессе более широкого сотрудничества с Вильямом Кристеном из Калифорнийского универ-ситета в Сан-Диего, и Дэниэлом Вагенааром из Калифорнийского технологиче-ского института (California Institute of Technology). Этот инструмент позволяет пользователям визуализировать активность нейронов за отдельный период времени, и затем интерактивно исследовать взаимосвязи между ними. Пользо-ватели могут выбирать различные механизмы логического вывода и указывать предположения для создания моделей. Они также могут выделять отдельные нейроны и их поднаборы в качестве фокусных точек анализа. На рисунке 2 по-казан анализ активности нейронов в сегментальной ганглии Hirudo. Предпола-гаемые информационные взаимосвязи между клетками отображаются в виде выделенных нейронов и дуг между нейронами. Такие предположения могут по-мочь в направлении исследований и подтверждении физических связей между нейронами.

На рисунке 3 показан другой информационный анализ, который простран-ственно объединяет клетки, ведущие себя схожим образом в ганглии Hirudo при проведении группы тестов. Анализ дает предварительное видение того, как ин-формационно-теоретический анализ когда-нибудь сможет помогать нейробио-логам в обнаружении и проверке взаимосвязей внутри и между неврональными подсистемами.

Мы пока находимся в самом начале этого многообещающего направления исследований, но ожидаем увидеть расцвет анализа, инструментов и более широкой субдисциплины, которая фокусируется на нейроинформатике попу-

Page 123: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 89

ляций нейронов. Мы уверены, что компьютерные методы приведут нас к эф-фективным представлениям и языкам для понимания нейронных систем, и что они станут основными инструментами нейробиологов для получения знаний о тысячах загадок, связанных с чувствованием, обучением и принятием решений нервной системой.

ССЫЛКИ

[1] K. L. Briggman, H. D. I. Abarbanel, and W. B. Kristan, Jr., «Optical imaging of neuronal populations during decision-making,» Science, vol. 307, pp. 896–901, 2005, doi: 10.1126/science.110.

Page 124: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 125: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

ЧЕТВЕРТАЯ ПАРАДИГМА 91

АЙЕН БУЧАН (IAIN BUCHAN) Манчестерский университет (University of Manchester)

ДЖОН УИНН (JOHN WINN), КРИС БИШОП (CHRIS BISHOP) Microsoft Research

Унифицированный метод моделирования

для здравоохранения с использованием большого

количества данных

Количество доступных данных здравоохранения стре-мительно растет и намного превышает возможность получения персональных или общественных преиму-ществ из анализа этих данных [1]. Тремя ключевыми

элементами такого роста являются электронные медицинские карты (electronic health records, EHR), биотехнологии и науч-ные достижения. Мы обсудим это ниже, и придем к нашему предложению унифицированного метода моделирования, который поможет получить все преимущества среды с боль-шим количеством данных.

ЭЛЕКТРОННЫЕ МЕДИЦИНСКИЕ КАРТЫ

Организации здравоохранения во всем мире, с большим и ма-лым количеством ресурсов, внедряют EHR. На уровне обще-ства EHR могут использоваться для управления медицински-ми услугами, отслеживания здоровья населения и поддержки исследований. Социальные выгоды использования EHR могут быть более ощутимыми на уровне всего населения, чем на уровне лечения отдельных пациентов.

Использование стандартных терминов и онтологии в EHR повышает структуру данных здравоохранения, но клиниче-ское кодирование вносит новые потенциальные искажения.

Page 126: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ92

Например, применение стимулов для профессионалов первичной медицинской помощи по работе с отдельными состояниями может привести к колебаниям ко-личества кодирования новых случаев таких состояний [2]. С другой стороны, снижение стоимости устройств дистанционного мониторинга и тестирования «у кровати пациента» приводит к накоплению информации в EHR, которая более точна, но может создать иллюзию увеличения случаев заболеваний просто вви-ду доступности большего количества информации.

Некоторые пациенты начинают дополнять свои собственные медицинские карты или редактировать параллельные карты в Интернете [3]. Управление будущими медицинскими картами может быть в большей степени связано с частными лицами (пациентами, гражданами, потребителями) и сообществами (семьями, местным населением и пр.), чем с организациями здравоохранения. В итоге EHR создают более насыщенную информацией среду здравоохранения, где намного больше данных собираются и передаются в цифровом виде. Но ком-пьютерный интеллект и модели здравоохранения для применения к этой куче данных почти не разрабатываются.

БИОТЕХНОЛОГИИ

Биотехнологии вызвали бум в исследованиях молекулярной медицины. Неко-торые техники, такие как полногеномный анализ, создают огромные объемы данных без тех погрешностей, которые присущи целевому выбору факторов исследования. Поэтому такие наборы данных имеют более широкий диапазон и отсутствие отбора в сравнении с традиционными экспериментальными из-мерениями. Важные неточности все еще могут возникать из артефактов био-технической обработки проб и данных, но они должны снижаться с развити-ем технологий. Систематическая погрешность, которая находится вне данных, представляет собой более сложную проблему — например, метаболомический анализ, достоверность которого нарушена без учета времени дня или време-ни, которое прошло с момента последнего приема пищи перед взятием пробы. Большой задачей для здравоохранения с использованием большого количества данных является интеграция различных масштабов данных, от переменных мо-лекулярного уровня до уровня популяций, а также различные уровни прямоты измерений факторов. Когда будут доступны реалистичные, комплексные моде-ли, охватывающие различные масштабы, следующей задачей будет обеспечение их доступности для клинических врачей и пациентов, которые совместно смогут оценить риски различных вариантов при выборе персональных методов лече-ния.

НАУЧНЫЕ РЕЗУЛЬТАТЫ

Результаты здравоохранения развивались в геометрической прогрессии [4]. В 2009 г. в библиографической системе здравоохранения PubMed, новый доку-мент регистрировался каждые 2 минуты. Поэтому метод проверки литературы

Page 127: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 93

для управления медицинскими знаниями потенциально перегружен. Более того, перевод новых знаний на практику является медленным и несогласованным [5]. Это отрицательно влияет не только на врачей и пациентов, принимающих ме-дицинские решения, но и на исследователей, которые оценивают шаблоны и механизмы.

Необходимо объединить процесс поиска доказательной базы с компьютер-ными моделями для исследования растущего количества данных здравоохране-ния и исследований.

Управляемые гипотезами исследования и подходы редукционизма к при-чинным связям хорошо послужили медицине в определении основных незави-симых детерминант здоровья и результатов лечения отдельных пациентов (см. рисунок 1). Но они не отражают всей комплексности здоровья. К примеру, кли-нические исследования исключают до 80% ситуаций, в которых могло бы пропи-сываться лекарство — например, когда у пациента есть несколько заболеваний, и он принимает различные лекарства [7]. Давайте рассмотрим недавно получив-шее лицензию лекарство общего предписания. Врач X может прописать его, а

Экспертнаяоценка

Экспертнаяоценка

Экспертнаяоценка

Данные

Данные

Данные

Статистическое тестирование

Уточнение гипотезы

Хроническое обструктивное заболевание легких

Сердечно-сосудистое заболевание

Рак легких

Гипотеза

Гипотеза

Гипотеза

Независимоезаключение

Статистическое тестирование

Уточнение гипотезы

Независимоезаключение

Статистическое тестирование

Уточнение гипотезы

Независимоезаключение

РИСУНОК 1.

Традиционные методы, основанные на проверке статистических гипотез, искусственно разде-ляют здравоохранение на множество подпроблем. Таким образом они упускают замечательную возможность для статистической «аренды мощности». Хроническое обструктивное заболева-ние легких, сердечно-сосудистые заболевания и рак легких могут рассматриваться как «большая троица» [6].

Page 128: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ94

врач Y — нет, что может привести к естественным экспериментам. В полностью разработанной системе здравоохранения с большим количеством данных, где информация от таких экспериментов поступает в EHR, клинические исследова-тели могут изучать результаты пациентов при использовании нового лекарства в сравнении с естественными методами контроля и потенциально могут вносить корректировки на смешанные и изменяющие факторы. Однако такие коррек-тировки могут быть крайне сложными и выходить за возможности традицион-ных моделей.

УНИФИЦИРОВАННЫЙ МЕТОД

Мы предлагаем унифицированный метод моделирования, который позволит использовать все преимущества среды с большим количеством данных без по-тери реальной комплексности здоровья (см. рисунок 2). Наш метод основан на разработках в области машинного обучения за последние 10 лет, которые дают новые мощные инструменты, хорошо подходящие для решения этой задачи. Знание результатов лечения, смешанных или изменяющихся факторов, может быть собрано и представлено в системе вероятностных графических моделей, где подходящие переменные, включая наблюдаемые данные, представляются в виде графика [8]. Затем разработка предположений на этих графиках может вы-полняться автоматически при помощи различных алгоритмов, основанных на прохождении локальных сообщений, например [9]. В сравнении с классически-ми методами машинного обучения эта новая система предлагает более глубокую интеграцию знаний предметной области, получаемых непосредственно от экс-пертов или из литературы, с использованием статистического обучения. Кроме того, такие автоматические алгоритмы логического вывода могут масштабиро-ваться до наборов данных размером в сотни миллионов записей, а новые ин-струменты, такие как Infer.NET, позволяют мгновенно разрабатывать решения в рамках этой системы [10]. Мы проиллюстрируем применение этого метода в двух сценариях.

В сценарии №1 эпидемиолог исследует генетические и экологические фак-торы, которые вызывают предрасположенность к астме у некоторых детей. Он проводит групповое исследование 1 тыс. детей, которые наблюдаются в течение 10 лет, с подробными экологическими и физиологическими параметрами, а так-же данными по более чем полумиллиону из 3 млн генетических факторов, кото-рые могут отличаться у разных людей. В традиционном методе эпидемиологии предопределенные гипотезы могут проверяться с использованием отобранных групп генетических и других факторов. Также для поиска связей между отдель-ными генетическими факторами и простыми определениями состояния здоро-вья (например, одышка или ее отсутствие в возрасте 5 лет) можно использовать метод полногеномного сканирования. В обоих этих методах используются отно-сительно простые статистические модели. Альтернативный метод машинного обучения может начинаться с создания эпидемиологом графической модели для

Page 129: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 95

пространства проблемы, с консультациями с литературой и коллегами для соз-дания графика на основании организующего принципа — например «обструк-ция периферических дыхательных путей». Такая модель более качественно от-ражает реальную сложность астмы с множеством классов одышки и другими признаками и симптомами, и относит их к известным механизмам. Затем для изучения того, как генетические, экологические и другие факторы в исследова-нии влияют на образование различных групп аллергической сенсибилизации в отношении результатов анализов кожи и крови и отчетов по одышке, использу-ются неконтролируемые методы группировки. Эпидемиолог может соотносить эти шаблоны с биологическими каскадами реакций, тем самым определяя гипо-тезы для дальнейшего изучения.

В сценарии №2 клиническая команда выполняет аудит результатов лечения по пациентам с хронической ангиной. Немного отличающиеся планы лечения, например, различная глубина изучения и лечения в первичной медицинской помощи перед обращением к специалисту, достаточно распространены. При

Электронныемедицинскиекарты (EHR)

Экспертнаяоценка

Экспертнаяоценка

Экспертнаяоценка

Данные

Данные

Данные

Унифицированнаяграфическая модель

Крупномас-штабныевыводы

Здравоохранениев разных масштабах

и системах:

Исследование

Политика

Уход

Уточнение модели

РИСУНОК 2.

Мы предлагаем использовать унифицированный метод создания медицинских моделей, с расту-щими статистическими ресурсами электронных медицинских карт в дополнение к данным, полученным в результате специализированных исследований.

Page 130: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ96

проведении стандартного клинического аудита возможны обсуждения плана лечения, сверка с литературой, изучение простейшей сводной статистики, вы-работка отдельных гипотез, а возможно, и проверка гипотез при помощи про-стых регрессионных моделей. В альтернативном методе машинного обучения возможно создание графической модели предполагаемого плана лечения путем обсуждения и предоставления ссылок на литературу и ее сравнение с обнару-женной сетевой топологией в наборах данных с результатами пациентов. Затем приемлемые сети могут использоваться для моделирования потенциального воздействия изменений на клиническую практику путем запуска сценариев, ко-торые изменяют вес дуги базовых графиков. Таким образом, группы связей в локально релевантных данных могут комбинироваться с доказательствами из литературы в процессе планирования сценария, который включает в себя кли-ническую оценку и машинное обучение.

ЧЕТВЕРТАЯ ПАРАДИГМА: АВАТАРЫ ЗДОРОВЬЯ

Унифицированные модели, без сомнения, имеют потенциал влияния на личное, общественное здоровье и клиническую практику. Станут ли они парадигмой для будущего?

Первой парадигмой информации здравоохранения может быть история случаев заболеваний плюс терапевт, которая была сформулирована Гиппокра-том более 2 тыс. лет назад и до сих пор остается важной частью клинической практики. Во второй парадигме медицинская карта передается группе допол-нительных врачей, каждый из которых фокусируется на своей специализации в состоянии пациента. Третья парадигма — это здравоохранение, основанное на доказательствах, где сеть профессиональных медиков своевременно соединяет-ся со знаниями и медицинской картой пациента. Эта третья парадигма до сих пор находится в процессе реализации, в особенности в отношении охвата всех комплексов клинической практики в цифровых записях и возможности вычис-ления отдельных аспектов здравоохранения.

Мы предвидим четвертую парадигму медицинской информации, по анало-гии с другими дисциплинами, где данные о здоровье человека собираются из различных источников и вводятся в унифицированную модель здоровья этого человека. Эти источники могут начинаться сетевыми датчиками участков тела и заканчиваться проверкой и интерпретацией клиническими экспертами, с на-много большим участием самого пациента в создании информации о своем здо-ровье, чем есть сейчас. При наличии всех этих данных унифицированная модель будет играть роль «аватара здоровья» — электронного представления здоровья человека, непосредственно измеренного или предполагаемого статистическими моделями или врачами. Врачи, взаимодействуя с аватаром пациента, могут по-лучить более комплексный обзор различных специализированных планов лече-ния, чем при использовании только медицинских карт.

Page 131: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 97

Аватар — это не только статистический инструмент для поддержки диа-гностики и лечения, но также и средство связи, которое соединяет пациента с выбранной им же сетью врачей и других доверенных специалистов по уходу — например, для обсуждения возможных методов лечения. Изначально являясь очень простой многосистемной моделью, аватар здоровья может вырасти по глубине и сложности для сокращения расстояния между аватаром и реально-стью. Такой аватар не будет включать в себя моделирование человека на моле-кулярном уровне (которое мы считаем невозможным), а вместо этого будет ис-пользовать унифицированную статистическую модель, охватывающую текущее клиническое понимание в применении к конкретному пациенту.

Эта парадигма может быть расширена до сообществ, в которых множество индивидуальных аватаров взаимодействуют с аватаром общества для предо-ставления унифицированной модели здоровья населения. Такой аватар обще-ства может предоставлять подходящую и своевременную информацию для использования в целях охраны и улучшения состояния здоровья членов такого сообщества. Для сокращения серьезности и длительности заболеваний и луч-шего обслуживания сообщества в целом дефицитные ресурсы сообщества мо-гут более точно подгоняться под потребности здравоохранения, в особенности в профилактике и раннем вмешательстве. Услуги клинического, потребительско-го и общественного здравоохранения смогут взаимодействовать более эффек-тивно, предоставляя социальные выгоды и новые возможности для инноваций и инициатив в медицине.

ВЫВОД

Сама по себе информация не может привести к появлению здравоохранения с использованием большого количества данных. Для охвата всего комплекса здо-ровья, что в конечном счете приведет к значительному повышению глобальных стандартов здоровья населения, требуется основательный пересмотр методоло-гии. Мы уверены, что машинное обучение в комбинации с общим увеличением вычислений в отношении медицины может принести большую пользу. Возмож-но, само общество должно разработать вычислительные системы для поиска сигналов в наборах медицинских данных, если потенциал выигрыша для чело-вечества намного превосходит риски. Мы уверены, что это так.

ССЫЛКИ

[1] J. Powell and I. Buchan, «Electronic health records should support clinical research», J. Med. Internet Res., vol. 7, no. 1, p. e4, Mar. 14, 2005, doi: 10.2196/jmir.7.1.e4.

[2] S. de Lusignan, N. Hague, J. van Vlymen, and P. Kumarapeli, «Routinely-collected general practice data are complex, but with systematic processing can be used for quality improvement and research», Prim. Care. Inform., vol. 14, no. 1, pp. 59—66, 2006.

Page 132: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ98

[3] L. Bos and B. Blobel, Eds., Medical and Care Compunetics 4, vol. 127 in Studies in Health Technology and Informatics series. Amsterdam: IOS Press, pp. 311—315, 2007.

[4] B. G. Druss and S. C. Marcus, «Growth and decentralization of the medical literature: implications for evidence-based medicine», J. Med. Libr. Assoc., vol. 93, no. 4, pp. 499—501, Oct. 2005, PMID: PMC1250328.

[5] A. Mina, R. Ramlogan, G. Tampubolon, and J. Metcalfe, «Mapping evolutionary trajectories: Applications to the growth and transformation of medical knowledge», Res. Policy, vol. 36, no. 5, pp. 789—806, 2007, doi: 10.1016/j.respol.2006.12.007.

[6] M. Gerhardsson de Verdier, «The Big Three Concept — A Way to Tackle the Health Care Crisis?» Proc. Am. Thorac. Soc., vol. 5, pp. 800—805, 2008.

[7] M. Fortin, J. Dionne, G. Pinho, J. Gignac, J. Almirall, and L. Lapointe, «Randomized controlled trials: do they have external validity for patients with multiple comorbidities?» Ann. Fam. Med., vol. 4, no. 2, pp. 104—108, Mar.—Apr. 2006, doi: 10.1370/afm.516.

[8] C. Bishop, Pattern Recognition and Machine Learning. Springer, 2006.[9] J. Winn and C. Bishop, «Variational Message Passing», J. Mach. Learn. Res., vol. 6,

pp. 661—694, 2005.[10] T. Minka, J. Winn, J. Guiver, and A. Kannan, Infer.NET, Microsoft Research

Cambridge, http://research.microsoft.com/infernet.

Page 133: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ

ЧЕТВЕРТАЯ ПАРАДИГМА 99

ЛУКА КАРДЕЛЛИ (LUCA CARDELLI) Microsoft Research

КОРРАДО ПРИАМИ (CORRADO PRIAMI) Microsoft Research — Университет Тренто, Центр компьютерной и системной биологии и Университет Тренто (University of Trento Centre for Computational and Systems Biology and University of Trento

Визуализация в моделях алгебры процессов

биологических систем

В последнем исследовании нобелевский лауреат Пол Нурс призывает к лучшему пониманию живых орга-низмов за счет «разработки подходящих языков для описания обработки информации биологических си-

стем и создания более эффективных методов для перевода биохимических описаний в функции логических цепей, опре-деляющих биологические феномены» [1].

Язык, который хочет видеть Нурс — это формальный язык, который может автоматически преобразовываться в исполняемый машинный код, и который поддерживает моде-лирование и техники анализа для проверки свойств биологи-ческих систем. Хотя существует множество методов формаль-ного моделирования живых систем, только некоторые из них предоставляют исполняемые описания, которые выделяют механистические шаги, вызывающие переход системы из од-ного состояния в другое [2]. Практически все техники, связан-ные с математическим моделированием, абстрагируются от таких отдельных шагов для создания глобального поведения, обычно усредненного по времени.

Компьютерная наука дает ключевые элементы для опи-сания механистических шагов: алгоритмы и языки програм-мирования [3]. Согласно метафоре с молекулами в качестве процессов, приведенной в [4], вычисления процессов опре-деляются как многообещающий инструмент для моделиро-вания биологических систем — сложных, параллельных и управляемых взаимодействиями своих подсистем.

Причинно-следственная связь — основное отличие мето-дов моделирования на основе языка от других техник. Фак-

Page 134: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ100

тически причинно-следственная связь в языках параллельного программирова-ния четко соотносится с идеей параллельности или независимости событий, что сильно отличает причинность от структурирования по времени. Действие A вы-зывает действие B, если A является необходимым условием для происхождения B, и A влияет на действие B — то есть существует поток информации от А к В. Вторая часть состояния, определяющего причинность, четко разделяет предше-ствование (которое относится только к положению во времени) и причинность (поднабор временного упорядочения, где также учтен поток информации) [5]. Как следствие, перечень реакций системы не предоставляет информации о при-чинах, а дает информацию только о времени. Поэтому необходимо разработать новые инструменты моделирования и анализа для охвата причинности.

Причинно-следственная связь является ключевой проблемой в анализе слож-ных взаимодействующих систем, так как она помогает разделять независимые компоненты и упрощать модели, при этом позволяя четко определять обмен ин-формацией между различными сигнальными каскадами. Когда эксперимента-тор наблюдает интересующее его событие в модели, можно сжать предыдущую историю системы и оставить только предшествующие события, которые вызва-ли интересующее. Это может дать точные подсказки о причинах заболеваний, взаимодействии лекарства с живой системой (с определением его эффективно-сти и побочных эффектов) и механизмах регулирования изменений поведения.

Причинность — это взаимосвязь между событиями, и поэтому наиболее естественно изучать ее в дискретных моделях, которые, в свою очередь, описаны алгоритмическими языками моделирования. Хотя в компьютерной науке для создания моделей параллельных систем уже определено множество языков мо-делирования, еще остается множество задач по созданию алгоритмических мо-делей для понимания биологических процессов на уровне систем. Среди таких задач — взаимосвязь между местными взаимодействиями низкого уровня и про-изводным глобальным поведением высокого уровня; дальнейшее исследование систем; представление в разных уровнях и масштабах по времени, пространству и размеру; а также причинные отношения между взаимодействиями и осведом-ленность о контексте внутренних компонентов. Таким образом формальные системы моделирования, которые могут быть кандидатами для продвижения алгоритмической системной биологии, должны быть дополнительными и иметь возможность взаимодействия с математическим моделированием. Они должны решать вопросы параллельности и комплексности, быть алгоритмическими и количественными, выражать причинно-следственную связь, управляться взаи-модействием, а также быть компонуемыми, масштабируемыми и модульными.

ВИЗУАЛИЗАЦИЯ ЯЗЫКА

Практичность представляет собой фундаментальную проблему использования формальных языков в биологии. Язык моделирования должен быть понятным

Page 135: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 101

для биологов, чтобы они могли использовать его в собственных неформальных моделях и экспериментах.

Одна из попыток биологов по соединению формальных языков и нефор-мальных описаний систем включает в себя использование ограниченного есте-ственного языка, организованного в виде таблиц, которые собирают всю ин-формацию, относящуюся к структуре и динамике системы. Такое описательное представление достаточно информативно и структурировано для компиляции в формальное описание, подходящее для моделирования и анализа [6, 7]. Хотя стиль описательных моделей еще не является визуальным, он определенно более понятен для биологов, нежели формальный язык (программирования).

Наилучшим способом сделать язык понятным для ученых и помочь в управ-лении всем его комплексом является визуализация языка. Это сложнее, чем ви-зуализация данных или результатов моделей, так как язык описывает полную кинетику системы, включая динамические взаимосвязи между событиями. Та-ким образом, визуализация языка должна быть динамичной и по возможности реактивной [8], чтобы ученые могли определять и вставлять события в работаю-щую модель при непосредственном вмешательстве. Для этого требуется точное соответствие между внутренним исполнением формального языка и его визуа-лизацией, чтобы кинетика языка полностью отражалась в кинетике визуализа-ции и наоборот.

Такая возможность полного соответствия кинетики общего (полного по Тью-рингу) языка моделирования визуальным представлениям была продемонстри-рована, например, для пи-исчисления [9], но для адаптации таких общих мето-дов к специфическим требованиям визуализации сохраняется еще множество практических вопросов (см. рисунок 1). Одним из таких требований, например, является визуализация и отслеживание молекулярных комплексов. В этих целях язык BlenX [10] и его средства поддержки дают возможность точного представ-ления комплексов биологических элементов и изучения их развития во времени [11] (см. рисунок 2). Графическое представление комплексов также полезно в изучении процессов морфогенеза для выявления механистических шагов фор-мирования шаблона (см. рисунок 3).

АНАЛИЗ

Создание модели является одним из шагов в научном цикле, и подходящие язы-ки моделирования (вместе с возможностями их исполнения и визуализации) особенно важны для моделирования сложных систем. Однако в конце концов возникнет желание проанализировать модель с использованием большого ко-личества техник. Некоторые из этих техник могут быть связаны с базовой мате-матической системой, такой как анализ дифференциальных уравнений, цепей Маркова или сетей Петри, полученных из модели. Другая техника может быть связана с описанием модели (языка, на котором написана модель). Например, нам может потребоваться узнать, представляют ли два различных описания мо-

Page 136: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ102

дели одинаковое поведение — в соответствии с некоторыми параметрами сход-ства поведения. Такой тип соответствия модели может возникнуть, например, из кажущихся различными биологических систем, которые работают по общим фундаментальным принципам. Подобный вопрос — сможем ли мы упростить (абстрагировать) описание модели, при этом сохранив ее поведение, опять же с какой-то степенью схожести поведения, которая может скрывать отдельные некритические подробности.

M TM

TMPMP

MeP

M M

-tpn v

+tpn

Выход

-tpn

-pep q+pep a-pep+pep

Продуцирование Деградирование

Деградирование

РИСУНОК 1.

Эту диаграмму можно привести в однозначное соответствие с формальными стохастически-ми моделями пи-исчисления [9, 12, 13], чтобы можно было редактировать или диаграммы, или модели. Узлы представляют собой молекулярные состояния (значки узлов показаны просто для наглядности), а маркированные дуги — взаимодействие с другими молекулами среды. В моделях используется биохимический вариант пи-исчисления, с массовой долей в виде верхнего индекса и знаками сложения и вычитания для добавления и удаления связующего.

Page 137: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 103

Сходство поведения фактически является первым инструментом в компью-терной науке для проверки вычислительных систем. Например, мы можем ис-пользовать схожести для обеспечения согласованности внедрения и специфи-кации, как можно больше абстрагируясь от синтаксических описаний, вместо этого сосредотачиваясь на семантике (динамике) спецификаций и внедрений. Пока что биология фокусируется на синтаксических связях между генами, ге-номами и белками. Совершенно новым направлением исследований является изучение семантического сходства биологических организмов, представляющих сложные сети взаимодействий. Такой метод может привести к новому видению систем и усилить необходимость в компьютерной науке для улучшения систем-ной биологии.

Биология является наукой, использующей большое количество данных. Био-логические системы представляют собой огромные коллекции взаимодейству-

РИСУНОК 2.

Зеленые блоки с «S» на диаграмме представляют организмы, заполняющие рассматриваемую биологическую систему. Голубые прямоугольники возле зеленых блоков представляют активные поверхности раздела или области, доступные для комплексации и декомплексации. На диаграм-ме показано, как моделирование спецификации BlenX образует кольцевой комплекс и предостав-ляет положение и связи между блоками для изучения.

Page 138: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ104

ющих компонентов. Исследования последнего десятилетия были посвящены определению и классификации таких компонентов, особенно на молекулярном уровне (гены, метаболиты, протеины). Для практического использования тако-го количества доступных данных нам нужно полностью представить их в виде компактных исполняемых моделей, чтобы такие процессы исполнения могли при необходимости восстанавливать доступные данные. Такой метод объединит синтаксис и семантику в унифицированные представления и создаст необходи-мость в различных методах хранения, получения и сравнения данных. Таким образом, хранилище модели, представляющее динамику биологических процес-сов в компактной и механистической форме, будет крайне ценным и сможет улучшить понимание биологических данных и базовых биологических прин-ципов, которые управляют жизнью. Оно будет способствовать разработке про-гнозов и оптимальных схем дальнейших экспериментов для перехода от сбора данных к созданию знаний.

РИСУНОК 3.

Зеленые, красные и синие блоки с «S» на диаграмме представляют различные виды, заполняющие рассматриваемую биологическую систему. Голубые прямоугольники возле блоков представляют активные поверхности раздела или области, доступные для комплексации и декомплексации. Диаграмма поясняет, как шаблоны образуются в процессе морфогенеза при моделировании спец-ификацией BlenX.

Page 139: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 105

ВИЗУАЛИЗАЦИЯ АНАЛИЗА

Чтобы исполнение моделей было интерактивным (для динамического измене-ния фокуса на различные характеристики) и реактивным (для изменения их ис-полнения в реальном времени), им нужна визуализация. Исполнение является одной из форм анализа; для других методов анализа также требуется визуали-зация. Для сложных систем нормальный метод «группового» анализа, состоя-щий из выполнения сложного анализа на модели с последующим получением результатов для решения задачи, должен быть заменен более интерактивным и исследовательским методом.

Абстрагирование модели является важным инструментом для управления сложностью, и мы можем представить себе выполнение этой задачи в интерак-тивной форме — например, за счет объединения или скрывания компонен-тов. Для объединения затем потребуются подходящая визуализация и методы отношения поведения исходных компонентов к поведению сгруппированных компонентов. Это означает визуализацию не языка моделирования, а скорее визуализацию функции абстракции между моделями. Поэтому мы предлагаем визуализировать исполнение программ и моделей таким образом, чтобы резуль-таты были связаны со спецификацией исходного кода и модели, а графическое абстрагирование, выполняемое конечным пользователем, преобразовывалось в трансформацию формальной программы и модели. Затем средство поддержки будет проверять, какие свойства сохраняются при трансформации, а какие нет, и извещать об этом пользователя.

Все сказанное выше усиливает необходимость в формальном и исполняе-мом языке для моделирования биологии как основной функции компьютерной лаборатории для биологов, которая может стать высокопроизводительным ин-струментом биологии следующего поколения.

БЛАГОДАРНОСТЬ

Авторы благодарят Эндрю Филлипса (Andrew Phillips) и Лоренцо Дематте (Lorenzo Dematté) за подготовку информации.

ССЫЛКИ

[1] P. Nurse, «Life, Logic and Information», Nature, vol. 454, pp. 424—426, 2008, doi: 10.1038/454424a.

[2] J. Fisher and T. Henzinger, «Executable Cell Biology», Nature Biotechnology, vol. 25, pp. 1239—1249, 2007, doi: 10.1038/nbt1356.

[3] C. Priami, «Algorithmic Systems Biology: An opportunity for computer science», Commun. ACM, June 2009, doi: 10.1145/1506409.1506427.

[4] A. Regev and E. Shapiro, «Cells as computation», Nature, vol. 419, p. 343, 2002, doi: 10.1038/419343a.

[5] P. Degano and C. Priami, «Non-interleaving semantics of mobile processes», Theor. Comp. Sci. vol. 216, no. 1—2, pp. 237—270, 1999.

Page 140: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЗДОРОВЬЕ И БЛАГОПОЛУЧИЕ106

[6] M. L. Guerriero, J. Heath, and C. Priami, «An automated translation from a narrative language for biological modelling into process algebra», Proc. of CMSB 2007, LNBI 4695, 2007, pp. 136—151, doi: 10.1007/978-3-540-75140-3_10.

[7] M. L. Guerriero, A. Dudka, N. Underhill-Day, J. Heath, and C. Priami, «Narrative-based computational modelling of the Gp130/JAK/STAT signalling pathway», BMC Syst. Biol., vol. 3, no. 1, p. 40, 2009, doi: 10.1186/1752-0509-3-40.

[8] S. Efroni, D. Harel, and I. R. Cohen, «Reactive Animation: Realistic Modeling of Complex Dynamic Systems», Computer, vol. 38, no. 1, pp. 38—47, Jan. 2005, doi: 10.1109/MC.2005.31. [9] A. Phillips, L. Cardelli, and G. Castagna, «A Graphical Representation for Biological Processes in the Stochastic Pi-calculus», Trans. Comput. Syst. Biol., VII—LNCS 4230, 2006, pp. 123—152, doi: 10.1007/11905455_7.

[10] L. Dematté, C. Priami, and A. Romanel, «The BlenX Language: a tutorial», Formal Meth. Comput. Syst. Biol., LNCS 5016, 2008, pp. 313—365, doi: 10.1145/1506409.1506427.

[11] L. Dematté, C. Priami, and A. Romanel, «The Beta Workbench: a computational tool to study the dynamics of biological systems», Brief Bioinform, vol. 9, no. 5, pp. 437—449, 2008, doi: 10.1093/ bib/bbn023.

[12] C. Priami, «Stochastic pi-calculus», Comp. J., vol. 38, no. 6, pp. 578—589, 1995, doi: 10.1093/comjnl/38.7.578.

[13] A. Phillips and L. Cardelli, «Efficient, Correct Simulation of Biological Processes in Stochastic Pi-calculus», Proc. Comput. Meth. Syst. Biol., Edinburgh, 2007, pp. 184—199, doi: 10.1007/978-3-540-75140-3_13.

Page 141: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

3. НАУЧНАЯ ИНФРАСТРУКТУРА

Page 142: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 143: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 109

Вступление

Дэрон Грин (DARON GREEN) | Microsoft Research

Внимание! В статьях третьей части этой книги встре-чаются такие драматические метафоры, как «взрыв», «цунами» и даже «большой взрыв», чтобы проиллю-стрировать, как научные исследования будут транс-

формироваться созданием и доступностью больших объемов научных данных. Хотя образы могут отличаться, у авторов общая цель — решить вопрос, как нам следует изменить наше отношение к компьютерной науке, чтобы справиться с этими объемами данных. Выбор слов вызван возможностью про-рывов в исследованиях, обеспеченных огромными наборами данных, но он также подразумевает и масштабы возможных потерь, если наша исследовательская инфраструктура не бу-дет готова к выполнению таких задач.

Видение Эбботта (Abbott) в отношении всех научных ис-следований приводит нас к основному вопросу: должен ли возникнуть «новый путь для развития науки» в свете увели-чения количества данных и их растущей доступности, необ-ходимости в обмене информацией и сотрудничестве, а также меняющейся роли компьютерной науки. Он прагматично смотрит на будущее развитие научного сообщества и скеп-тичен в отношении того, до какой степени исследователи должны стремиться охватить такие техники, как онтологии и другие семантические технологии. Избегая устрашающих предзнаменований, Эбботт отчетливо характеризует разрыв между предложением научных знаний и потребностью част-ного и правительственного секторов.

Саутен (Southan) и Кэмерон (Cameron) исследуют «цуна-ми» данных, появляющихся в базе данных EMBL-Bank — сер-

Page 144: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА110

висе информации по нуклеотидным последовательностям. В 3-й части этой кни-ги в качестве параметра оценки для различных научных предметных областей используется область генетического секвенирования, где скорость производства данных очень высокая (в данном случае прирост на 200% в год), что приводит к большим изменениям в объединении, процессах, резервном копировании, архивировании, качестве и сохранении данных, и это далеко не все отдельные направления.

Ларус (Larus) и Гэннон (Gannon) вселяют оптимизм, отмечая, что объемы данных легко поддаются обработке при использовании многоядерных техно-логий — конечно же, при условии, что мы сможем разработать новые модели программирования и абстракции, чтобы сделать такие технические инновации эффективными в многоцелевых приложениях для научных исследований.

Затем мы снова вернемся к метафоре катастрофы, вызванной приливом дан-ных, когда Гэннон и Рид (Reed) будут обсуждать, как параллельность и облако могут помочь с проблемами масштабируемости определенных классов вычис-лительных задач.

Отсюда мы переходим к роли инструментов компьютерных процессов для управления ключевыми задачами в шквале данных. Гобл (Goble) и Де Рур (De Roure) определяют преимущества и задачи, связанные с применением вычисли-тельных процессов к научным исследованиям и совместной работе. В конечном счете они отмечают, что процессы иллюстрируют первичность метода как важ-нейшей технологии в исследованиях с фокусом на данные.

Фокс (Fox) и Хендлер (Hendler) видят «семантическую е-Науку» как очень важный элемент в интерпретации взаимосвязей сложных концепций, терми-нов и данных. После объяснения потенциальных преимуществ семантических инструментов в исследованиях с фокусом на данные они исследуют отдельные задачи для их плавного внедрения. Они отмечают нестандартное участие науч-ного сообщества в разработке требований, а также нехватку согласованного об-суждения применимости семантических веб-технологий к научному процессу.

Далее Хансен (Hansen) и другие приводят четкое описание препятствий для визуализации крупных и сложных наборов данных. Они рассматривают зна-комые темы процесса, масштабируемости, производительности приложения, источников и взаимодействия пользователя, но с точки зрения визуализации. Они отмечают, что текущие методы анализа и визуализации намного отстают от наших возможностей создания данных, и приходят к выводу о необходимости междисциплинарных навыков для решения различных задач, таких как авто-матическая интерпретация данных, неопределенность, сводные визуализации, проверки и подтверждения.

Завершая наше путешествие сквозь опасности и возможности, Парастатидис (Parastatidis) рассматривает проблему реализации расширенной исследователь-ской инфраструктуры, основанной на знаниях. Он считает, что такая возмож-ность появится при объединении традиционных научных компьютерных ин-струментов, веб-инструментов, а также при выборе семантических методов.

Page 145: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 111

Новый путь для науки?

Научные задачи 21 века усилят партнерство прави-тельства, индустрии и науки, которое образовалось и вызрело за последние сто лет или около того. На-пример, в США, начиная с образования Националь-

ного научного фонда (National Science Foundation) в 1950 г., система национальных исследовательских университетов расцвела и сегодня доминирует в сегменте фундаментальных исследований. (Сегмент прикладных исследований, намного больший по размеру, изначально финансировался и внедрял-ся в частном секторе.)

Успешность этой системы преувеличить невозможно, но в основном она работает в пределах отдельных научных дис-циплин и поощряет усилия отдельных ученых при помощи публикаций, продвижения и должностей в образовательных учреждениях. Кроме того, вечное «беспокойство» системы означает, что исследователи постоянно ищут новые идеи и новые пути финансирования [1, 2]. Неожиданным результа-том работы этой системы является растущий разрыв между предложением научных знаний и спросом на такие знания со стороны частного и государственного секторов [3, 4]. Вну-тренняя система поощрений в университетах, а также систе-ма обзора работ коллегами, предпочитает исследовательские проекты, имеющие непосредственный интерес для научного сообщества, но не обязательно находящиеся вне академиче-ских кругов.

НОВЫЕ ДВИЖИТЕЛИ

Пришло время заново изучить базовые структуры нашего ме-ханизма исследований. Например, с учетом острой необходи-мости в новых методах для исследования климата и энергии в контексте рационального использования природных ресур-

МАРК Р. ЭББОТТ (MARK R. ABBOTT) Университет штата Орегон (Oregon State University)

Page 146: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА112

сов, фундаментальное исследование глобальной системы климата сохраняет свою актуальность, но представители бизнеса и разработчики политик задают вопросы, которые намного более междисциплинарны, чем ранее. Такой новый метод более схож с разработкой сценария в поддержку оценки и управления рисками, чем с традиционным решением проблем и погоней за знаниями ради знаний.

В науке о климате спрос нацелен на обратную связь между изменением климата и социоэкономическими процессами, редкие (но очень действенные) события, а также разработку адаптивных политик и протоколов управления. Сторона предложения науки предпочитает исследования физических и биоло-гических аспектов климатической системы в континентальном или глобальном масштабе, а также сокращение неопределенности (например, [5]). Такое несоот-ветствие спроса и предложения нарушает возможность общества эффективно и своевременно реагировать на изменяющийся климат.

ПОСЛЕДНЯЯ ИСТОРИЯ

Инфраструктура информационных технологий (ИТ) 25-летней давности хоро-шо подходила для состояния науки того времени. Объемы данных были относи-тельно небольшими, и поэтому каждый их элемент был драгоценным. ИТ-систе-мы были достаточно дорогими и доступными только для экспертов. Основной процесс был связан с системой сбора данных (например, лаборатория или поле-вые датчики), перемещением в систему хранения, обработкой и анализом дан-ных, их визуализацией и публикацией.

На рисунке 1 показана архитектура информационной системы для систе-мы обзора Земли (Earth Observing System Data and Information System, EOSDIS) NASA конца 1980-х годов. Хотя многие считают, что EOSDIS была слишком ам-бициозной (она планировалась в расчете на 1 терабайт данных в день), основ-ной аргумент против нее заключался в том, что она слишком централизована для системы, которая должна управляться наукой. EOSDIS должна была стать фабрикой данных, работающей с набором четких требований с небольшой воз-можностью вливания знаний или технологии. В конечном счете спор был не о централизованности или децентрализованности, а о том, кто будет управлять требованиями: научное сообщество или подрядчик NASA. Базовая архитекту-ра, с хорошо определенными (и относительно умеренными) потоками данных, а также смесью централизованных и распределенных компонентов, осталась без изменений, даже при том, что Интернет и объемы онлайн-данных выросли в геометрической прогрессии.

СЕГОДНЯШНИЙ ДЕНЬ

Сегодня набор национальных центров суперкомпьютеров, особенно с появле-нием «облачных вычислений», выглядит очень похожим на архитектуру, пока-занную на рисунке 1. Не имеет значения, выполняется ли подключение к сети

Page 147: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 113

по асинхронному соединению RS-232, модему или гигабитной ЛВС, стоит ли на рабочем столе ученого графический терминал VT100 или современная многоя-дерная рабочая станция. Доступ к виртуализированным (но распределенным) хранилищам данных и вычислительным возможностям через сеть возможен при помощи относительно маломощных устройств.

С момента создания EOSDIS закон Мура действует уже 25 лет. Хотя в общем мы наблюдаем фокус на повышении производительности и стремительном со-кращении соотношения цены и производительности, темп быстрых технологи-ческих инноваций создал огромное давление на традиционные методы проведе-ния научных исследований. Огромные количества данных в значительной мере сократили ценность их отдельного элемента, и мы уже ограничены не данными, а способностью их понимания. «Большое количество данных» должно относить-ся не только к централизованным хранилищам, но также и к намного большим объемам данных, доступных по сети в офисах, лабораториях, домах, а также по-

Внешние/внутренниепользователи

Клиент

Внешние источники данных

Удаленные сервера данных

Мультимедийноераспространение

Поглощениеданных

Обработкаданных

Поискпоставщика

сервиса

Advertisements

Поиски доступк данным

Прямой доступ

Поиск и доступ

к данным

Поглощенныеданные

Входящие и исхо-дящие данные

Выданные запросы

Доступность данных

Распределенныйпоиск

Сервер данныхEOSDIS

РекламаРазмещение рекламы

ПланированиеПланы

Информация словарей

Другие веб-сайты

Другие веб-сайты

Коллекции данных

Управлениелокальной системой Информация

по управлениюсистемой

РИСУНОК 1.

Информационная система для системы обзора Земли (EOSDIS) NASA — план 1989 г.

Page 148: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА114

средством датчиков и портативных устройств. Поэтому вычисления с использо-ванием большого количества данных должны рассматриваться, как нечто боль-шее, чем просто возможность хранения и перемещения более крупных объемов данных. Сложность этих новых наборов данных и увеличивающееся разнообра-зие таких потоков данных делает традиционную вычислительную модель с цен-тром обработки данных устаревшей для современных научных исследований.

ПОСЛЕДСТВИЯ ДЛЯ НАУКИ

Информационные технологии влияют на научное сообщество двумя способа-ми. Во-первых, они привели к массовости хранилищ данных и вычислительных мощностей. Такие сервисы являются разумным вариантом для научных задач, которые могут выполняться при помощи стандартных сервисов. Всегда намно-го экономичнее использовать низкодоходные и объемные сервисы при помощи централизованных механизмов, таких как облачные вычисления. Поэтому все больше университетов полагаются на такие сервисы для резервного копирова-ния данных, электронной почты, приложений для повышения производитель-ности офиса и других задач.

Второй путь, которым ИТ влияет на научное сообщество, — это радикальная персонализация. Имея персональный доступ к терафлопам вычислений и тера-байтам хранилищ, ученые могут создавать свои собственные вычислительные облака. Инновации и новые научные сервисы приходят из сетей, а не из управ-ляемых продуктами центров обработки данных. Более того, вскоре не только ученые, но огромное количество датчиков и лабораторных приборов будут под-ключены к Интернету со своими собственными локальными сервисами вычис-ления и хранения. Задача заключается в использовании мощности этой новой сети массивно распределенных сервисов знаний.

Сегодня научные открытия происходят не только за счет хорошо определен-ного и оживленного процесса тестирования гипотез. Большие объемы данных, комплексные и сложные в обнаружении взаимосвязи, интенсивность и смеще-ние взаимодействия дисциплин, а также новые типы публикации практически в реальном времени добавляют в научные методы обнаружение шаблонов и правил [6]. Мы можем увидеть схождение этого нового типа исследований с ис-пользованием большого количества данных и нового поколения возможностей информационных технологий, особенно в сфере науки о климате и связанных с ней политик.

Выравнивание спроса и предложения в науке в контексте продолжающейся научной неопределенности будет зависеть от поиска новых связей, преодолева-ющих языковые и культурные барьеры для возможности взаимодействия, и объ-единения моделей и данных для оценки сценариев. Этот процесс больше похож на сетевые игры, чем на традиционный научный метод. Для охвата важных эле-ментов сохранения данных, взаимодействия, источников и отчетности в крайне распределенном и насыщенном данными исследовательском сообществе требу-ются новые методы.

Page 149: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 115

Вместо хорошо определенных сетей и фабрик данных, объединенных с ин-дивидуальной системой публикации, опирающейся на обзор работ коллегами и систему авторских прав, этот новый метод исследований будет более свободным и менее прогнозируемым, по своему подходу к выявлению знаний напоминая экосистему. Таким образом, он предусматривает свободные сети потенциаль-ных услуг, быстрые инновации, и намного более тесное сотрудничество между теми, кто создает знания, и теми, кто их использует. Как и в любой экосистеме, появляющееся (а иногда и непрогнозируемое) поведение будет доминирующей характеристикой.

Наши существующие институты — включая федеральные агентства и ис-следовательские университеты — будут озадачены этими новыми структура-ми. Физическая структура университета или миллионы долларов федераль-ных грантов не будут требоваться для доступа к данным и вычислениям, как и к новым партнерам. Более того, строгость штатных должностей и их четкая фокусировка на личных достижениях в отдельной научной дисциплине могут работать против этих новых методов. Нам нужна организация, которая объеди-няет естественные науки с социоэкономикой, балансирует науку и технологию, фокусируется на системном мышлении, поддерживает гибкие междисципли-нарные методы для решения проблем в долговременной перспективе, интегри-рует создание и использование знаний, а также выравнивает индивидуальные и групповые достижения.

Такая новая организация может открыть интегрированные методы для устойчивого развития в будущем, которые будут направлены на понимание все-го многообразия вариантов будущего развития. Она будет фокусироваться на процессах глобального масштаба, заявленных на региональном уровне с четки-ми социально-экономическими последствиями. В отличие от традиционной ака-демической организации с ее относительно статическим набором профессор-ских должностей, новая организация сможет принимать на себя больше рисков, создавать и развивать новые партнерства, и привлекать талантливых специали-стов для решения конкретных задач. Мы соберем людей со всего мира, как в фильме «Миссия невыполнима», для решения конкретных проблем — в данном случае, вопросов изменения климата.

КАК ЭТО СДЕЛАТЬ

Как сегодняшние информационные технологии могут поддержать этот новый тип организации и новый тип науки? В эру EOSDIS предполагалось, что реля-ционные базы данных дадут основные сервисы, необходимые для управления большими объемами данных, поступающих со спутников системы обзора Земли. Технология баз данных не охватывает инновации системы, которой управляется наука, хотя она и дала основные сервисы для стандартных продуктов информа-ции системы обзора Земли. Сегодня семантически структурированные сети и онтологии предлагаются в качестве средства поддержки обнаружения знаний и взаимодействия. Однако, как и в случае с базами данных, возможно, что научное

Page 150: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА116

сообщество будет неохотно использовать эти сложные инструменты в любых на-правлениях, кроме наиболее обыденных задач.

Наконец, цифровые технологии могут предоставить только относительно ограниченные описания всего богатства и комплексности реального мира. Кро-ме того, для поиска необычного и неожиданного требуется креативность и оза-рения — процессы, которые сложно представить в жесткой цифровой системе. С другой стороны, простое применение основанных на использовании стати-стических корреляций, подобных PageRank1, не обязательно приведет к обна-ружению редкого и неожиданного. Однако новые ИТ-инструменты для мира, использующего большое количество данных, могут предоставить возможность «фильтрования» таких объемов данных до управляемого уровня, а также сер-висы визуализации и представления для упрощения получения креативных от-крытий и построения партнерских отношений.

Архитектура для вычислений с использованием большого количества дан-ных должна основываться на сервисах хранения, вычисления и представления в каждом узле взаимосвязанной сети. Предоставление стандартных систем с воз-можностью расширения, включающих в себя инновации, должно поддерживать формирование и развитие таких «экосистем» знаний с изменением науки о кли-мате и связанных с ней политик.

ССЫЛКИ

[1] D. S. Greenberg, Science, Money, and Politics: Political Triumph and Ethical Erosion. Chicago: University of Chicago Press, 2001.

[2] National Research Council, Assessing the Impacts of Changes in the Information Technology R&D Ecosystem: Retaining Leadership in an Increasingly Global Environment. Washington, D.C.: National Academies Press, 2009.

[3] D. Sarewitz and R. A. Pielke, Jr., «The neglected heart of science policy: reconciling supply of and demand for science», Environ. Sci. Policy, vol. 10, pp. 5—16, 2007, doi: 10.1016/ j.envsci.2006.10.001.

[4] L. Dilling, «Towards science in support of decision making: characterizing the supply of carbon cycle science», Environ. Sci. Policy, vol. 10, pp. 48—61, 2007, doi: 10.1016/j.envsci.2006.10.008.

[5] Intergovernmental Panel on Climate Change, Climate Change 2007: The Physical Science Basis. New York: Cambridge University Press, 2007.

[6] C. Anderson, «The End of Theory», Wired, vol. 16, no. 7, pp. 108—109, 2008.

1 Основной алгоритм поискового механизма Google.

Page 151: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 117

КРИСТОФЕР САУТЕН (CHRISTOPHER SOUTHAN) ГРЭМ КЭМЕРОН (GRAHAM CAMERON) Европейская лаборатория молекулярной биологии (European Molecular Biology Laboratory, EMBL) — Европейский институт биоинформатики (European Bioinformatics Institute, EBI)

За пределами цунами: Разработка

инфраструктуры для данных наук о жизни

Научные революции трудно оценить, но скорость по-явления новых данных в науке увеличилась настоль-ко, что для оценки величины этого эффекта на все сферы достаточно изучить отдельную сферу наук о

жизни. На рисунке 1 на следующей странице иллюстрирует-ся огромное увеличение количества индивидуальных основа-ний, переданных мировым сообществом экспериментаторов в Базу данных по нуклеотидным последовательностям Евро-пейской лаборатории молекулярной биологии1 (EMBL-Bank). Количество поданной информации сейчас растет со скоро-стью 200% в год.

Опекунство над информацией выполняет Международ-ное партнерство по базам данных нуклеотидных последо-вательностей (International Nucleotide Sequence Database Collaboration, INSDC), которое состоит из японского банка данных ДНК (DNA Data Bank of Japan, DDBJ), GenBank в США и EMBL-Bank в Великобритании. Эти три хранилища обмени-ваются данными ежедневно. В мае 2009 г. общее количество составляло около 250 млрд баз в 160 млн записей.

Недавно переданный в EMBL-Bank документ под номе-ром FJ982430 иллюстрирует скорость образования данных и эффективность мировой инфраструктуры биоинформатики в ответ на кризис здоровья. Он содержит полную последова-

1 www.ebi.ac.uk/embl

Page 152: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА118

тельность подъединицы H1 из 1699 оснований от первого случая ново-го вируса гриппа H1N1 в Дании. Он был передан 4 мая 2009 г. — через несколько дней после диагностиро-вания первого инфицированного че-ловека. С момента начала мировой эпидемии H1N1 в 2009 г. было пере-дано намного больше последователь-ностей подъединиц вируса из США, Италии, Мексики, Канады, Дании и Израиля.

EMBL-Bank находится в Европей-ском институте биоинформатики, научной организации из Кембриджа, Великобритания, которая входит в состав Европейской лаборатории мо-лекулярной биологии. EBI является центром исследований и сервисов в биоинформатике. Он содержит био-логическую информацию, включая нуклеиновую кислоту, последова-тельности протеина и макромолеку-лярные структуры. Соседний Инсти-тут Сенгера (Wellcome Trust Sanger Institute) создает около 8% мировых данных о последовательностях. Оба

этих института в университетском городке Wellcome Trust Genome располагают учеными, которые создают данные и администрируют базы данных, в которые они поступают, биокураторами, предоставляющими аннотации, биоинформа-тиками, которые разрабатывают аналитические инструменты, и группами ис-следователей, которые ведут поиск биологических знаний и консолидируют их в ходе дальнейших экспериментов. Следовательно, это сообщество, где каждый день сталкиваются с проблемами, окружающими компьютерную инфраструк-туру, хранение и поиск данных, и где непрерывно изучаются варианты решений локального и глобального взаимодействия.

Общее название сервиса информации о нуклеотидных последовательно-стях — Европейский нуклеотидный архив (European Nucleotide Archive) [1]. В его состав входят EMBL-Bank и три других хранилища, которые были созданы для новых типов получаемых данных: Trace Archive для отслеживания данных от капиллярных приборов первого поколения, Short Read Archive для данных от приборов секвенирования следующего поколения и вспомогательный Trace Assembly Archive, в котором хранятся совмещения процессов считывания по-

Масштаб в млрд

1982

1985

1990

2000

2005

2009

1995

Темпы роста EMBL-Bank

150

0

300

250

100

200

50

3 января 2009 г.:270,3 млрд

Коли

чест

во о

снов

аний

Дата выпуска

РИСУНОК 1.

Увеличение количества оснований, переданных в EMBL-Bank с 1982 г. по начало 2009 г.

Page 153: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 119

следовательностей со ссылками на готовые по-следовательности генома в EMBL-Bank. Данные всех архивов подвергаются регулярному обмену с Национальным центром информации био-технологий (National Center for Biotechnology Information) в США. На рисунке 2 сравниваются размеры EMBL-Bank, Trace Archive и Short Read Archive.

ЗАДАЧИ СЕКВЕНИРОВАНИЯ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ

Появление в 2005 г. так называемых приборов секвенирования следующего поколения, способ-ных производить миллионы операций считыва-ния последовательности ДНК за один проход, не только привело к огромному увеличению генетической информации, но и вывело био-информатику и исследования в области наук о жизни в общем на передний край развития инфраструктуры для хранения, перемещения, интерпретации и визуализации наборов данных в петамасштабе [2]. Short Read Archive, европей-ское хранилище для данных от этих машин, по-лучило 30 терабайт (Тб) данных в первые шесть месяцев работы — что эквивалентно почти 30% всей информации EMBL-Bank, накопленной за более чем 28 лет с момента начала сбора инфор-мации. Внедрение новых приборов и техниче-ских разработок не только увеличит количество

передаваемой в этот архив информации в ближайшие несколько лет, но и станет прелюдией прихода систем секвенирования ДНК «следующего-следующего по-коления» [3].

Для обеспечения этой потребности EBI увеличил объем хранилища с 2,5 тыс. Тб (2,5 Пб) в 2008 г. до 5 тыс. Тб (5 Пб) в 2009 г. — с учетом ежегодного удвоения. Даже если темп роста объемов сохранится, могут возникнуть другие узкие места, так как ограничения ввода-вывода переходят к другим частям инфраструктуры. Например, в таком масштабе традиционное резервное копирование становится непрактично медленным. Действительно, при гипотетической потере данных в EBI на восстановление понадобятся месяцы. Это означает, что более эффектив-ным вариантом становится потоковая репликация исходных данных с сохране-нием копий в нескольких местах. Другим примером узкого места является то, что технические достижения в скоростях передачи данных сейчас опережают

1.7

0.27

1.5

75

1.9

30

Объем (тераоснований)

Капиллярные следыСчитывания следующих геномовСобранная последовательность

Объем (терабайт)

РИСУНОК 2.

Размер в объемах данных и но-мерах нуклеотидов EMBL-Bank, Trace Archive и Short Read Archive по состоянию на май 2009 г.

Page 154: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА120

возможности записи на диск — около 70 мбит/с, без ожиданий существенного увеличения производительности. Эту проблему можно решить записью на не-сколько дисков, но при значительном увеличении стоимости.

Неумолимое повышение нагрузки вызывает необходимость постоянной оценки баланса между передачей выявленных данных в хранилища и локаль-ным хранением необработанных результатов приборов. Ученые на всех этапах процесса, экспериментаторы, операторы приборов, администраторы центров обработки данных, биоинформатики и биологи, анализирующие результаты, столкнутся с необходимостью участия в процессах принятия решений о стра-тегиях в отношении хранилищ. Например, в лабораториях, использующих высокопроизводительные приборы секвенирования, стоимость сохранения не-обработанных данных для конкретного эксперимента уже приближается к сто-имости повторения такого эксперимента. Исследователи могут отказываться от идеи удаления необработанных данных после обработки, но на это прагматич-ное решение стоит посмотреть повнимательнее. Решения, вызывающие меньше разногласий, включают в себя сортировку вариантов сокращения данных меж-ду необработанными результатами, вызовами баз, считыванием последователь-ностей, групп и последовательностей общих элементов генома. Примером та-кого решения может быть FASTQ, текстовый формат хранения нуклеотидных последовательностей и оценок их качества, с кодировкой единственным сим-волом ASCII. Разработанный в Институте Сенгера, он недавно стал стандартом для хранения результатов приборов секвенирования следующего поколения. Он может обеспечивать 200-кратное сокращение объема данных — то есть 99,5% необработанных данных можно отбрасывать. Сейчас ведутся разработки даже еще более сжатых представлений данных последовательности.

ГЕНОМЫ: СВОРАЧИВАНИЕ ПРОИЗВОДСТВЕННОЙ ЛИНИИ

Получение полных геномов намного опережает наше понимание биологии и эволюции. Впечатляющий прогресс показан на рисунке 3, который отображает увеличение проектов секвенирования геномов в онлайн-базе данных геномов (Genomes OnLine Database, GOLD).

При том, что иллюстрация создана на основе всех глобальных проектов секвенирования, многие из этих геномов доступны для анализа на веб-сайте Ensembl, который совместно поддерживают EBI и Институт Сенгера. На графи-ке видно, что к 2010 г. было начато намного более 5 тыс. проектов генома, и более чем в 1 тыс. были получены полные группы. Последний заметный пример — это геном коровы [4], полученный после генома цыпленка, за которым вскоре последуют все основные сельскохозяйственные виды. Они не только помогут расширить наше понимание эволюции и одомашнивания млекопитающих, но также ускорят генетические достижения для фермерского хозяйства и произ-водства пищевых продуктов.

Page 155: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 121

ПОВТОРНОЕ СЕКВЕНИРОВАНИЕ ГЕНОМА ЧЕЛОВЕКА: ДАЛЬНЕЙШЕЕ УВЕЛИЧЕНИЕ МАСШТАБА ДАННЫХ

Недавние полногеномные изучения генетической изменчивости углубили наше понимание основных заболева-ний человека. Они мотивировали об-разование международного консор-циума для разработки расширенного каталога последовательностей для раз-личных народов. В следующие три года Институт Сенгера, Пекинский институт геномики (BGI Shenzhen) в Китае и Крупномасштабная програм-ма секвенирования генома (Large-Scale Genome Sequencing Program) в Национальном институте исследова-ния генома человека (National Human Genome Research Institute) США пла-нируют секвенировать не менее 1 тыс. геномов человека.

В 2008 г. в пробной фазе проекта создавалось около 1 тераоснований (триллион оснований) данных после-довательностей в месяц; это количе-ство должно удвоиться в 2009 г. Общее количество должно составить около 20 тераоснований. Необходимость в наличии около 30 байт дискового про-

странства на одно основание последовательности можно экстраполировать при-мерно в 500 ТБ данных для проекта в целом. Для сравнения, первоначальному проекту генома человека понадобилось около 10 лет для создания примерно 40 гигаоснований (миллиардов оснований) последовательности ДНК. В следующие два года в день будет секвенироваться до 10 млрд оснований, что сопоставимо примерно с двумя геномами человека (2,85 млрд на человека), каждые 24 часа. Завершенный набор данных из 6 триллионов оснований ДНК будет в 60 раз больше данных последовательности, показанных на рисунке 1 выше.

РАЗУМНОЕ ОСНОВАНИЕ ДЛЯ УПРАВЛЕНИЯ ДАННЫМИ: ПЕРЕХОД К НОВЫМ ЗНАНИЯМ

Еще до появления эскиза генома человека в 2001 г. биологические базы дан-ных перемещались с периферии в центр современных научных исследований,

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

4000

2500

1000

0

4500

3500

1500

2000

3000

500

Проекты секвенированиягенома в GOLD

Прое

кты

Год

Январь 2009 г.: 4370 проектов

Неполные

Полные

РИСУНОК 3.

Увеличение количества начатых и завершен-ных проектов генома с 1997 г. в онлайн-базе геномов (GOLD). Информация предоставлена GOLD.

Page 156: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА122

что приводило к проблеме отставания возможности получения данных от воз-можности их создания. В результате возникла необ-ходимость в новых методах полного использования не только данных генома, но и других наборов высокопро-изводительных результиру-ющих множеств, которые хранятся в базах данных. Эти наборы результирую-щих множеств также стано-вятся более нейтральными к гипотезам в сравнении с традиционными сфокуси-рованными эксперимента-ми небольшого масштаба. Статистика использования сервисов EBI, показанная на рисунке 4, показывает, что биологическое сообщество при поддержке своих парт-неров — специалистов био-информатики — использу-ют эти ресурсы все чаще и чаще.

Веб-страницы, связанные с 63 базами данных, которые хранятся в EBI, сейчас опрашиваются более 3,5 млн раз в день, что составляет более полумиллиона уни-кальных пользователей в месяц. Хотя это не совпадает с ускорением накопления данных, подтверждения устойчивого увеличения в добыче данных предостав-ляются показателями программного доступа к веб-услугам, которые приближа-ются к 1 млн в месяц. Для еще большего упрощения использования данных EBI разрабатывает систему поиска EB-eye с использованием открытых стандартов, которая предоставит общую точку входа. За счет индексирования в различных форматах (таких как плоские файлы, XML-дампы и формат OBO), система пре-доставляет быстрый доступ и позволяет пользователю выполнять поиск по всем базам данных EBI или по отдельным выбранным источникам.

CGI

2005 2006 2007 2008 20090

200,000

400,000

600,000

800,000

1,000,000

API

Увеличение доступа к EBI

Коли

чест

во за

дач

Год

РИСУНОК 4.

Веб-доступ (Общий шлюзовый интерфейс (Common Gateway Interface, CGI)) и использование веб-сервисов (интерфейс прикладного программирования (application programming interface, API)), зарегистрированные на сер-верах EBI с 2005 по 2009 г.

Page 157: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 123

ЕВРОПЕЙСКИЕ ПЛАНЫ ПО КОНСОЛИДАЦИИ ИНФРАСТРУКТУРЫ

Ресурсы EBI эффективно реагируют на увеличение спроса со стороны созда-телей и пользователей данных, но для увеличения масштаба для наук о жизни в Европе требуется перспективное планирование. Это миссия проекта ELIXIR, направленного на обеспечение надежной распределенной инфраструктуры для максимального увеличения доступа к биологической информации, которая сей-час находится в более чем 500 базах данных по всей Европе. Проект решает не только проблемы управления данными, но и вопросы надежного финансиро-вания для сохранения коллекций данных и глобального сотрудничества. Также ожидается, что он создаст процессы для разработки коллекций для новых типов данных, с поддержкой взаимодействия инструментов биоинформатики и разра-боткой стандартов и онтологий биоинформатики.

Развитие проекта ELIXIR проходит параллельно с переходом в новую фазу, где высокопроизводительные вычисления с использованием большого количе-ства данных становятся важными для прогресса наук о жизни [5]. Точно пред-угадать последствия исследования невозможно, но можно дать определенные подсказки. Выполняя добычу данных не только во все более сложных наборах, созданных при секвенировании генома, о чем говорилось выше, но и в данных транскрипта, информации протеомики и результатах конструкционной гено-мики, биологи получат новые знания о процессах жизни и их развитии. Это в свою очередь даст новые возможности прогноза для синтетической и системной биологии. Помимо глубокого влияния на будущие научные исследования, такой управляемый данными прогресс также перейдет в более прикладные области науки — такие как фармацевтические исследования, биотехнологии, медици-на, здравоохранение, сельское хозяйство и экология — для повышения качества жизни каждого из нас.

ССЫЛКИ

[1] G. Cochrane et al., «Petabyte-scale innovations at the European Nucleotide Archive», Nucleic Acids Res., vol. 37, pp. D19—25, Jan. 2009, doi: 10.1093/nar/gkn765.

[2] E. R. Mardis, «The impact of next-generation sequencing technology on genetics», Trends Genet., vol. 24, no. 3, pp. 133—141, Mar. 2008, doi: 10.1016/j.physletb.2003.10.071.

[3] N. Blow, «DNA sequencing: generation next-next», Nat. Methods, vol. 5, pp. 267—274, 2008, doi: 10.1038/nmeth0308-267.

[4] Bovine Genome Sequencing and Analysis Consortium, «The genome sequence of taurine cattle: a window to ruminant biology and evolution», Science, vol. 324, no. 5926, pp. 522—528, Apr. 24, 2009, doi: 10.1145/1327452.1327492.

[5] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, no. 5919, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

Page 158: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 159: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 125

ДЖЕЙМС ЛАРУС (JAMES LARUS) ДЕННИС ГЭННОН (DENNIS GANNON) Microsoft Research

Многоядерные вычисления и научные открытия

Во второй половине прошлого столетия параллельные компьютеры, параллельные вычисления и научные ис-следования развивались вместе. Постоянная необходи-мость исследователей и ученых в проведении большего

количества более объемных вычислений намного опередила возможности традиционных компьютеров. Единственный метод, который отвечает этой необходимости в параллельно-сти — вычисление более чем одной операции одновременно. С одной стороны, параллельность — простая и легкая задача для практической реализации. Создать параллельный ком-пьютер путем дублирования ключевых компонентов, таких как арифметический блок или даже процессор, не так уж и сложно. Но намного труднее создать хорошо сбалансирован-ную машину, которая не блокируется внутренними узкими местами. И основной проблемой было не аппаратное обеспе-чение, а программное. Проектировать, писать, отлаживать и настраивать параллельные программы намного сложнее, чем последовательные, и они еще не стали зрелой и распростра-ненной практикой.

ЭВОЛЮЦИЯ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛЕНИЙ

Эволюция успешных поколений аппаратного обеспечения параллельного вычисления привела к переоценке параллель-ных алгоритмов и программного обеспечения. Первые ком-пьютеры, такие как IBM Stretch, Cray I и серия Control Data Cyber проявляли параллельность в виде векторных операций. Cray II, Encore, Alliant и множество поколений компьютеров IBM были созданы с несколькими процессорами и общей па-мятью. Так как выяснилось, что при использовании общей па-

Page 160: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА126

мяти увеличивать количество процессоров сложно, конструкции развивались в системы, где память не была общей, и процессоры обменивались информацией при помощи передачи сообщений. Кластеры Beowulf, состоящие из стоек стан-дартных ПК, соединенных по сети Ethernet, возникли в качестве экономичного метода супервычислений. Сети увеличили пропускную способность и задержку, и такая форма распределенных вычислений стала основной для суперкомпью-теров. Другие системы, такие как многопотоковые платформы Cray, продемон-стрировали наличие различных возможностей решения проблемы параллель-ности с общей памятью. В то время как сообщество научных вычислений решало задачи программирования для каждого поколения этих экзотических машин, миру основных вычислений вполне хватало последовательного программиро-вания на машинах, где любой параллелизм скрыт от программиста в глубинах аппаратного обеспечения.

В последние несколько лет с появлением многоядерных компьютеров па-раллельные компьютеры вошли в основной поток вычислений. Ранее большая часть компьютеров была последовательной, и они выполняли одну операцию в единицу времени. Закон Мура вызвал улучшения в технологии полупроводни-ков, которая удваивает количество транзисторов на чипе каждые два года, что повысило тактовую частоту компьютеров в таком же объеме и позволило при-менять компьютеры для более сложных задач. В результате производительность компьютеров росла примерно на 40% в год, начиная с 1970-х гг., и этот темп под-ходил большинству разработчиков ПО и пользователям компьютеров. Такое постоянное развитие завершилось, так как при повышении тактовой частоты требуется больше мощности, и примерно на отметке 3 ГГц чипы достигли пре-делов экономичного охлаждения. Производители компьютерных чипов, такие как Intel, AMD, IBM и Sun, перешли к многоядерным процессорам, в которых каждое новое поколение транзисторов по закону Мура удваивает количество независимых процессоров на чипе. Каждый процессор работает не быстрее сво-его предшественника, а иногда и немного медленнее, но в целом многоядерный процессор может работать в два раза быстрее своего предшественника.

ПРОБЛЕМЫ ПАРАЛЛЕЛЬНОГО ПРОГРАММИРОВАНИЯ

Новое поколение компьютеров сталкивается с теми же проблемами программ-ного обеспечения, с которыми научное сообщество боролось на протяжении всей долгой истории параллельных компьютеров. Наиболее впечатляющее уни-версальное программное обеспечение написано для последовательных компью-теров, и на многоядерных оно не будет работать быстрее. Для использования всего потенциала этих машин требуется новое параллельное программное обе-спечение, которое сможет разбивать задачу на несколько частей, решать их бо-лее-менее независимо, и собирать результаты в общий ответ. Поиск лучших пу-тей для создания параллельного программного обеспечения в настоящее время является наиболее актуальной проблемой, с которой сталкивается сообщество разработчиков ПО, и полем для существенных исследований и разработок.

Page 161: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 127

Научное и техническое сообщество могут выиграть от этих усилий и помочь в их развитии. В научном сообществе появилось множество техник параллельного программирования, и такой опыт повлиял на поиск новых методов программи-рования многоядерных компьютеров. Будущие достижения в области програм-мирования многоядерных компьютеров будут выгодны для всех разработчиков ПО, так как разница между вычислениями для передовых научных сообществ и вычислениями общего назначения стерлась неизбежностью параллельных вы-числений в качестве фундаментальной парадигмы программирования.

Одна из ключевых проблем параллельного программирования сегодня за-ключается в том, что оно, как правило, выполняется с очень низким уровнем обобщения. Программисты должны разбивать свой код на части, которые вы-полняются на отдельных процессорах и коммуницируют между собой при по-мощи записи в общую память или обмена сообщениями. Во многом это похоже на первые дни существования компьютеров, когда программы писались на язы-ках ассемблера для конкретного компьютера, а для работы на другом компью-тере их нужно было переписывать. В обеих ситуациях проблема заключалась не только в нехватке возможности повторного использования программ, но и в том, что разработка на языке ассемблера была менее производительной и устой-чивой к ошибкам, чем написание программ на языках более высокого уровня.

УСТРАНЕНИЕ ПРОБЛЕМ

Для повышения уровня создания параллельных программ ведутся исследова-ния по нескольким направлениям. Наиболее старой и хорошо определенной идеей является программирование с распараллеливанием данных. В этой пара-дигме программирования операция или последовательность операций приме-няется одновременно ко всем элементам в наборе данных. Глубина детализации операции может разниться от добавления двух чисел в параллельном сложении данных двух матриц до сложных расчетов добычи данных в вычислениях типа «map-reduce» [1]. Привлекательность вычислений с распараллеливанием дан-ных заключается в том, что параллельность практически полностью скрыта от программиста. Каждое вычисление выполняется в изоляции от других расчетов с другими данными, а код, определяющий вычисление, является последователь-ным. Разработчику не нужно заботиться о деталях перемещения данных и запу-ска вычислений, так как этим занимается исполняющая система. Графические процессоры предоставляют аппаратную поддержку для такого типа програм-мирования, и недавно появились графические процессоры общего назначения, которые выполняют высокопроизводительные числовые вычисления.

К сожалению, распараллеливание данных — это программная модель, ко-торая работает не для всех типов задач. Для некоторых вычислений требуется больше связи и координации. Например, при складывании протеина усилия на всех атомах рассчитываются параллельно, но локальные взаимодействия вы-числяются отличным от удаленных взаимодействий методом. Другие примеры вычислений, которые сложно записать в виде программ с распараллеливанием

Page 162: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА128

данных, включают в себя различные формы адаптивного уплотнения расчетной сетки, которые используются во многих современных физических моделях, где локальные структуры, такие как сгустки вещества или трещины в структуре ма-териала, требуют более высокого пространственного разрешения, чем осталь-ная часть системы.

Другая идея, которая недавно привлекла внимание исследователей — это па-мять транзакций — механизм координации обмена данными в многоядерном компьютере. Обмен данными является богатым источником ошибок програм-мирования, так как разработчику нужно убедиться, что процессор, который изменяет значение данных, имеет эксклюзивный доступ к ним. Если другой процессор также пытается получить доступ к данным, одно из двух обновле-ний будет утеряно, и если процессор считывает данные слишком рано, он мо-жет увидеть несогласованное значение. Наиболее распространенным механиз-мом исключения этого типа ошибок является блокировка, которую использует программа для запрета одновременного доступа более чем одному процессору к определенному месту памяти. Но, к сожалению, блокировки являются низ-коуровневыми механизмами, которые легко и часто неправильно используются таким образом, что обеспечивают параллельный доступ и приводят к взаимной блокировке, которая замораживает выполнение программы.

Память транзакций является абстракцией более высокого уровня, позволяю-щей разработчику определить группу операторов программы, которая должна исполняться штучно — то есть если в это же время не выполняется другая часть программы. Поэтому вместо необходимости в установке блокировок для всех данных, к которым могут иметь доступ операторы, разработчик переносит эту нагрузку на исполняющую систему. Память транзакций является многообеща-ющей идеей, но на пути ее широкого распространения остается еще множество технических задач. Сейчас память транзакций является слишком дорогой для внедрения без поддержки в процессорах, и ее применимость и полезность в крупном реальном коде еще не продемонстрирована. Если эти вопросы удаст-ся решить, память транзакций обещает сделать многие аспекты многоядерного программирования намного более простыми и устойчивыми к ошибкам.

Использование языков функционального программирования является еще одной новой идеей. Эти языки воплощают собой стиль программирования, ко-торый практически исключает обновление состояния программы. Другими сло-вами, в этих языках переменной можно присвоить начальное значение, но затем это значение изменить невозможно. Вместо этого создается новая переменная с новым значением. Такой стиль программирования хорошо подходит для па-раллельного программирования, так как устраняет обновления, для которых требуется синхронизация между двумя процессорами. Параллельные функцио-нальные программы в общем используют изменчивое состояние только для свя-зи между параллельными процессорами, и для них требуются блокировки или память транзакций только для этой малой, отдельной части их данных.

Page 163: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 129

До недавнего времени со сложностями использования параллельных ком-пьютеров для чего угодно, кроме наиболее сложных параллельных задач, боро-лись только научные и технические сообщества. Появление многоядерных про-цессоров изменило эту ситуацию и сделало параллельное программирование основной задачей для всех разработчиков программного обеспечения. Новые идеи и инструменты программирования, разработанные для основных про-грамм, скорее всего, также будут выгодны техническому сообществу и предо-ставят ему новые средства для получения преимуществ от постоянно растущей мощности многоядерных процессоров.

ССЫЛКИ

[1] Д. Гэннон (D. Gannon) и Д. Рид (D. Reed), «Параллельность и облако» в этом документе.

Page 164: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 165: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 131

ДЕННИС ГЭННОН (DENNIS GANNON), ДЭН РИД (DAN REED) Microsoft Research

Параллельность и облако

За последние 10 лет научные и технические исследова-ния при помощи компьютеров стали третьим столпом научного процесса, дополнив теорию и эксперимент. В нескольких национальных исследованиях выделялась

важность компьютерной науки как критического деблоки-ратора научных открытий и национальной конкурентоспо-собности в физике и биологии, медицине и здравоохранении, проектировании и производстве [1-3].

Компьютерная наука исторически фокусировалась на вы-числениях: создании и выполнении математических моделей естественных и искусственных процессов. Теперь компью-терная наука расширяется до анализа данных и управления потребностями и возможностями. Сегодня растущее цунами данных, с его объемами и разнообразием, может ошеломить нас. Управляемое недорогими, кажущимися вездесущими датчиками, широкополосными сетями и системами хранения большого объема, цунами несет данные датчиков, наблюда-ющих за нашей планетой из глубин океана, наземных прибо-ров и космических систем получения изображений; измере-ния окружающей среды; данные здравоохранения, которые оценивают биологические процессы и влияние окружающих условий. Проще говоря, мы переходим от малого количества данных к их избытку, что приводит к относительной нехватке внимания к любым отдельным данным и вызывает необходи-мость в отборе с помощью компьютеров.

Такая доступность различных данных переводит научные методы от традиционных, под управлением гипотез, к науке, основанной на исследованиях. Исследователи уже не спраши-вают, какой эксперимент они могут придумать, чтобы прове-рить гипотезу. Наоборот, они все чаще задаются вопросом, ка-кие корреляции можно получить из сохранившихся данных. Говоря более образно — какие знания можно получить, если

Page 166: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА132

объединить данные различных дисциплин и предметных областей? Задача за-ключается в анализе многих петабайт данных в ограниченных масштабах вре-мени.

Возможность создания богатых и подробных моделей природных и искус-ственных феноменов, а также обработки больших объемов экспериментальных данных, созданных новым поколением научных приборов, управляемых вычис-лениями, делает компьютеры универсальным усилителем интеллекта, продвига-ющим все направления науки и техники и питающим инновационную экономи-ку. Последнее технологическое достижение компьютерной науки — облачные вычисления — позволяет размещать, обрабатывать и анализировать большие объемы междисциплинарных данных. Объединение вычислительных мощно-стей и хранилищ в очень крупных центрах обработки данных создает экономию в проектировании и строительстве, приобретении оборудования, а также опе-рациях и обслуживании, которая была недоступна при распределенности этих элементов. Кроме того, объединение и хранение устраняют множество техниче-ских и социологических барьеров, которые ограничивали междисциплинарный обмен знаниями и взаимодействие. Наконец, размещение в облаке упрощает задачу долговременного хранения данных — что особенно сложно для универ-ситетов и правительственных организаций, и критически важно для наших воз-можностей проведения продолжительных экспериментов.

Имеет смысл отметить, что современные центры обработки данных и су-перкомпьютеры похожи на близнецов, которых разделили после рождения. Они очень похожи по конструкции и организованы в виде сетей общающихся вычислительных узлов. Отдельные узлы каждого основаны на стандартных ми-кропроцессорах с множеством ядер, большой памяти и локальных дисках. Те и другие выполняют приложения, рассчитанные на использование параллельно-сти в большом количестве. Их разница заключается в том, как они развивались. Параллельные суперкомпьютеры разрабатывались в поддержку вычислений со случайными скачками мощности и для выполнения отдельных крупных расче-тов как можно быстрее, по одной задаче в единицу времени. В отличие от них, центры обработки данных «раздают» свою мощность и потребляют огромное количество входящих данных.

Параллельность может использоваться в облачных вычислениях двумя спо-собами. Первый — для доступа пользователей. Облачные приложения рассчита-ны на доступ в виде веб-сервисов, поэтому они организованы в форме двух или более слоев процессов. Один слой предоставляет интерфейс сервиса для браузе-ра пользователя или клиентского приложения. Такой слой «веб-роли» принима-ет запросы пользователей и управляет задачами, назначенными второму слою. Второй слой процессов, иногда называемый «ролью рабочего процесса», выпол-няет аналитические задачи для ответа на запросы пользователя. Одной веб-роли и одной роли рабочего процесса может быть достаточно для нескольких одно-временных пользователей, но если облачное приложение должно использовать-ся более широко — например, для задач поиска, реализации социальных сетей,

Page 167: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 133

погодных сервисов, данных путешествий или онлайн-аукционов — оно должно поддерживать тысячи одновременных пользователей.

Второй способ использования параллельности подразумевает задачи анали-за данных, которые выполняет приложение. Во множестве сценариев анализа данных отдельный процессор или задачу для сканирования массивного набора данных или потока данных для поиска шаблона использовать непрактично — накладные расходы и задержка будут слишком велики. В таких случаях можно разделить данные между большим количеством процессоров, каждый из кото-рых может анализировать поднабор данных. Результаты затем объединяются и возвращаются пользователю.

Такой шаблон «map-reduce» часто применяется в приложениях центров обработки данных и в обширном семействе запросов анализа параллельных данных, которые используются в облачных вычислениях. Веб-поиск является каноническим примером такой двухфазной модели. Он включает в себя со-здание доступного для обнаружения индекса ключевых слов веб-содержимо-го с созданием копии сети и сортировкой содержимого в последовательности шагов «map-reduce». Такую модель параллельности поддерживают три ключе-вые технологии: Google имеет внутреннюю версию [4], Yahoo! имеет открытую версию Hadoop, Microsoft обладает инструментом «map-reduce», известным как DryadLINQ [5]. Dryad — это механизм поддержки выполнения распределенных наборов задач, которые могут настраиваться на произвольном ориентирован-ном ациклическом графе (directed acyclic graph, DAG). Язык интегрированных запросов (Language Integrated Query, LINQ), как расширение для C#, позволяет встраивать выражения с запросами в стиле SQL непосредственно в программы. Система DryadLINQ может автоматически компилировать эти запросы в Dryad DAG, которые могут автоматически выполняться в облаке.

Microsoft Windows Azure поддерживает комбинацию многопользовательско-го масштабирования и параллельности анализа данных. В Azure приложения созданы в виде «ролей» без памяти состояния, которые достают задачи из оче-редей, выполняют их, и затем устанавливают новые задачи или данные в другие очереди. Вычисления «map-reduce» в Azure состоят из двух наборов ролей рабо-чих процессов: менеджеры памяти, которые отбирают задачи по управлению из очереди и перемещают данные в хранилище Azure, и преобразователи, которые сокращают задачи, указывающие на данные в хранилище, которые необходимо сократить. При том, что DryadLINQ выполняет статические DAG, Azure может выполнять скрытые DAG, где узлы соответствуют ролям, а ссылки — сообще-ниям в очередях. Вычисления Azure могут также представлять параллельность, созданную очень большим количеством одновременных пользователей.

Такой же тип анализа данных «map-reduce» постоянно проявляется в круп-номасштабных процессах научного анализа. Например, рассмотрим задачу со-вмещения образца ДНК с тысячами известных последовательностей ДНК. Такой тип поиска — «сложная параллельная» задача, которая легко может быть уско-рена, если ее разделить на множество независимых задач поиска в поднаборах

Page 168: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА134

данных. Подобным образом рассмотрим задачу поиска шаблонов в медицин-ских данных, например, аномалий на снимках фМРТ мозга или задачу поиска возможных погодных аномалий в потоках событий, поступающих от радаров.

И наконец, другое место, где параллельность может использоваться в цен-трах обработки данных — это уровень аппаратного обеспечения отдельного узла. Не только каждый узел имеет несколько процессоров, но и каждый про-цессор обычно имеет несколько ядер. Для многих задач анализа данных можно использовать параллельность на уровне инструкций. Например, отфильтровка шума из данных датчиков может выполняться с использованием быстрого пре-образования Фурье (БПФ) или других спектральных методов. Такие вычисления можно ускорить при использовании в каждом узле графических процессоров общего назначения. В зависимости от скорости доступа узла к данным такая обработка на основе графических процессоров общего назначения может по-зволить нам сократить количество узлов, необходимых для поддержания общей скорости обслуживания.

Всемирная паутина начиналась со свободной федерации простых веб-сер-веров, на каждом из которых находилась научная документация и данные для относительно небольшого количества исследователей. С ростом количества сер-веров в геометрической прогрессии и развитием мирового Интернета веб-поиск трансформировался из научного эксперимента в новую социальную и эконо-мическую силу. Эффективность поиска стала достижимой только за счет до-ступной параллельности в крупных центрах обработки данных. Мы вступаем в эпоху, когда вся наука управляется взрывом данных, и облачные вычисления с возможностью использования параллельности на многих уровнях стали фунда-ментально новой технологией для развития человеческих знаний.

ССЫЛКИ

[1] President’s Information Technology Advisory Committee, «Computational Science: Ensuring America’s Competitiveness», June 2005, www.nitrd.gov/pitac/reports/20050609_computational/ computational.pdf.

[2] D. A. Reed, Ed., «Workshop on The Roadmap for the Revitalization of High-End Computing», June 2003, www.cra.org/reports/supercomputing.pdf.

[3] S. L. Graham, M. Snir, and C. A. Patterson, Eds., Getting Up to Speed: The Future of Supercomputing, Washington, D.C.: National Academies Press, 2004, www.nap.edu/openbook.php?record_ id=11148.

[4] J. Dean and S. Ghemawat, «MapReduce: Simplified Data Processing on Large Clusters», OSDI’04: Sixth Symposium on Operating Systems Design and Implementation, San Francisco, CA, Dec. 2004, doi: 10.1145/1327452.1327492.

[5] Y. Yu., M. Isard, D. Fetterly, M. Budiu, Ú. Erlingsson, P. Kumar Gunda, and J. Currey, «DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language», OSDI’08 Eighth Symposium on Operating Systems Design and Implementation.

Page 169: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 135

КЭРОЛ ГОБЛ (CAROLE GOBLE) Манчестерский университет (University of Manchester) ДЭВИД ДЕ РУР (DAVID DE ROURE) Саутгемптонский университет (University of Southampton)

Влияние средств рабочих процессов на исследования,

ориентированные на данные

Мы живем в эпоху научных исследований, ориен-тированных на данные, когда гипотезы не толь-ко проверяются при помощи наборов данных и анализа, но и выдвигаются за счет объединения и

добычи уже доступных данных [1-3]. Ландшафт научных дан-ных быстро расширяется в масштабах и разнообразии. Если взять в качестве примера науки о жизни, высокопроизводи-тельные платформы секвенирования гена могут выдавать терабайты данных в одном эксперименте, и объемы данных будут еще более увеличиваться за счет автоматизации про-мышленного масштаба. С 2001 по 2009 г. количество баз дан-ных, заявленных в журнале Nucleic Acids Research, выросло с 218 до 1170 [4]. Наборы данных растут не только по размеру и количеству, они еще и частично скоординированы и зачастую несовместимы [5], что делает задачи обнаружения и интегра-ции очень сложными. В то же время мы используем более широкий спектр источников данных: современная биология получает знания из объединения различных типов данных (проетомики, метаболомики, транскриптомики, геномики), а также данных других дисциплин, таких как химия, клиниче-ская медицина и общественное здравоохранение, а системная биология соединяет многоуровневые данные с многоуровне-выми математическими моделями. Эти данные охватывают все типы: от структурированных записей в базах данных до опубликованных статей, необработанных числовых данных, изображений и описательных интерпретаций, которые ис-пользуются в нормативной лексике.

Page 170: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА136

Создание данных в таких масштабах должно сопровождаться масштабиру-емыми методами обработки. Подготовка, управление и анализ данных являют-ся узкими местами, и этими навыками обладают далеко не все ученые. Рабочие процессы [6] предоставляют (1) систематические и автоматизированные сред-ства анализа различных наборов данных и приложений; (2) описание процес-са, достаточное для того, чтобы результаты были воспроизводимыми, и метод можно было просмотреть, проверить, повторить и адаптировать; (3) визуальный интерфейс сценариев, при помощи которого специалист компьютерной науки может создавать такие процессы без использования низкоуровневого програм-мирования; и (4) платформу интеграции и доступа для растущего количества независимых поставщиков источников, чтобы компьютерным ученым не нужно было специализироваться в каждом направлении. Таким образом, рабочий про-цесс становится парадигмой для поддержки науки в большом масштабе за счет управления процессами подготовки и анализа данных, а также предпочтитель-ным средством получения компьютерных знаний.

РАБОЧИЕ ПРОЦЕССЫ ОПРЕДЕЛЕНЫ

Рабочий процесс — это точное описание научной процедуры, и он состоит из множества шагов для координации различных задач, которые действуют подоб-но сложному сценарию [7]. Каждая задача представляет собой выполнение про-цесса вычисления, например, запуск программы, передача запроса в базу дан-ных, передача задания в вычислительное облако или grid-систему либо вызов сервиса через Интернет для использования удаленного источника. Результаты одной задачи используются в последующих в соответствии с предопределенной топологией графов, которая управляет потоком данных. На рисунке 1 показан пример рабочего процесса, закодированного в Taverna Workflow Workbench [8], который выполняет поиск генов, объединяя четыре публично доступных источ-ника данных из США, Европы и Японии: BioMart, Entrez, UniProt и KEGG.

Системы рабочих процессов обычно имеют три компонента: исполняющую платформу, набор для графического дизайна и средства разработки. Платфор-ма выполняет рабочий процесс от имени приложений и обрабатывает общие перекрестные задачи, включая (1) вызов служебных приложений и обработку гетерогенности типов данных и интерфейсов по различным вычислительным платформам; (2) мониторинг и восстановление после отказов; (3) оптимизацию памяти, хранилища и выполнения, включая одновременность и обеспечение параллельности; (4) обработку данных: распределение, установку ссылок, пере-мещение, потоковую передачу и резервирование; (5) регистрацию процессов и отслеживание источников данных; и (6) обеспечение безопасности и мониторинг политик доступа. Системы рабочих процессов требуются для поддержки про-цессов с длительным выполнением в непостоянных средах, и поэтому должны быть надежными, устойчивыми к ошибкам и иметь возможность восстановле-ния. Они также должны непрерывно развиваться, чтобы охватывать растущие

Page 171: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 137

Get_pathwaysВвод данных рабочего процесса

Вывод результатов рабочего процесса

Ввод данных рабочего процесса

Вывод результатов рабочего процесса

kegg_pathway_release

binfo

merge_kegg_references

kegg_external_gene_reference

merge_pathway_list_1

merge_pathway_list_2merge_pathway_desc

remove_pathway_nulls

merge_entrez_genes

remove_Nulls

merge_genes_and_pathways

merge_genes_and_pathways_2

merge_uniprot_ids

REMOVE_NULLS_2

merge_genes_and_pathways_3

remove_duplicate_kegg_genes

gene_descriptions

gene_ids

merge_reports

reportmerged_pathways

regex_2

split_for_duplicates

species

getcurrentdatabase

concat_kegg_genes

split_gene_ids

remove_uniprot_duplicates remove_entrez_duplicates

remove_pathway_nulls_2

merge_gene_desc

remove_nulls_3

genes_in_qtl

mmusculus_gene_ensembl

create_report

pathway_descriptions

add_uniprot_to_string

Kegg_gene_ids

pathway_ids gene_descriptions

add_ncbi_to_string

Kegg_gene_ids_2

ensembl_database_releasekegg_pathway_release

regex

split_by_regex

Merge_pathway_desc

pathway_desc

Merge_pathways

concat_ids

pathway_desc

pathway_ids

Merge_gene_pathways

pathway_genes

lister

concat_gene_pathway_ids

get_pathways_by_genes1

remove_pathway_duplicates

chromosome_nameqtl_start_positionqtl_end_position

An_output_port An_input_port A_local_service Beanshell A_Soaplab_service String_constant A_Biomart_Service

Вывод результатов рабочего процесса

Ввод данных рабочего процесса

РИСУНОК 1.

Рабочий процесс Taverna объединяет несколько распределенных среди разных стран наборов дан-ных для идентификации генов-«кандидатов», которые могут отвечать за устойчивость к аф-риканскому трипаносомозу [11].

Page 172: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА138

возможности базовых вычислительных ресурсов и хранилищ, предоставляя большие мощности для анализа.

Набор для графического дизайна предоставляет приложение визуальных сценариев для создания и обмена рабочими процессами и подготовки компо-нентов, которые должны быть включены в исполняемые шаги. Цель — защи-тить автора от сложностей базовых приложений и позволить ему разрабатывать и понимать рабочие процессы без привлечения специальных приложений или найма программистов. Это даст ученым возможность создавать свои собствен-ные процессы так, как им необходимо. И, наконец, средства разработки позво-ляют разработчикам расширить возможности системы и встраивать рабочие процессы в свои приложения, веб-порталы или базы данных. Такое встраивание трансформирует: у него есть потенциал бесшовно и незаметно добавить слож-ные знания в те инструменты, которые постоянно используются учеными.

Каждая система рабочих процессов имеет собственный язык, набор графи-ческого дизайна и программные компоненты; системы различаются своими исполняющими моделями и типами компонентов, которые они координируют [9]. Sedna является одним из нескольких языков выполнения бизнес-процессов (Business Process Execution Language, BPEL) промышленного стандарта для на-учных рабочих процессов [10]. Системы рабочих процессов общего назначения с открытым кодом — это Taverna1, Kepler2, Pegasus3 и Triana4.

Другие системы, такие как LONI Pipeline5 для нейровизуализации и ком-мерческая Pipeline Pilot6 для поиска новых лекарств, в большей степени ори-ентированы на конкретные применения и оптимизированы для поддержки специфических библиотек компонентов. Они нацелены на взаимодействующие приложения; другие системы рабочих процессов направлены на обеспечение вычислительных циклов или передачу задач в grid-системы. Например, Pegasus и DAGMan7 использовались для серии крупномасштабных экспериментов е-Науки, таких как прогнозирование землетрясений при помощи информации датчиков в проекте CyberShake8 Центра землетрясений Южной Калифорнии (Southern California Earthquake Center, SCEC).

1 www.taverna.org.uk2 http://kepler-project.org3 http://pegasus.isi.edu4 www.trianacode.org5 http://pipeline.loni.ucla.edu6 http://accelrys.com/products/scitegic7 www.cs.wisc.edu/condor/dagman8 http://epicenter.usc.edu/cmeportal/CyberShake.html

Page 173: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 139

ИСПОЛЬЗОВАНИЕ РАБОЧИХ ПРОЦЕССОВ

Рабочие процессы освобождают ученых от монотонной обработки данных, что-бы они могли сконцентрироваться на научных открытиях. Они берут на себя весь груз стандартных задач, они представляют вычислительные протоколы для проведения науки, ориентированной на данные, и они открывают использова-ние процессов и источников данных для более широкой группы ученых и разра-ботчиков научных приложений.

Рабочие процессы идеально подходят для систематического, аккуратного и повторяемого выполнения стандартных процедур: управление получением данных от датчиков или приборов; очистка, нормализация и проверка данных; безопасное и эффективное перемещение и архивирование данных; сравнение данных между повторяемыми процессами; а также регулярное обновление хранилищ данных. Например, в астрономическом исследовании Pan-STARRS9 используется Microsoft Trident Scientific Workflow Workbench10 — рабочие про-цессы для загрузки и проверки информации с телескопов, объем которой дости-гает около 30 ТБ в год. Рабочие процессы также подтвердили свою полезность в сохранении и обновлении коллекций и хранилищ данных, реагируя на измене-ния в базовых наборах данных. Например, медицинский центр Nijmegen пере-строил базу данных tGRAP по мутациям рецепторов, связанных с G-белком, при помощи инструмента интеллектуального анализа текстов в рабочих процессах Taverna.

На более высоком уровне рабочий процесс является подробным, точным и модульным выражением компьютерного экспериментального протокола. Ра-бочие процессы идеально подходят для сбора и накопления информации от распределенных наборов данных и алгоритмов, создающих данные — что яв-ляется основной деятельностью в аннотации набора данных; курировании дан-ных; и науке с множеством доказательств. На рисунке 1 показан рабочий про-цесс поиска несопоставимых наборов данных для обнаружения и объединения данных, относящихся к метаболическим путям, связанным с устойчивостью к африканскому трипаносомозу; связанные наборы данных соединялись потоком данных. В этом случае автоматизированная и систематическая обработка при помощи рабочего процесса смогла преодолеть недостатки ручной сортировки данных, вызывающей преждевременное исключение данных из анализа ввиду их большого количества, — и дала новые результаты [11].

Кроме объединения данных, рабочие процессы систематизируют добычу данных и обнаружение знаний в процессы и параметры прогностических алго-ритмов. Например, рабочие процессы LEAD11 управляются внешними событи-ями, которые создаются средствами добычи данных, выполняющими монито-

9 http://pan-starrs.ifa.hawaii.edu10 http://research.microsoft.com/en-us/collaboration/tools/trident.aspx11 http://portal.leadproject.org

Page 174: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА140

ринг групп инструментов для выявления существенных шаблонов и инициации анализа прогноза шторма; в Лаборатории реактивного движения (Jet Propulsion Laboratory) рабочие процессы Taverna используются для изучения конфигура-ций с множеством параметров для космических приборов.

Системы рабочих процессов не только объединяют данные, но и высвобо-ждают скрытые рабочие процессы, встроенные в приложение, преобразуя их в четкую и воспроизводимую спецификацию общего программного обеспечения и инфраструктуры.

Эксперты в области информатики используют системы рабочих процессов непосредственно для разработки рабочих процессов, занимающихся инфра-структурой; специалисты по информатике в науке используют их для проекти-рования и изучения новых исследовательских процедур; более широкая группа ученых использует подготовленные рабочие процессы с небольшими ограниче-ниями конфигурации, запущенные из приложений, или скрытые за веб-порта-лами.

НАУКА, ОРИЕНТИРОВАННАЯ НА ДАННЫЕ, ПОДДЕРЖИВАЮЩАЯ РАБОЧИЕ ПРОЦЕССЫ

Рабочие процессы предлагают техники, которые поддерживают новую пара-дигму науки с фокусом на данные. Они могут повторяться и воспроизводиться. Результаты и побочные данные могут вычисляться по необходимости при помо-щи последних источников, предоставляя виртуальные хранилища данных (или хранилища по требованию) за счет эффективной обработки распределенных запросов. Продуманные повторения рабочих процессов автоматически дают новые результаты при доступности новых исходных данных и новых результа-тов — а также новых методов. Сами рабочие процессы, как привилегирован-ная часть науки с фокусом на данные, могут создаваться и трансформироваться динамически в целях соответствия текущим потребностям. В разрезе большого потока данных рабочие процессы дают надежность, отчетность и возможность аудита. Объединяя рабочие процессы и записи об их выполнении с опублико-ванными результатами, мы можем продвигать систематические, объективные, прозрачные и сравнимые исследования, в которых результаты содержат инфор-мацию об источниках. Это может ускорить процесс научных открытий.

Для ускорения проектирования экспериментов рабочие процессы могут быть переконфигурированы и перенаправлены в виде новых компонентов или шаблонов. Для создания рабочих процессов требуются специализирован-ные знания, которые обычно отсутствуют у исследователей. Создание рабочих процессов — обычно сложная задача, так как они являются формой програм-мирования, для которой требуется определенное понимание наборов данных и инструментов управления ими [12]. Поэтому очень выгодно создавать общие коллекции рабочих процессов со стандартными методами обработки, которые можно мгновенно использовать для тех же или других целей, в целом или по

Page 175: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 141

частям. Такое объединение экспертных знаний и ресурсов поможет продвигать техники и наилучшие практики. Специалисты могут создавать этапы приложе-ния, эксперты могут проектировать рабочие процессы и устанавливать параме-тры, а менее опытные пользователи получат преимущества от использования сложных протоколов.

Социальный веб-сайт myExperiment12 продемонстрировал, что при исполь-зовании инструментов обмена содержимым для хранилищ рабочих процессов мы можем поддержать социальное взаимодействие в отношении рабочих про-цессов и предоставить общественную поддержку для маркировки, комменти-рования, оценки и предоставления рекомендаций, а также объединения новых рабочих процессов с сохраненными ранее [13].

Это стало возможным благодаря поддержке науки, ориентированной на данные, которая может использоваться для решения сложных проблем. На-пример, даже если среда выполнения рабочего процесса уже не в состоянии его поддерживать, он может быть восстановлен путем экспертного и общественного курирования.

Рабочие процессы позволяют коллективно создавать науку, ориентирован-ную на данные, работая на различных уровнях. Они позволяют ученым взаи-модействовать посредством общих данных и сервисов, они предоставляют до-ступ для неспециалистов к сложным кодам и приложениям без их установки или управления ими. Следовательно, ученые могут использовать самые лучшие приложения, а не только те, с которыми они знакомы. Междисциплинарные ра-бочие процессы поощряют еще более широкое взаимодействие. В этом смысле система рабочих процессов является структурой повторного использования ин-струментов и наборов данных сообщества, которая уважает исходный код и пре-одолевает проблемы различных стилей программирования. Такие инициативы, как реестр веб-сервисов науки о жизни BioCatalogue13 и реестры компонентов в SCEC, поддерживают обнаружение компонентов. Дополнительную ценность создает возможность получения информации просто путем мониторинга источ-ников данных, сервисов и методов. Осуществляя автоматический мониторинг ресурсов, можно получать рекомендации для общей практики и оптимизации.

Тем не менее, остается еще множество проблем, кроме технических, связан-ных с крупномасштабным распределенным программным обеспечением [14]. Существует большое количество платформ рабочих процессов с различными возможностями и целями, которые не соответствуют стандартам. Рабочие про-цессы зачастую сложно создавать при помощи языков, которые находятся на недостаточном уровне абстракции, и для работы с которыми требуются слиш-ком глубокие знания базовой инфраструктуры. Возможность повторного ис-пользования рабочего процесса обычно ограничивается проектом, для которого он разрабатывался — или даже его автором — и он не может быть устойчивее

12 www.myexperiment.org13 www.biocatalogue.org

Page 176: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА142

своих компонентов. Хотя рабочие процессы стимулируют поставщиков на пре-доставление прозрачных, надежных и проверенных сервисов данных, широко распространены отказы компонентов. При сбое сервиса или инфраструктуры происходит и сбой рабочего процесса. К сожалению, важной темой отладки не-исправных рабочих процессов часто пренебрегают. Современным платформам рабочих процессов не хватает корректно поддерживаемых быстрых процессов развертывания в приложениях пользователя, где они применяются, и кодов унаследованных приложений, которые необходимо интегрировать и которыми необходимо управлять.

ВЫВОД

Рабочие процессы затрагивают исследования, ориентированные на данные, че-тырьмя способами. Во-первых, они смещают научную практику. Например, в гипотезах, управляемых данными [1], анализ данных дает результаты, которые должны проверяться в лаборатории. Во-вторых, они имеют потенциал содей-ствия ученым в создании собственных сложных процессов обработки данных без необходимости ожидания требуемых инструментов от разработчиков про-граммного обеспечения. В-третьих, они предлагают систематическое получение данных с возможностью их сравнения и соотнесения с источником. И, наконец, разговоры о шквале данных [15] и науке, ориентированной на данные, можно охарактеризовать, как вопрос первичности данных или научной документации [16], но вместе с ними приходит и шквал методов: рабочие процессы иллюстри-руют первичность метода как другую важнейшую парадигму исследований, ориентированных на данные.

ССЫЛКИ

[1] D. B. Kell and S. G. Oliver, «Here is the evidence, now what is the hypothesis? The complementary roles of inductive and hypothesis-driven science in the post-genomic era», BioEssays, vol. 26, no. 1, pp. 99—105, 2004, doi: 10.1002/bies.10385.

[2] A. Halevy, P. Norvig, and F. Pereira, «The Unreasonable Effectiveness of Data», IEEE Intell. Syst., vol. 24, no. 2, pp. 8—12. 2009, doi: 10.1109/MIS.2009.36.

[3] C. Anderson, «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete», Wired, vol. 16, no. 7, June 23, 2008, www.wired.com/science/discoveries/magazine/16-07/ pb_theory.

[4] M. Y. Galperin and G. R. Cochrane, «Nucleic Acids Research annual Database Issue and the NAR online Molecular Biology Database Collection in 2009», Nucl. Acids Res., vol. 37 (Database issue), pp. D1—D4, doi: 10.1093/nar/gkn942.

[5] C. Goble and R. Stevens, «The State of the Nation in Data Integration in Bioinformatics», J. Biomed. Inform., vol. 41, no. 5, pp. 687—693, 2008.

[6] I. J. Taylor, E. Deelman, D. B. Gannon, and M. Shields, Eds., Workflows for e-Science: Scientific Workflows for Grids. London: Springer, 2007.

Page 177: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 143

[7] P. Romano, «Automation of in-silico data analysis processes through workflow management systems», Brief Bioinform, vol. 9, no. 1, pp. 57—68, Jan. 2008, doi: 10.1093/bib/bbm056.

[8] T. Oinn, M. Greenwood, M. Addis, N. Alpdemir, J. Ferris, K. Glover, C. Goble, A. Goderis, D. Hull, D. Marvin, P. Li, P. Lord, M. Pocock, M. Senger, R. Stevens, A. Wipat, and C. Wroe, «Taverna: lessons in creating a workflow environment for the life sciences», Concurrency and Computation: Practice and Experience, vol. 18, no. 10, pp. 1067—1100, 2006, doi: 10.1002/cpe.v18:10.

[9] E. Deelman, D. Gannon, M. Shields, and I. Taylor, «Workflows and e-Science: An overview of workflow system features and capabilities», Future Gen. Comput. Syst., vol. 25, no. 5, pp. 528—540, May 2009, doi: 10.1016/j.future.2008.06.012.

[10] B. Wassermann, W. Emmerich, B. Butchart, N. Cameron, L. Chen, and J. Patel, «Sedna: a BPEL- based environment for visual scientific workflow modelling», in I. J. Taylor, E. Deelman, D. B. Gannon, and M. Shields, Eds., Workflows for e-Science: Scientific Workflows for Grids. London: Springer, 2007, pp. 428—449, doi: 10.1.1.103.7892.

[11] P. Fisher, C. Hedeler, K. Wolstencroft, H. Hulme, H. Noyes, S. Kemp, R. Stevens, and A. Brass, «A Systematic Strategy for Large-Scale Analysis of Genotype-Phenotype Correlations: Identification of candidate genes involved in African Trypanosomiasis», Nucleic Acids Res., vol. 35, no. 16, pp. 5625—5633, 2007, doi: 10.1093/nar/gkm623.

[12] A. Goderis, U. Sattler, P. Lord, and C. Goble, «Seven Bottlenecks to Workflow Reuse and Repurposing in The Semantic Web», ISWC 2005, pp. 323—337, doi: 10.1007/11574620_25.

[13] D. De Roure, C. Goble, and R. Stevens, «The Design and Realisation of the myExperiment Virtual Research Environment for Social Sharing of Workflows», Future Gen. Comput. Syst., vol. 25, pp. 561—567, 2009, doi: 10.1016/j.future.2008.06.010.

[14] Y. Gil, E. Deelman, M. Ellisman, T. Fahringer, G. Fox, D. Gannon, C. Goble, M. Livny, L. Moreau, and J. Myers, «Examining the Challenges of Scientific Workflows», Computer, vol. 40, pp. 24—32, 2007, doi: 10.1109/MC.2007.421.

[15] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, no. 5919, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

[16] G. Erbach, «Data-centric view in e-Science information systems», Data Sci. J., vol. 5, pp. 219—222, 2006, doi: 10.2481/dsj.5.219.

Page 178: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 179: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 145

ПИТЕР ФОКС (PETER FOX) ДЖЕЙМС ХЕНДЛЕР (JAMES HENDLER) Политехнический институт Ренсселера (Rensselaer Polytechnic Institute)

Семантическая е-Наука: Значение кодирования

в улучшенной цифровыми методами науке следующего

поколения

Наука все больше зависит от данных, хотя традицион-ные технологии не были рассчитаны на масштабы и разнообразие данных, существующие в современ-ном мире. Такие проекты, как Большой адронный

коллайдер (Large Hadron Collider, LHC) и Австралийский путе-поисковый телескоп площадью в квадратный километр (Australian Square Kilometre Array Pathfinder, ASKAP) будут создавать петабайты данных, которые придется анализиро-вать сотням ученых из различных стран, которые общаются на разных языках. Цифровая или электронная наука — е-На-ука [1] сегодня становится крайне важной и получает широ-кое распространение.

Безусловно, наука с использованием больших объемов данных, как один из компонентов е-Науки, должна выходить за пределы хранилищ данных и закрытых систем, чтобы обе-спечить доступ к данным для пользователей, находящихся за пределами команд крупных проектов, большую интеграцию источников, и предоставить интерфейсы для тех, кто является специалистом в науке, но не является экспертом в управлении данными и вычислениях. С расцветом е-Науки и сокращени-ем барьеров для свободного и открытого доступа к данным возникают другие, более сложные вопросы — например: «Как использовать эти созданные другими данные?», или:

Page 180: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА146

«Как использовать данные этого типа, который я никогда не видел, с данными, которыми я пользуюсь каждый день?», или: «Что делать, если мне понадобятся данные из другой дисциплины, но я не понимаю ее терминов?» Перечень таких вопросов большой и продолжает увеличиваться с ростом использования данных и информации и все большей связью наук со специализированными устройствами.

Важным аспектом в решении вопроса разнородности данных является то, что если вы понимаете «смысл» данных, вам намного проще их использовать. С ростом объемов, сложности и неоднородности источников данных, ученым все более требуются новые возможности, основанные на новых «семантических» методах (например, в форме онтологий — машинной кодировки терминов, кон-цепций и связи между ними). Семантические технологии набирают мощь в та-ких сферах е-Науки, как, например, солнечно-земная физика (см. рисунок 1), экология1, науки о море и океане2, здравоохранение и науки о жизни3. Разра-ботчикам инфраструктур е-Науки все более требуются семантические методо-логии, инструменты и промежуточное программное обеспечение. В свою оче-редь, они могут упрощать моделирование научных знаний, проверку гипотез на основе логики, семантическую интеграцию данных, составление приложений, а также интегрированное выявление знаний и анализ данных для различных предметных областей науки и систем, упомянутых выше, для использования учеными, студентами и, все в большей мере, неспециалистами.

Влияние сообщества искусственного интеллекта и растущее количество дан-ных, доступных в Интернете (в результате многие ученые используют Интернет в качестве своего основного «компьютера») привело исследователей семантиче-ского Интернета к фокусировке на формальных аспектах языков семантическо-го представления и на разработке семантических приложений общего назначе-ния. Языки стандартизируются, а сообщества, в свою очередь, используют эти языки для создания и использования онтологий — спецификаций концепций и терминов и их взаимосвязей (в формальном, доступном для машинного считы-вания смысле). Чтобы е-Наука стала полностью использовать большие объемы данных, для всех возможностей, которые сегодня требуются е-Науке — включая интеграцию, слияние и добычу данных; разработку, управление и выполнение рабочих процессов; охват источников и качества данных; проверку аутентично-сти данных, а также пригодность к конкретной цели — необходимо семантиче-ское представление и посредничество.

Необходимость в большем количестве семантики в е-Науке также возника-ет отчасти за счет все более распределенных и междисциплинарных задач со-временных исследований. Например, доступность данных (таких как снимки)

1 Например, Научное окружение для экологических знание (Science Environment for Ecological Knowledge, SEEK) и [2].2 Например, проект Взаимодействие морских метаданных (Marine Metadata Interoperability, MMI).3 Например, Группа семантического веб-здравоохранения и наук о жизни (Semantic Web Health Care and Life Sciences, HCLS) и [3].

Page 181: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 147

удаленного обнаружения с высоким пространственным разрешением от спут-ников для науки об экосистемах одновременно изменяет природу исследований и других направлений науки, например, экологии. Даже спутниковые наблю-дения с местными данными немедленно создают задачу интеграции данных. Среди вопросов, которые возникают у исследователей, использующих такие данные: «Как можно согласовать «точечные» данные с различными продуктами спутниковой информации — например, полосами захвата или координатными сетками?», «Как выполняется пространственная регистрация?», «Являются ли эти данные тем же самым, в том же самом вертикальном (и географическом) положении или в то же время, и имеет ли это значение?» Другому ученому, например, биологу, может понадобиться доступ к тем же данным с абсолютно другой перспективы, и он задаст другие вопросы: «Я нашел этот вид в неожи-

РИСУНОК 1.

Виртуальная солнечно-земная обсерватория (Virtual Solar-Terrestrial Observatory, VSTO) обе-спечивает интеграцию данных между физическими параметрами, измеренными различными приборами. VSTO также использует независимую информацию координат для выбора подходя-щих типов отрисовки с использованием метода семантической е-Науки, без необходимости для пользователя знать базовые представления и структуру данных [4, 5].

Page 182: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА148

данном месте. Каковы геофизические параметры — температура, влажность и так далее — в этой зоне, и как они изменялись последние недели, месяцы, годы?» Ответы на такие вопросы находятся в метаданных и самих данных. Возможно, более важным является тот факт, что продукты данных и информации все чаще становятся доступными посредством веб-сервисов, поэтому семантическая связь (то есть значение), которую мы ищем, должна сместиться от уровня данных к уровню Интернета и веб-сервисов.

Семантика не только добавляет четко описанные и зашифрованные в ком-пьютерной форме определения словарей, концепций и терминов, но и объясня-ет взаимосвязи между ними (особенно в Интернете, среди различных словарей, находящихся в разных документах или хранилищах) в декларативной (указан-ной) и условной (то есть основанной на правилах или логике) формах. Одна из текущих задач семантической е-Науки — баланс выразительности (семантиче-ского представления) и сложности определения терминов, которые использу-ются учеными и внедряются в полученных системах. Такой баланс зависит от приложения, что означает отсутствие единого решения для любых случаев при-менения. В свою очередь это вызывает необходимость в равноправном взаимо-действии ученых-физиков и ученых-компьютерщиков, а также разработчиков программного обеспечения, менеджеров и поставщиков данных.

В последние годы наблюдалось заметное продвижение в сетевых (т.е. XML) языках разметки, включая стабилизацию и стандартизацию. Ретроспективные данные и связанные с ними каталоги сегодня предоставляются в виде веб-сер-висов, а данные в реальном времени и близком к нему временном разрешении становятся стандартизированными с возникновением веб-сервисов датчиков. Это означает, что теперь широко доступны различные наборы данных. Стали развиваться центры обмена информацией, включая Центр обмена информаци-ей системы наблюдения Земли (Earth Observing System Clearinghouse, ECHO) и Глобальную систему наблюдения за планетой Земля (Global Earth Observation System of Systems, GEOSS) для наук о Земле, которые дополняют обширные ка-талоги реестров, такие как Генеральный каталог глобальных изменений (Global Change Master Directory, GCMD) NASA. Однако эти реестры остаются сильно ограниченными только синтаксическим представлением сервисов и базовых данных. Для их использования требуются интенсивные усилия пользователя — совмещение входящих данных, результатов, необходимых условий, а также зна-чений методов для сервисов.

Также увеличивается количество проектов и общественных инициатив по разработке моделей данных для улучшения низкоуровневого взаимодействия. Такие модели открывают предметные словари, которые полезны для общих предметных областей, но не всегда для смежных направлений, таких как записи и коллекции данных науки о Земле. Как указывалось в отчетах от международ-ного уровня до отдельных организаций, данные от новых миссий вместе с дан-ными из существующих источников все более используются синергетически с другими источниками наблюдений и моделирования. Так как такие источники

Page 183: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 149

становятся доступными в форме сервисов, необходимость взаимодействия раз-личных словарей, сервисов и представлений методов сохраняется, а ограничения только синтаксиса (или начальных уровней семантики) становятся очевидными. Далее, с ростом потребности в информационных продуктах (представлении данных не только для научного использования) стремительно увеличивается необходимость доступа неспециалистов к информационным сервисам, осно-ванных на научных данных. В большинстве прикладных сфер проблема этой потребности не решена.

Профессионалы, занятые в текущих проектах (отмеченных ранее, таких как солнечно-земная физика, экология, науки о море и океане, здравоохранение и науки о жизни), начали смещать акценты взаимодействия с соглашений на уров-не «данные–элемент (синтаксиса)» на более высокий — научный, или семанти-ческий уровень. Результаты таких исследовательских проектов продемонстри-ровали возможности интеграции таких типов данных в междисциплинарных измерениях с различными приборами. Теперь, когда взаимодействие, основан-ное только на синтаксисе, больше не является последним словом, следующим логическим шагом будет использование семантики для поддержки на уровне данных как сервиса.

Участие научного сообщества в разработке конкретных требований для от-дельных направлений науки было недостаточным, несмотря на растущую ос-ведомленность о важности семантики для е-Науки с использованием большого количества данных. Ученые-исследователи все больше зависят от Интернета в отношении данных, но пока они даже не создали согласованной программы для исследования тенденций, возникающих на фоне семантических технологий, и для взаимодействия с исследователями семантически структурированного Ин-тернета. Чтобы помочь в создании такой программы, нам нужно разработать междисциплинарное пространство семантической е-Науки, которое стимули-рует рост и развитие научных приложений с использованием большого коли-чества данных на основании семантических методологий и технологий, а также связанных методов, основанных на знаниях. Для этого мы представляем призыв к действию, состоящий из четырех пунктов:

• Исследователи в науке должны работать вместе с коллегами из компьютер-ной науки и информатики для разработки требований для конкретной от-расли, а также внедрения и оценки языков, инструментов и приложений, которые разрабатываются для семантической е-Науки.

• Научные и профессиональные сообщества должны предоставить среду, в ко-торой может быть реализовано необходимое тесное взаимодействие между требованиями науки и возможностями информатики, и они должны пони-мать важность такой работы в развитии карьеры при помощи показателей, аналогичных индексу цитирования.

• Финансирующие организации должны все больше нацеливаться на создание сообществ заинтересованных сторон с акцентом на междисциплинарные ко-

Page 184: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА150

манды исследователей и специалистов-практиков, которые необходимы для продвижения и сохранения усилий в направлении семантической е-Науки.

• Все участники — ученые, сообщества и финансисты — должны принимать участие в управлении контролируемыми словарями, таксономиями и онто-логиями, которые могут использоваться в научных приложениях для обеспе-чения распространения и эволюции знаний, зашифрованных в семантике.

Хотя во всех четырех сферах уже прилагаются начальные усилия, предстоит сделать намного больше. Этого требует сама природа решения вопросов расту-щей сложности современной науки.

ССЫЛКИ

[1] T. Hey and A. E. Trefethen, «Cyberinfrastructure for e-Science», Science, vol. 308, no. 5723, May 2005, pp. 817—821, doi: 10.1126/science.1110410.

[2] J. Madin, S. Bowers, M. Schildhauer, S. Krivov, D. Pennington, and F. Villa, «An Ontology for Describing and Synthesizing Ecological Observation Data», Ecol. Inf., vol. 2, no. 3, pp. 279—296, 2007, doi: 10.1016/j.ecoinf.2007.05.004.

[3] E. Neumann, «A Life Science Semantic Web: Are We There Yet?» Sci. STKE, p. 22, 2005, doi: 10.1126/stke.2832005pe22.

[4] P. Fox, D. McGuinness, L. Cinquini, P. West, J. Garcia, and J. Benedict, «Ontology-supported scientific data frameworks: The virtual solar-terrestrial observatory experience», Comput. Geosci., vol. 35, no. 4, pp. 724—738, 2009, doi: 10.1.1.141.1827.

[5] D. McGuinness, P. Fox, L. Cinquini, P. West, J. Garcia, J. L. Benedict, and D. Middleton, «The Virtual Solar-Terrestrial Observatory: A Deployed Semantic Web Application Case Study for Scientific Research», AI Mag., vol. 29, no. 1 , pp. 65—76, 2007, doi: 10.1145/1317353.1317355.

Page 185: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 151

ЧАРЛЬЗ ХАНСЕН (CHARLES HANSEN) КРИС Р. ДЖОНСОН (CHRIS R. JOHNSON) ВАЛЕРИО ПАСКУЧЧИ (VALERIO PASCUCCI) КЛАУДИО Т. СИЛЬВА (CLAUDIO T. SILVA) Университет Юты (University of Utah)

Научная визуализация с использованием больших

объемов данных

С момента появления компьютеров мир испытывает «большой взрыв» информации. Количество созда-ваемой информации растет в геометрической про-грессии. С 2003 г. цифровая информация составляет

90% всей созданной информации [1], намного опережая ко-личество данных на бумаге и пленке. Одной из величайших научных и технических задач 21 столетия будет понимание и эффективное использование этого растущего количества информации. Визуальный анализ данных, который обеспечи-вают интерактивные интерфейсы, позволяет выявлять и про-верять ожидаемые результаты, при этом также поддерживая случайные открытия в науке. Он позволяет проверять новые теоретические модели, обеспечивает сравнение моделей и наборов данных, поддерживает количественные и качествен-ные запросы, улучшает интерпретацию данных и упрощает процесс принятия решений. Ученые могут использовать си-стемы визуального анализа данных для изучения сценариев «что если», определения гипотез и исследования данных с ис-пользованием множества перспектив и предположений. Они могут определить связи между большим количеством атри-бутов и количественно оценить надежность гипотезы. Фак-тически визуальный анализ данных является неотъемлемой частью научных открытий, и он еще очень далек от конечного решения. Для будущих исследований остаются открытыми множество направлений. В этой статье мы описываем те на-правления визуального анализа данных, которые будут в цен-тре внимания в следующем десятилетии [2, 3].

Page 186: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА152

VISUS: ПРОГРЕССИВНАЯ ПОТОКОВАЯ ПЕРЕДАЧА ДАННЫХ ДЛЯ МАСШТАБИРУЕМОГО ИЗУЧЕНИЯ ДАННЫХ

В последние годы компьютерные ученые с доступом к крупнейшим в мире су-перкомпьютерам успешно моделировали множество природных и искусствен-ных феноменов с беспрецедентной степенью деталировки. Такие процессы моделирования постоянно создают огромные количества данных. Например, процессы моделирования гидродинамического непостоянства, которые прово-дились в Ливерморской национальной лаборатории им. Э. Лоуренса (Lawrence Livermore National Laboratory, LLNL) в начале 2002 г., образовали несколько де-сятков терабайт данных, как показано на рисунке 1. Эти данные необходимо визуализировать и проанализировать для проверки базовой модели, детального понимания феномена и получения новых знаний о его фундаментальной физи-ке. Поэтому для алгоритмов визуализации и анализа данных требуются новые, улучшенные конструкции, которые будут поддерживать высокую производи-тельность при обработке больших объемов данных.

Техники потоковой передачи данных и вычислений с использованием внеш-ней памяти решают проблемы перепроектирования алгоритмов и реструкту-ризации компоновки данных, необходимые для масштабируемой обработки больших объемов данных. Например, для создания статической системы клас-сификации ViSUS1, которая создает компоновку данных, поддерживающую иерархическое перемещение регулярных сеток различной размерности, ис-пользовались кривые заполнения пространства. Три особенности делают этот метод особенно привлекательным: (1) порядок данных не зависит от параметров

участоксмешивания

сила тяжести

тяжелая жидкость

легкая жидкость

t=0 t=200 t=400 t=700

РИСУНОК 1.

Интерактивная визуализация четырех временных шагов моделирования 11523 неустойчивости Релея-Тейлора. Сила тяжести управляет смешиванием более тяжелой жидкости, находящейся сверху более легкой. Две поверхности охватывают участок смешивания.

1 www.pascucci.org/visus

Page 187: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 153

физического аппаратного обеспечения (метод нечувствительности к кэширова-нию), (2) переход от Z-порядка, который используется в классических методах баз данных, достигается при помощи простой последовательности манипуляций со строками битов, и (3) он не использует репликации данных. Этот метод ис-пользовался для прямой потоковой передачи данных и мониторинга крупно-масштабных процессов моделирования в ходе их выполнения в реальном вре-мени [4].

На рисунке 2 показана инфраструктура ViSUS, выполняющая потоковую пе-редачу данных кодов моделирования LLNL и их визуализацию в реальном вре-мени на установке Blue Gene/L в ходе выставки Supercomputing 2004 (где Blue Gene/L был представлен как новый самый быстрый суперкомпьютер в мире). Уникальная масштабируемость этого метода позволяет использовать одно осно-вание кода для множества различных применений, используя при этом большое количество устройств, от крупных дисплеев видеостены до рабочих станций, но-утбуков и портативных устройств, таких как iPhone.

Обобщение техник этого класса для неструктурированных сеток остается основной проблемой. Если говорить в общем, быстрое развитие и растущее раз-нообразие аппаратного обеспечения ставят большие задачи по проектированию программных инфраструктур, которые могут масштабироваться и адаптиро-ваться к различным вычислительным ресурсам и условиям работы. Оно под-нимает теоретические и практические вопросы, на которые будущим исследо-вателям визуализации и анализа для приложений с использованием большого количества данных необходимо будет найти ответы.

РИСУНОК 2.

Масштабируемость инфраструктуры ViSUS, которая используется для визуализации в раз-личных применениях (например, медицинские снимки, моделирование подземных пластов, мо-делирование климата, микроскопия, спутниковые снимки, цифровая фотография и крупномас-штабные научные модели) и с широким перечнем устройств (от iPhone до видеостены).

Page 188: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА154

VISTRAILS: ИСТОЧНИКИ И ПОИСК ДАННЫХ

Поиск данных является творческим процессом, в котором исследователю необ-ходимо найти подходящие данные, визуализировать их и выявить взаимосвязи, общаться с коллегами при поиске решений и в итоге распространить результа-ты. С учетом объема данных и сложности анализа, которые присущи научным исследованиям, для лучшей поддержки творчества необходимы новые инстру-менты и расширение старых.

Возможность систематического охвата источников данных является ключе-вым требованием для таких инструментов. Источник (который также называ-ют контрольным следом или родословной) продукта данных содержит инфор-мацию о процессе и данных, которые использовались для получения продукта данных. Важность поддержания информации об источниках для продуктов данных в научном сообществе хорошо известна [5, 6]. Она предоставляет важ-ную документацию, которая является ключом к сохранению данных, определе-ния их качества и авторства, а также воспроизведения и проверки результатов. Доступность информации об источниках также поддерживает рефлективные обоснования, позволяя пользователям сохранять временные результаты, делать предположения на основании сохраненных знаний и создавать цепочки обосно-вания вперед или назад.

VisTrails2 — это система с открытым исходным кодом, предназначенная для поддержки исследовательских компьютерных задач, таких как визуализация, добыча и интеграция данных. VisTrails предоставляет расширенную инфра-структуру управления источниками данных и может легко комбинироваться с существующими инструментами и библиотеками. Новая концепция, которую мы привнесли с VisTrails — это понятие происхождения эволюции рабочего процесса [7]. В отличие от предыдущих систем рабочих процессов и визуализации, кото-рые поддерживают информацию об источниках данных только для полученных продуктов данных, VisTrails расценивает рабочие процессы как элементы дан-ных первого класса и сохраняет информацию их происхождения. VisTrails имеет возможность расширения. Подобно системам рабочих процессов, она позволяет создавать процессы, комбинирующие множество библиотек. Кроме того, ин-фраструктура информации происхождения VisTrails может интегрироваться с интерактивными инструментами, которые не так легко встраиваются в систему рабочих процессов [8].

На рисунке 3 показан пример исследовательской визуализации с использова-нием VisTrails. По центру VisTrails показывает все изменения, которые пользова-тель применяет к визуализациям. Каждый узел на дереве VisTrails соответствует процессу, а кромки между двумя узлами соответствуют изменениям, которые сделаны для трансформации родительского процесса в дочерний (например, при добавлении модуля или изменении значения параметра). Древовидное представление позволяет ученому вернуться к предыдущей версии интуитивно

2 http://vistrails.sci.utah.edu

Page 189: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 155

понятным способом, отменить неправильные изменения, сравнить рабочие про-цессы и получить напоминания о действиях, которые привели к конкретному результату.

Спонтанные методы исследования данных, которые широко применяются в научном сообществе, имеют серьезные ограничения.

В частности, ученым и инженерам следует расширить свои усилия в управ-лении данными (например, сценарии, выполняющие кодировку компьютерных задач, необработанных данных, продуктов данных, изображений и заметок) и регистрировать источники, чтобы можно было получить ответы на базовые во-просы, такие как: «Кто создал продукт данных и когда? Когда и кем он изменял-ся? При помощи каких процессов он был создан? Получены ли два продукта данных из одних необработанных данных?» Такой процесс не только занимает много времени, но и подвержен ошибкам. Отсутствие сведений об источниках

РИСУНОК 3.

Пример исследовательской визуализации для изучения небесных тел, полученных в процессах космологического моделирования при помощи VisTrails. Полное происхождение процесса исследо-вания отображается в форме визуальных изменений. Подробные метаданные, включая тексто-вые примечания ученого, дату и время создания или изменения рабочего процесса, возможные метки с описанием, а также имя создавшего их пользователя также сохраняются.

Page 190: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА156

затрудняет (а иногда делает невозможным) воспроизведение результатов и об-мен ими, решение проблем в партнерстве, проверку результатов с различными входящими данными, понимание процессов, которые использовались для реше-ния конкретной проблемы и повторное использование знаний, которые приме-

РИСУНОК 4.

Отображение происхождения в виде последовательности действий, которые изменяют процесс, дает возможность визуализации разницы между двумя рабочими процессами. Такая разница представляется в виде объединения рабочих процессов. Это и информативно, и интуитивно понятно, а также сокращает время на понимание функциональной разницы между двумя рабо-чими процессами.

Page 191: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 157

нялись в процессе анализа данных. Оно также существенно ограничивает долго-вечность продукта данных. Без полной и точной информации о том, как он был создан, его ценность ощутимо снижается.

Системы визуализации, нацеленные на науку, должны предоставлять гиб-кую структуру, которая не только позволяет ученым выполнять комплексный анализ больших наборов данных, но и сохраняет детальную информацию про-исхождения процесса анализа.

На рисунке 4 показан ParaView3 (инструмент анализа и визуализации для очень больших наборов данных) и VisTrails Provenance Explorer, которые нагляд-но показывают весь процесс исследования. Механизм отслеживания происхож-дения был внедрен вставкой кода мониторинга в механизм отмены и повтора действий ParaView, который захватывает изменения базовой спецификации процесса. По сути, последнее действие в списке отмены добавляется к vistrail в соответствующем месте, и команда отмены действия изменяет значение на «перемещение в дереве версий». Следует отметить, что представление на осно-вании изменений является и простым, и компактным — оно занимает намного меньше места, чем альтернативные методы хранения нескольких экземпляров или версий.

ТЕХНИКИ ВИЗУАЛИЗАЦИИ ПОТОКА

Точная количественная и качественная оценка феномена трехмерного нестаци-онарного потока необходима для различных научных, технических и медицин-ских применений. К счастью, во многих случаях анализ трехмерного векторного поля можно сократить до исследования двухмерных структур, образованных взаимодействием с границами рассматриваемого объекта. Типовыми примера-ми такого анализа потоков жидкостей являются аэродинамические поверхности и стабилизаторы в авиации, стенки двигателя и выхлопные трубы в автомобиль-ной промышленности и лопатки турбин в турбомашиностроении.

Другие применения в биомедицине фокусируются на взаимодействии био-электрических полей и поверхности органа. В каждом случае многочисленные модели, размеры и степень сложности которых растут, помогают ученым и ин-женерам более глубоко понять характеристики потока, которые относятся к их задачам. Специалисты в области научной визуализации сконцентрировали основную часть своих исследований на проектировании методов визуализации, которые передают локальные и глобальные структуры, возникающие в различ-ных пространственных и временных масштабах при моделировании нестаци-онарного потока. В частности, сделан акцент на интерактивность визуального анализа, который признан критическим аспектом эффективности предлагае-мых алгоритмов.

3 www.paraview.org

Page 192: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА158

Последняя тенденция в исследованиях визуализации потока — использова-ние графических процессоров для расчета методов пространства изображений при решении вопроса вычислительной сложности техник визуализации, кото-рые поддерживают потоки, обнаруженные на криволинейных поверхностях. Основным свойством такого метода является возможность эффективного по-лучения представления плотной структуры потока без вычисления параметри-зации поверхности. Это достигается проецированием в плоскость изображения потока, соответствующего видимой части поверхности, что позволяет выпол-нять последующее образование текстуры в пространстве изображения путем обратной интеграции и многократного смешивания. Хотя использование ча-стичной параметризации поверхности, полученной в результате проекции, дает впечатляющее повышение производительности, шаблоны текстуры, выходящие за видимую часть самостоятельно ограниченной поверхности, становятся несо-гласованными вследствие неполной параметризации поверхности.

Для решения этой проблемы мы ввели новую схему, которая в полной мере поддерживает создание высококачественных визуализаций на основе текстур для потоков, определенных на произвольных криволинейных поверхностях [9]. Наша схема под названием Flow Charts решает упомянутую ранее проблему пу-тем разделения поверхности на перекрывающиеся части, которые затем инди-видуально параметризуются в схемы и упаковываются в текстуру. Регион с пе-рекрытием дает каждой отдельной схеме четкое представление о ее окружении в потоке и о соответствии соседним схемам, что необходимо для аккуратного и согласованного переноса частиц. Векторное поле и отношение расположения частей представляются в виде текстур, что позволяет применять в графиче-

РИСУНОК 5.

Моделирование высокоскоростного поезда ICE. Слева: результат GPUFLIC. Посередине: конфигу-рации частей. Справа: схемы в пространстве текстуры.

Page 193: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 159

ских процессорах самые современные алгоритмы синтеза текстур, такие как GPUFLIC и UFAC.

На рисунке 5 показан результат моделирования высокоскоростного немец-кого междугородного поезда-экспресса (ICE), движущегося со скоростью около 250 км/ч, с боковым ветром с углом падения 30 градусов. Ветер вызывает об-разование завихрений на подветренной стороне поезда, что создает снижение давления, негативно влияющее на устойчивость поезда на рельсах. Эти структу-ры потока вызывают разделение и соединение шаблонов потока на поверхности поезда. Их можно четко увидеть на предложенных изображениях возле высту-пающих краев геометрии.

Эффективность физического представления можно увидеть в наборе дан-ных Кармана (рисунок 6), числовой модели классического феномена вихревой дорожки Кармана, где повторяющийся шаблон вихрей вызван разделением по-тока, проходящего через кольцевую преграду. Визуализация с переносом кра-сителя наложена на визуализацию плотной текстуры, где видны моментальные структуры потока, созданные алгоритмом GPUFLIC. Шаблоны, созданные ме-тодом переноса текстуры, размыты в результате диффузии и потери массы. В методе с установкой уровня в результате двоичного порога «краситель-фон» утрачены сложные структуры. Благодаря физическому представлению [10] ви-зуализация может четко передавать подробные структуры, которые не отобра-жаются при помощи традиционного метода переноса текстуры.

РИСУНОК 6.

Визуализация набора данных Кармана при помощи переноса красителя. Левая колонка: физиче-ский перенос красителя. Средняя колонка: метод переноса при помощи текстур. Правая колонка: метод установки уровня. Последовательность времени — сверху вниз.

Page 194: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА160

БУДУЩИЕ ЗАДАЧИ ВИЗУАЛИЗАЦИИ С ИСПОЛЬЗОВАНИЕМ БОЛЬШОГО КОЛИЧЕСТВА ДАННЫХ

Для получения информации из больших и сложных наборов данных, получен-ных из экспериментов и грядущих систем моделирования в пета- и экзамасшта-бе, требуется фундаментальный прогресс в техниках и системах визуализации. Эффективные инструменты анализа и визуализации данных для прогностиче-ского моделирования и обнаружения научных знаний должны быть основаны на прочном алгоритмическом и математическом фундаменте, а также долж-ны позволять ученым надежно характеризовать выдающиеся функции в своих данных. Основу извлечения функций и моделирования неопределенности при помощи формальных определений сложных форм, шаблонов и распределения в пространстве и времени в таких сферах, как топология, тензорный анализ вы-сокого порядка и статистика, будут составлять новые математические методы. В разработке методов расширенного анализа данных набирают важность тополо-гические методы ввиду их неоспоримой мощности в описании сложных форм в различных масштабах. Недавнее добавление надежных комбинаторных техник для топологического анализа позволило использовать топологию не только для представления новых феноменов, но и для обнаружения и оценки новых осо-бенностей, представляющих научный интерес.

Наши возможности анализа данных намного отстают от нашей способно-сти создания данных моделирования или наблюдений. Новые техники анализа визуальных данных должны динамически учитывать многоразмерное вероят-ностное распределение интересующих объемов данных. Для этого потребуют-ся новые входящие данные от математики, теории вероятности и статистики. Повышение точности моделей ставит новые задачи по визуализации созданных данных. Будет крайне важно разработать разумные полуавтоматические ал-горитмы и методологии визуализации, которые помогут фильтровать данные или представлять «сводные визуализации», чтобы ученые могли начинать ана-лизировать бесконечные наборы данных с помощью методологии, направлен-ной сверху вниз. Возможность полной оценки неопределенности в высокопро-изводительных компьютерных моделях даст новые возможности для проверки кодов моделирования. Таким образом, необходимо разработать техники репре-зентации, оценки, распространения и визуализации неопределенности, чтобы предоставить ученым надежные и проверяемые визуализации.

Чтобы исследователи могли получать информацию из этой развивающейся формы научных данных, требуются новые методы анализа визуальных данных и обнаружения знаний. Такие методы должны учитывать многомодельную при-роду данных; предоставлять ученым средства для простого перехода между обзором данных локальных и глобальных моделей; позволять смешивать тра-диционную научную визуализацию с визуализацией информации; выполнять проверку гипотез; а также решать задачи, возникающие при использовании большого разнообразия типов сеток и различных элементов многомодельного кода. Инструменты, которые используют семантическую информацию и скры-

Page 195: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 161

вают подробности формата набора данных, будут критически важны для того, чтобы специалисты в области анализа и визуализации сконцентрировались на создании этих методов, а не увязли в представлениях отдельных данных [11].

БЛАГОДАРНОСТЬ

Публикация частично основана на работе, поддерживаемой DOE: VACET, DOE SDM, DOE C-SAFE Alliance Center, Национальный научный фонд (National Science Foundation) (гранты IIS-0746500, CNS-0751152, IIS-0713637, OCE-0424602, IIS-0534628, CNS-0514485, IIS-0513692, CNS-0524096, CCF-0401498, OISE-0405402, CNS-0615194, CNS-0551724, CCF-0541113, IIS-0513212, и CCF-0528201), Факуль-тетские награды IBM (IBM Faculty Awards) (2005, 2006 и 2007), NIH NCRR грант № 5P41RR012553-10 и награда №KUS-C1-016-04 от Научно-технологического университета имени короля Абдаллы (King Abdullah University of Science and Technology, KAUST). Авторы также благодарят Джулиану Фрейр (Juliana Freire) и команду VisTrails за помощь в подготовке третьей части этой статьи.

ССЫЛКИ

[1] C. R. Johnson, R. Moorhead, T. Munzner, H. Pfister, P. Rheingans, and T. S. Yoo, Eds., NIH-NSF Visualization Research Challenges Report, IEEE Press, ISBN 0-7695-2733-7, 2006, http://vgtc.org/ wpmu/techcom/national-initiatives/nihnsf-visualization-research-challenges-report-january-2006, doi: 10.1109/MCG.2006.44.

[2] NSF Blue Ribbon Panel Report on Simulation-Based Engineering Science (J. T. Oden, T. Belytschko, J. Fish, T. Hughes, C. R. Johnson, D. Keyes, A. Laub, L. Petzold, D. Srolovitz, and S. Yip), «Simulation-Based Engineering Science», 2006, www.nd.edu/~dddas/References/ SBES_Final_Report.pdf.

[3] NIH-NSF Visualization Research Challenges, http://erie.nlm.nih.gov/evc/meetings/vrc2004.

[4] V. Pascucci, D. E. Laney, R. J. Frank, F. Gygi, G. Scorzelli, L. Linsen, and B. Hamann, «Real-time monitoring of large scientific simulations», SAC, pp. 194—198, ACM, 2003, doi: 10.1.1.66.9717.

[5] S. B. Davidson and J. Freire, «Provenance and scientific workflows: challenges and opportunities», Proc. ACM SIGMOD, pp. 1345—1350, 2008, doi: 10.1.1.140.3264.

[6] J. Freire, D. Koop, E. Santos, and C. Silva, «Provenance for computational tasks: A survey», Comput. Sci. Eng, vol. 10, no. 3, pp. 11—21, 2008, doi: 10.1109/MCSE.2008.79.

[7] J. Freire, C. T. Silva, S. P. Callahan, E. Santos, C. E. Scheidegger, and H. T. Vo, «Managing rapidly-evolving scientific workflows», International Provenance and Annotation Workshop (IPAW), LNCS 4145, pp. 10—18, 2006, doi: 10.1.1.117.5530.

[8] C. Silva, J. Freire, and S. P. Callahan, «Provenance for visualizations: Reproducibility and beyond», IEEE Comput. Sci. Eng., 2007, doi: 10.1109/MCSE.2007.106.

Page 196: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА162

[9] G.-S. Li, X. Tricoche, D. Weiskopf, and C. Hansen, «Flow charts: Visualization of vector fields on arbitrary surfaces», IEEE Trans. Visual. Comput. Graphics, vol. 14, no. 5, pp. 1067—1080, 2008, doi: 10.1109/TVCG.2008.58.

[10] G.-S. Li, C. Hansen, and X. Tricoche, «Physically-based dye advection for flow visualization. Comp. Graphics Forum J., vol. 27, no. 3, pp. 727—735, 2008, doi: 10.1111/j.1467-8659.2008.01201.x. [11] «Visualization and Knowledge Discovery: Report from the DOE/ASCR Workshop on Visual Analysis and Data Exploration at Extreme Scale», C. R. Johnson, R. Ross, S. Ahern, J. Ahrens, W. Bethel, K. L. Ma, M. Papka, J. van Rosendale, H. W. Shen, and J. Thomas, www.sci.utah.edu/vaw2007/DOE-Visualization-Report-2007.pdf, 2007.

Page 197: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 163

САВАС ПАРАСТАТИДИС (SAVAS PARASTATIDIS) Microsoft

Платформа для всего, что нам известно: создание

исследовательской инфраструктуры,

управляемой знаниями

Компьютерные системы стали жизненно важной частью современной исследовательской среды, поддерживая все аспекты цикла исследования [1]. Общество исполь-зует термины «е-Наука» и «е-Исследования», чтобы

отметить важную роль компьютерных технологий в методах проведения исследований, взаимодействия, обмена данными и документами, подачи заявок на финансирование, использо-вания устройств для автоматического и точного сбора данных экспериментов, внедрения новых поколений микроскопов и телескопов для повышения качества получаемых изображе-ний, а также архивирования различных данных для сохране-ния информации об источниках и долговременного хранения [2, 3].

Однако те же технологические прорывы в сборе, созда-нии, обмене и автоматизации данных, произошедшие благо-даря компьютерам, привели к беспрецедентному взрыву дан-ных — ситуации, применимой не только к исследованиям, но и к каждому из аспектов нашей цифровой жизни. Этот шквал данных, особенно в науке, принес с собой новые задачи для исследовательской инфраструктуры, как отмечали Джим Грей (Jim Gray) и Алекс Шалай (Alex Szalay) [4]. Потребность в обработке, передаче и хранении данных сегодня намного выше, чем несколько лет назад. Не секрет, что мы говорим о

Page 198: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА164

возникновении новой исследовательской методологии — «четвертой парадиг-мы» — в науке.

ЧЕТВЕРТАЯ ПАРАДИГМА

При помощи технологии и автоматизации мы стараемся решать проблемы шквала данных. С возникновением Интернета в качестве платформы для при-ложений, обмена данными и взаимодействия были разрушены многие барьеры в методах проведения исследований и распространения их результатов. Появля-ющиеся инфраструктуры облачных вычислений (например, Amazon1) и новое поколение вычислительных платформ с использованием большого количества данных (например, DISC2, Google MapReduce3, Hadoop4 и Dryad5), направлены на управление и обработку больших объемов данных. Amazon даже предлагает сервис6 наподобие «sneakernet»7 для решения проблемы передачи большого ко-личества данных в свое облако. Такие компании, как Google, Yahoo! и Microsoft демонстрируют возможность накопления огромного количества данных из Ин-тернета и их хранения, управления и индексации с последующим построением привлекательных впечатлений от использования на их основе.

В первую очередь современные технологии фокусируются только на первой части цепочки «данные–информация–знания–мудрость»8. Компьютеры стали эффективными в хранении, управлении, индексации и вычислении (исследо-вании) данных. Они даже могут представить и обработать часть информации, скрытой за символами, которые используются для шифрования этих данных. Однако мы еще очень далеки от создания компьютерных систем, которые смо-гут автоматически обнаруживать, собирать, организовывать, анализировать, коррелировать, интерпретировать, понимать и объяснять информацию, кото-рая находится в Интернете, скрыта на дисках исследователей или существует только в нашей голове. У нас еще нет инфраструктуры, которая может управ-лять и обрабатывать знания в глобальном масштабе, которая могла бы служить фундаментом для создания сервисов и приложений, управляемых знаниями.

Таким образом, если четвертая парадигма связана с информацией и данны-ми, есть смысл предвидеть не очень отдаленное будущее, в котором мы начнем думать о задачах управления знаниями и машинного понимания в очень боль-

1 http://aws.amazon.com2 www.pdl.cmu.edu/DISC3 http://labs.google.com/papers/mapreduce.html4 http://hadoop.apache.org5 http://research.microsoft.com/en-us/projects/dryad6 http://aws.amazon.com/importexport7 http://en.wikipedia.org/wiki/Sneakernet8 http://en.wikipedia.org/wiki/DIKW

Page 199: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 165

шом масштабе. Мы — исследователи — возможно, станем первыми, кто стол-кнется с этой задачей.

ИССЛЕДОВАТЕЛЬСКИЕ ИНФРАСТРУКТУРЫ, ОРИЕНТИРОВАННЫЕ НА ЗНАНИЯ

Работа сообщества Семантической паутины (Semantic Web)9 дала множество тех-нологий, помогающих в моделировании данных, представлении информации и взаимном обмене семантикой, всегда в контексте конкретного применения. Учитывая формальные основы некоторых из этих технологий (например, язык описания онтологий (Web Ontology Language, OWL), стало возможным внести возможности обоснования как минимум для некоторых связанных предметных областей (например, BioMoby10).

В своем развитии работа сообщества Семантической паутины будет и далее играть важную роль в совместном обмене информацией и знаниями. Что еще важнее, внимание будет смещаться к вычислительным аспектам семантическо-го понимания и знаний с широким распространением таких технологий, как среда описания ресурса (Resource Description Framework, RDF), OWL и микро-форматы. Задача, с которой мы столкнемся, будет заключаться в автоматизации сбора и объединения больших объемов семантически богатой информации и, что более важно, процессов, при помощи которых эта информация создается и анализируется. Сегодня нам следует задуматься о технологиях, которые нам понадобятся для семантического описания, анализа и комбинирования инфор-мации, а также алгоритмов, которые используются для ее создания или потре-бления, и все это в глобальном масштабе. Если сегодняшние сервисы облачных вычислений концентрируются на предложении масштабируемой платформы для вычислений, то завтрашние сервисы будут создаваться вокруг управления знаниями и их оценки.

Мы уже видим попытки понимания знаний, основанных на мировой инфор-мации. Такие сервисы, как OpenCyc11, Freebase12, Powerset13, True Knowledge14 и Wolfram|Alpha15, демонстрируют, как можно записывать факты, чтобы они могли комбинироваться и предоставляться в форме ответов на вопросы пользо-вателя. В частности, Wolfram|Alpha использует экспертов предметной области для шифрования вычислительных аспектов обработки данных и информации, собранных из Интернета и имеющих аннотации. Он демонстрирует, как на осно-

9 http://en.wikipedia.org/wiki/Semantic_Web10 www.biomoby.org11 www.opencyc.org12 www.freebase.com13 www.powerset.com14 www.trueknowledge.com15 www.wolframalpha.com

Page 200: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА166

ве вычислительной инфраструктуры в комбинации с обработкой естественного языка можно создать ориентированный на потребителя сервис. Очень вероятно, что в ближайшем будущем появится множество подобных сервисов, которые будут изначально ориентированы на специализированные научно-технические сообщества и затем расширятся на все необходимые предметные области.

Как и в случае с другими ориентированными на сервис приложениями в Ин-тернете, использование сервисов компьютерных знаний для ученых будет важ-ным аспектом любой исследовательской инфраструктуры.

Проекты myGrid16 и myExperiment17 демонстрируют преимущества сбора и последующего обмена определений рабочих процессов в науке семантически обогащенным методом. Такие рабочие процессы эффективно документируют процесс, в котором создается информация исследования, а также шаги, кото-рые привели (или были безуспешными попытками) к заключению. Представьте себе возможности распространения этой идеи на все аспекты нашего взаимо-действия с информацией. Сегодня, когда кто-то вводит, например, «сравнение ВВП Бразилии и Японии» в качестве запроса в Wolfram|Alpha, механизм знает, как интерпретировать этот запрос и создать график сравнения ВВП (валового внутреннего продукта) двух стран. Если запрос выглядит как «Ford», механизм будет предполагать возможные интерпретации, но также предоставит и аль-тернативы (например, «человек», если необходима информация о Генри Форде или Джеральде Рудольфе Форде-младшем, или «компания», если необходима информация о Ford Motor Company). Контекст, в котором будет интерпретиро-ваться конкретная информация, важен для определения типа вычислений, кото-рые будут выполняться. Такие же идеи могут быть внедрены как часть глобаль-ной исследовательской инфраструктуры, где Wolfram|Alpha может стать одним из множества доступных сервисов, которые совместно работают в поддержку исследователей.

Исследовательское сообщество получит огромные выгоды от глобальной ин-фраструктуры, направленной на обмен знаниями, в которой все приложения и сервисы создаются с обменом и обработкой знаний в центре технологии. Это не говорит о необходимости новой попытки унификации и централизованно-го управления всеми представлениями знаний. Ученые всегда будут лучшими в представлении и объяснении знаний своей предметной области. Однако иссле-довательская инфраструктура должна включать в себя все предметные области и предоставлять необходимые средства для перекрестного связывания, корреля-ции и обнаружения информации семантическим способом.

Такая инфраструктура должна не только предоставлять правильный набор сервисов для доступа к информации с развитой семантикой, но и открывать компьютерные сервисы, работающие с мировыми знаниями. Исследователи смогут задавать вопросы, относящиеся к их специализации, и огромное количе-

16 www.mygrid.org.uk17 www.myexperiment.org

Page 201: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 167

ство знаний станет для них моментально доступно. Процессы приобретения и обмена знаниями должны быть автоматизированными, и связанные инструмен-ты (например, текстовый процессор, который записывает определение термина, данное автором18) еще более упростят вопросы анализа, исследования и публи-кации результатов. Обработка естественного языка поможет во взаимодействии с экосистемой информации, инструментов и сервисов, основанной на знаниях, как показано на рисунке 1.

Обратите внимание, что предлагаемая исследовательская инфраструктура не пытается реализовать задачу искусственного интеллекта (ИИ) — несмотря на

18 http://ucsdbiolit.codeplex.com

Быстроеобнаружение Биоинформатика

Поиск АстрономияБазызнаний

Социальные сети Химия

Устройства Компьютерная наука

Хранилище

Экология

Рабочий стол/ОблакоИнструменты, сервисы,

приложенияИнструменты и сервисы

производительности

Представлениезнаний

Облако Amazon

Облако Google

Облако MicrosoftОблако с

правительственнымфинансированием

Био

Общие

Математика

ГрафыОписание

алгоритмови вычислений

Исследовательскаяинфраструктура, управляемая

знаниями (объяснение, выводы, корреляция фактов между предметными областями

РИСУНОК 1.

Высокоуровневый обзор исследовательской инфраструктуры, объединяющий базы знаний и ком-пьютерные сервисы.

Page 202: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА168

то, что многие технологии сообщества Семантических вычислений19 (от модели-рования данных и представления знаний до обработки и понимания естествен-ного языка) возникли из многолетней работы в сфере ИИ.

Основной фокус предлагаемой киберинфраструктуры — автоматизирован-ное управление знаниями, а не интеллект.

СМЕШИВАНИЕ ЗНАНИЙ

Междисциплинарные исследования набирают обороты, особенно в результате действий е-Науки и киберинфрастуктуры. Технологии сыграли ведущую роль в изначальной поддержке взаимодействия, обмена информацией и управления данными в контексте исследовательского проекта. В будущем исследователям не понадобится думать о том, как их вопросы, предположения, теории, экспери-менты или данные коррелируют с существующими знаниями дисциплин одной научной отрасли или даже между отраслями.

Процесс комбинирования информации из существующих научных знаний, созданных различными исследователями, в разное время и в разных местах, включая особые методологии, которые использовались для получения выводов, должен быть автоматическим и полностью поддерживаться исследовательской инфраструктурой20. Например, для исследователя, доктора химических наук, постановка задач для компьютера при помощи указаний естественного языка, таких как «найти 100 тыс. молекул, подобных известным ингибиторам пепти-дазы ВИЧ, и затем рассчитать их электронные свойства и ввести их к мутантам уклонения вируса» должна быть обычным делом. Этот пример иллюстрирует использование обработки естественного языка и необходимость для исследова-телей в согласовании словарей в целях сбора знаний — что уже частично про-исходит во многих научных направлениях при использовании технологий Се-мантической паутины. Более того, пример иллюстрирует необходимость охвата вычислительных аспектов обработки существующих знаний и создания новых фактов.

Исследовательское сообщество уже начало работу по объединению существу-ющих элементов для реализации будущего, где машины смогут еще больше по-могать исследователям в управлении и обработке знаниями. Например, проект oreChem21 направлен на автоматизацию процесса, при помощи которого связан-ные с химией знания извлекаются из публикаций и представляются в форматах, поддерживающих машинную обработку, например, химический язык разметки

19 Предполагается различие между общим методом вычисления, основанном на семантических техно-логиях (машинное обучение, нейронные сети, онтологии, логический вывод и проч.) и Семантической паутиной, как описано в [5] и [6], которая относится к специальной экосистеме технологий, таких как RDF и OWL. Технологии Семантической паутины считаются лишь одними из множества инструментов для создания решений, основанных на семантике и знаниях.20 При условии, что открытый доступ к исследовательской информации стал реальностью.21 http://research.microsoft.com/orechem

Page 203: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 169

(Chemistry Markup Language, CML). При использовании онтологий, связанных с химией, исследователи смогут декларативно описывать вычисления, которые им необходимо выполнить на языке, поддерживающем машинную обработку.

Хотя такие проекты, как oreChem, не стараются реализовать крупномас-штабную инфраструктуру для научных знаний с возможностью вычисления, они являются первыми исследованиями в этом направлении. В будущем грани-цы предметных областей станут менее жесткими, и смеси междисциплинарных (компьютерных) знаний могут стать важным аспектом любой исследовательской инфраструктуры, управляемой исследованиями и поддерживающей семантику. Возможность перекрестной корреляции и использования перекрестных ссылок для информации, фактов, предположений и методологий из различных иссле-довательских областей в глобальном масштабе окажет огромную поддержку бу-дущим исследователям.

ПРИЗЫВ К ДЕЙСТВИЮ

Сегодня платформы, предлагающие вычислительные шаблоны MapReduce (та-кие как Hadoop и Dryad), упрощают для разработчиков проведение масштаб-ных вычислений с использованием большого количества данных. В будущем очень важно разработать эквивалентные платформы и шаблоны в поддержку действий, связанных со знаниями — таких как объединение, сбор, объяснение, выводы и интерпретация информации. Мы должны стараться предоставить ученым киберинфрастуктуру для легкого создания крупномасштабных прило-жений, способные исследовать научные знания со всего мира, представленные в компьютерной форме.

Совместный обмен информацией, будь то представление фактов или про-цессов, крайне важен для успешного обмена знаниями. Сообщества должны объединиться — и многие уже это делают — для согласования словарей в целях сбора фактов и информации, относящихся к области их специализации. Иссле-довательские инфраструктуры будущего создадут необходимые связи между такими словарями, и, согласно видению Тима Бернерса-Ли (Tim Berners-Lee) в отношении Семантической паутины, информация станет связанной, как часть глобальной сети фактов и процессов.

Будущие исследовательские инфраструктуры, управляемые знаниями, бу-дут более походить на мемекс Ванневара Буша (Vannevar Bush), чем сегодняш-ние компьютеры, управляемые данными. Как сказал Буш: «Появятся совсем но-вые формы энциклопедий, со смесью ассоциативных связей, готовые к передаче в мемекс, где они будут усиливаться» [7]. Сегодня мы очень близки к этому видению.

БЛАГОДАРНОСТЬ

Авторы выражают благодарность Питеру Мюррею Расту (Peter Murray Rust) из Кембриджского университета (University of Cambridge) за его пояснения по

Page 204: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

НАУЧНАЯ ИНФРАСТРУКТУРА170

проекту oreChem, Эвелин Вигас (Evelyne Viegas) (Microsoft Research) за вдохнов-ляющие дискуссии и отличные идеи по всем вопросам Семантических вычисле-ний и Тони Хею (Tony Hey) за его постоянную поддержку, ободрение и доверие.

ССЫЛКИ

[1] L. Dirks and T. Hey, «The Coming Revolution in Scholarly Communications & Cyberinfrastructure», CT Watch Q., vol. 3, no. 3, 2007.

[2] National Science Foundation, «Cyberinfrastructure Vision for 21st Century Discovery», March 2007.

[3] J. Taylor (n.d.), «UK eScience Programme», www.e-science.clrc.ac.uk.[4] J. Gray and A. Szalay, «eScience — A Transformed Scientific Method», Presentation

to the Computer Science and Technology Board of the National Research Council, Jan. 11, 2007, http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt. (Редакция расшифровки находится в этом томе).

[5] T. Berners-Lee, J. A. Hendler, and O. Lasilla, «The Semantic Web,» Scientific American, vol. 284, no. 5, pp. 35—43, May 2001, www.sciam.com/article.cfm?id=the-semantic-web.

[6] N. Shadbolt, W. Hall, and T. Berners-Lee, «The Semantic Web Revisited», IEEE Intell. Syst., vol. 21, no. 3, pp. 96—101, 2006, doi: 10.1109/MIS.2006.62.

[7] V. Bush, «As We May Think», The Atlantic, July 1945, doi: 10.3998/3336451.0001.101.

Page 205: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

Page 206: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 207: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 173

Введение

Ли Диркс (Lee Dirks) | Microsoft Research

Страстное увлечение Джима Грея (Jim Gray) e-Наукой нашло отклик в сердцах многих, но лишь немногие знали о его мечте применять вычислительные техно-логии для повышения эффективности научной рабо-

ты и ускорения темпов научных исследований и инноваций. Авторы нескольких статей в части 4 этой книги лично знали Джима и работали с ним. Все они не только разделяют его точку зрения, но и принимают активное участие в том, чтобы его замыслы стали реальностью.

Линч (Lynch) рассказывает о том, как четвертая парадигма применяется к сфере взаимодействия в научных кругах. Его статья построена вокруг основного вопроса: каковы послед-ствия большого количества научных данных для архива нау-ки? Далее он задает следующий вопрос: что теперь представ-ляет собой архив науки — постоянно меняющийся и растущий объем данных, публикаций и сопутствующих материалов, до-стигающих ужасающих размеров? В новом мире выигрыва-ют не только отдельные ученые (как конечные пользователи). Благодаря вычислениям с большим объемом данных мы мо-жем ожидать появления большего числа межотраслевых про-ектов, которые ускоряют исследования, обнаруживают новые связи и незамеченные ранее направления, способствующие научному прогрессу.

Гинспарг (Ginsparg) углубляется в предысторию стреми-тельных изменений характера научных публикаций. Он при-водит примеры важных прогрессивных исследований и пер-спективных открытий, затрагивающих несколько дисциплин. При этом он отмечает изолированность различных отраслей

Page 208: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ174

науки и призывает нас учиться друг у друга и перенимать передовой опыт, пре-одолевая междисциплинарные барьеры. В дополнение он приводит полезную схему, иллюстрирующую концепцию «совместного курирования и создания на-учных знаний» Джима Грея, сторонником которой он также является.

Ван де Сомпел (Van de Sompel) и Лагозе (Lagoze) подчеркивают, что ученым еще предстоит осознать весь потенциал и преимущества технологий для науч-ного взаимодействия. Авторы считают особенно важным тот факт, что наиболее сложные проблемы и задачи носят социальный характер, и их решение зависит от людей. Это означает, что их не так легко решить с помощью новых приложе-ний или дополнительных микросхем. Авторы призывают к разработке откры-тых стандартов и протоколов взаимодействия, что поможет в этой ситуации.

Вопросы обмена научными данными на международном уровне рассматри-ваются в статье Э. Фицджеральд (A. Fitzgerald), Б. Фицджеральда (B. Fitzgerald) и Паппалардо (Pappalardo). Иногда ученые сталкиваются с наибольшими огра-ничениями и трудностями на государственном или региональном уровне, что препятствует их участию в международных научных исследованиях. На кон-кретном примере авторы показывают необходимость координации работы на-учного сообщества и рекомендуют ответственным лицам работать над устране-нием препятствий в этой системе.

Уилбэнкс (Wilbanks) прямо говорит о лейтмотиве этого раздела: во многих случаях ученые, часто сами того не желая, сдерживают развитие науки. Хотя мы, будучи профессионалами, работаем над концепциями, инструментами и реализацией инновационных научных исследований, мы не всегда применяем или полностью осознаем возможности тех систем, которые мы внедрили. Мы, объединенное сообщество передовых исследователей, часто забываем о возмож-ностях вычислительных технологий. Он отмечает, что крайне важно реализо-вать взаимодействие всех научных направлений и использовать междисципли-нарные исследования и сотрудничество для достижения принципиально новых результатов.

Завершая этот раздел, Ханнай (Hannay) в своей статье подчеркивает вза-имосвязанность нашего пронизанного сетями мира — несмотря на сохраняю-щиеся социальные барьеры между различными научными направлениями. Он отмечает, что постепенный переход науки от состояния фермерского хозяйства к крупной промышленности является частью эволюции нашего подхода к веде-нию научной деятельности. Он приводит интересные примеры исследований, которые могут указать путь в будущее веб-коммуникаций, и говорит о том, что мы живем в переходный период, непосредственно предшествующий появлению семантической реальности и взаимосвязанности.

Научная деятельность эволюционирует от небольших автономных научных организаций до более крупных компетентных взаимосвязанных сообществ уче-ных, прогресс которых все в большей степени зависит от достижений каждого из них. В совместном стремлении к этой великой цели, как и предвидел Джим, мы увидим, что с помощью вычислительных технологий наука будет развиваться как никогда высокими темпами.

Page 209: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 175

Четвертая парадигма Джима Грея и формирование

архива науки

На заключительном этапе своей карьеры Джим Грей возглавил движение специалистов, которые замети-ли рождение явления, названного ими «четвертой парадигмой научных исследований». В этой статье я

кратко расскажу о влиянии четвертой парадигмы (далее име-нуемой «наукой с использованием большого объема данных» [1]) на природу научной коммуникации и архив науки.

Парадигма Грея встает в один ряд с классической парой противоположных, но взаимодополняющих научных пара-дигм: теорией и экспериментом. Третья парадигма — круп-номасштабное компьютерное моделирование — появилась благодаря работам Джона фон Неймана (John von Neumann) и других ученых в середине 20 века. До некоторой степени четвертая парадигма Грея обеспечивает платформу интегра-ции для взаимодействия и взаимодополнения первых трех парадигм. Во многом это напоминает традиционный цикл научных исследований: теория формирует гипотезы, которые могут быть экспериментально проверены, а в ходе экспери-ментов обнаруживаются явления, требующие теоретического объяснения. Несмотря на огромный вклад технологий моде-лирования в научный прогресс, они не оправдали изначально возложенных на них ожиданий (например, для долгосрочно-го прогноза погоды). В частности, это связано с очень высокой чувствительностью сложных систем к исходным условиям и хаотическому поведению [2]. Это один из примеров, когда моделирование, теория и эксперимент должны совместно ис-пользоваться в условиях огромных объемов данных.

КЛИФФОРД ЛИНЧ (CLIFFORD LYNCH) Коалиция сетевых информационных ресурсов (Coalition for Networked Information (CNI))

Page 210: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ176

Чтобы понять влияние науки с использованием большого объема данных на архив науки1, прежде всего необходимо изучить сущность этого архива, его предназначение и его сильные и слабые стороны с точки зрения удовлетворения потребностей различных парадигм и эволюции науки.

В первом приближении современный архив науки, берущий свое начало в 17 веке и тесно связанный с развитием науки и научных сообществ, представля-ет собой множество независимых научных изданий, протоколов и презентаций с конференций, а также лежащих в их основе данных и других фактических материалов в поддержку опубликованных открытий. Этот архив хранится в различных местах, иногда с избыточным дублированием, в библиотеках, хра-нилищах и музеях по всему миру. Эти данные и фактические материалы растут со временем: записи наблюдений, занимающие слишком много места для пу-бликации в журналах, стали храниться в научных архивах, а к материальным свидетельствам в музеях естествознания сейчас добавились огромные массивы цифровых данных, базы данных и различные архивы данных, а также нецифро-вые данные наблюдений (например, фотографии) и новые коллекции биомате-риалов. Долгое время важную и вместе с тем ограниченную часть архива науки составляли научные монографии и такие специализированные материалы, как патенты, однако в 20 веке большую важность приобретает «серая литература», в частности технические отчеты и препринты. На протяжении последних лет мы видим стремительный рост числа веб-сайтов, блогов, видеоклипов и других материалов (обычно не связанных с традиционным процессом публикации), ко-торые становятся важной частью этого архива, хотя рамки этих материалов и различные проблемы, связанные с их систематической идентификацией, архи-вированием, доступностью, проверкой на правильность и т. п., остаются предме-том горячих споров.

Архив науки предназначен для решения нескольких задач. Во-первых, он обеспечивает передачу (коммуникацию) открытий, гипотез и идей от одного че-ловека к другому сквозь время и расстояние. Он служит для упорядочивания — создания общей номенклатуры и терминологии, объединения сходных работ и развития отраслей знаний. Это движущая сила для формирования сообществ и широкомасштабного сотрудничества сквозь время и расстояние. Это средство для документирования, управления и часто в конечном итоге устранения проти-воречий и разногласий. Его можно использовать для создания прецедентов идей и результатов, а также (с помощью цитирования и библиометрии) предостав-лять доказательства качества и значимости научной работы. Архив науки дол-жен быть достоверным и заслуживающим доверия в нескольких аспектах. При ближайшем рассмотрении экспертное рецензирование работ до их публикации,

1 Для краткости и ясности я ограничил обсуждение в этой статье лишь наукой. Но поскольку очевидно,

что технологии e-Науки — это всего лишь частный случай направления электронных исследований, а наука с использованием большого объема данных является образцом гуманитарных наук с использо-ванием большого объема данных, многие утверждения в этой статье могут с некоторыми поправками применяться к гуманитарным и естественным наукам.

Page 211: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 177

репутация редакции и автора и информационная открытость при предостав-лении отчетов о результатах должны гарантировать уверенность в точности и правильности отдельных статей. В более общем смысле архив науки рассматри-вается на больших временных промежутках и в совокупности накопленных ма-териалов. В этом случае проверка открытий, а также устранение ошибок и вы-явление намеренных, а в особенности существенных, фальсификаций обычно выполняется силами научного сообщества в ходе дискуссий после публикации, формального рецензирования, воспроизведения, повторного использования и добавления результатов, а также помещения результатов, взятых из отдельной работы, в более широкий контекст научных знаний.

Основная идея, непосредственно связанная с достоверностью информации, а также возможностями сотрудничества и использования работы других ученых, состоит в воспроизводимости результатов научных исследований. И хотя это иде-ал, который часто пользуется лишь слабой практической поддержкой со сторо-ны некоторых ученых, настойчиво защищающих собственные методы, данные и исследования, именно этот аспект является фундаментальным отличием на-уки от таких практик, как алхимия. Архив науки — не обязательно отдельная самодостаточная статья, а совокупность литературных источников и данных в рамках одной общей записи или, пользуясь современной терминологией, статья и все ее явные и косвенные «связи» — должен содержать достаточно данных и информации о методах и практиках, которые позволят другим ученым вос-произвести те же результаты на основе такого же начального набора данных. Архив науки должен давать возможность выполнить дополнительные действия, которые позволят поместить начальные результаты в более полный контекст, из-менить предположения и аналитические методы и посмотреть, к чему приведут эти изменения. Стоит заметить, что идея воспроизводимости сложных научных экспериментов часто становится трудно реализуемой по прошествии длитель-ного времени. Это связано с тем, что воспроизведение экспериментов может потребовать множества неявных знаний, которые ранее были частью обычной научной практики. При этом техническая база, впервые созданная на момент проведения эксперимента, по прошествии многих десятилетий поддается вос-созданию лишь с трудом и большими временными затратами.

Насколько эффективным был архив науки на протяжении длительного го-сподства первых двух научных парадигм? Я полагаю, что в целом он был до-статочно эффективным. И архив науки, и учреждения, которые его создавали, поддерживали и курировали, были вынуждены эволюционировать в ответ на две обширные проблемы. Первая была главным образом связана с эксперимен-тальной наукой. По мере того, как эксперименты становились все более слож-ными, тонко организованными и технически оснащенными, а также по мере роста объемов данных и утраты возможности их полного воспроизведения в рамках научных публикаций, связи между фактическими и письменными мате-риалами становились все более неоднозначными и неясными. В частности, когда расширенные вычисления (особенно вычисления с механической или электро-

Page 212: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ178

механической поддержкой, выполняемые группами человеческих «компьюте-ров») применялись к данным, проблемы с воспроизводимостью стали выходить далеко за рамки доступа к данным и понимания использованных методов. И в этом случае было мало пользы от наличия архива науки, основанного на печат-ных документах и физических артефактах. Наилучшим выходом было создание организованной системы архивов данных с указанием определенных условий их добавления или обязательствами по обеспечению их доступности.

Вторая эволюционная проблема заключалась как раз в масштабе научной деятельности. Накопилось огромное количество литературы, научные дис-циплины и направления ветвились вновь и вновь. Требовалось разработать инструменты и практические подходы для управления таким масштабом — специализированные журналы, цитатники, указатели, обзорные журналы и би-блиографии, управляемые словари и таксономии в различных областях науки. И в который раз из-за возможностей системы, основанной на печатных копиях, все эти инновации оказались бесполезными, а масштаб научной деятельности остался постоянной и все более удручающей проблемой для ученых.

Появление третьей парадигмы в середине 20 века и одновременный рост вычислительных технологий, поддерживающих экспериментальные и теорети-ческие науки, увеличили нагрузку на традиционный архив науки. Продолжал-ся не только рост базовых данных. Полученные в результате моделирования и экспериментов наборы данных стали очень большими и сложными. Их можно было лишь кратко резюмировать, но невозможно было полностью изложить в традиционных публикациях. Хуже всего было то, что программные вычисле-ния, применявшиеся в моделировании и для других целей, стали неотъемлемой частью в вопросе воспроизводимости экспериментов2. Важно осознавать, как много времени на самом деле прошло до того момента, пока компьютерное ап-паратное обеспечение стало достаточно надежным для выполнения широкомас-штабных вычислений с плавающей запятой3. (Даже сегодня мы очень ограниче-ны в нашей способности создавать доказуемо корректные широкомасштабные программы. Мы полагаемся на нашу медленно растущую уверенность, осно-ванную на длительном и широком использовании этих программ, желательно на различном оборудовании и платформах. Документирование сложных кон-

2 В сущности, способность осмысливать и воспроизводить широкомасштабные вычисления также стала

настоящей проблемой для теоретической науки. В 1976 году доказательство теоремы четырех цветов в теории графов сопровождалось исчерпывающим компьютерным анализом огромного числа частных случаев и вызвало серьезные споры в математическом сообществе относительно полного признания этого доказательства. Из более свежих примеров — предложенное Томасом Хейлисом (Thomas Hales) доказательство гипотезы Кеплера.3 Стандарт IEEE представления чисел с плавающей запятой был выпущен лишь в 1985 году. Я лично

помню аварийные ситуации с мейнфреймами в 1970-х и 1980-х гг., когда полученные компьютеры при-ходилось проверять и исправлять в полевых условиях после того, как в их оборудовании или микро-программах были обнаружены серьезные ошибки, которые могли привести к неверным результатам вычислений.

Page 213: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 179

фигураций программных средств как часть возникновения продуктов науки с использованием большого объема данных остается основной задачей исследо-вания при курировании данных и структурировании научного рабочего про-цесса.) Хорошей новостью было то, что вычислительные технологии стали при-меняться для управления огромным растущим массивом научной литературы. Начиная с 1970-х гг., многие организационные инструменты были переведены в оперативные базы данных и информационно-поисковые системы, и стали ши-роко доступны к середине 1990-х гг.

С появлением вычислительной парадигмы, основанной на использовании большого объема данных, архив науки и лежащая в его основе система коммуни-кации и публикации достигли той точки, где можно было смотреть в их прошлое и будущее. Стало ясно, что данные и программы должны стать неотъемлемой частью архива науки — объектами первого уровня, которые тоже требуют си-стематического управления и курирования. Мы видим, что эта тенденция от-ражается в акценте на курировании и многократном использовании данных в различных киберинфраструктурах и программах e-Науки [3-6]. Эти наборы данных и другие материалы будут вплетены многообразными сложными спосо-бами [7] в научные работы, которые теперь создаются в цифровом виде и на-чинают активно пользоваться возможностями цифровой среды. И в конечном итоге мы постепенно распрощаемся с исходной моделью электронных научных журналов, когда цифровое хранилище и технологии обеспечения доступности применялись к статьям, которые по сути были цифровыми копиями печатных страниц. Мы также увидим такие средства, как видеозаписи, дополняющие тра-диционные описания методик проведения экспериментов, и различные двух- и трехмерные визуализации. В некоторой степени эту ситуацию можно рассма-тривать, как усовершенствование традиционного жанра научных публикаций, когда возможности современных информационных технологий отвечают по-требностям всех четырех парадигм. Научная публикация становится для учено-го дверью, открывающей путь не только к пониманию научных результатов, но также к их воспроизведению и расширению.

Однако наряду с беспрецедентными масштабом и областью охвата научной деятельности все большее значение приобретают две другие разработки. Пер-вая — это создание фондов справочных данных, часто не связанных с конкрет-ными научными исследованиями, хотя от этих фондов зависит большая часть исследований, а во многих научных публикациях приводятся ссылки на данные из этих фондов. Многие из них создаются с помощью роботизированного ин-струментария (синоптические обзоры неба, крупномасштабное секвенирование микроорганизмов, комбинаторная химия). Некоторые также включают работы по редактированию и курированию данных, выполняемые с целью представ-ления наиболее полных актуальных знаний о сложных системах (аннотиро-ванный геном отдельной особи, набор сигнальных путей и т. д.). Полученные результаты могут быть процитированы в традиционной научной литературе, чтобы подтвердить или подкрепить утверждения в базе данных. Разумеется, эти фонды справочных данных являются неотъемлемой составной частью архива

Page 214: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ180

науки, хотя мы по-прежнему ищем наиболее эффективные пути решения таких вопросов, как ведение версий и стабильность этих ресурсов. Эти наборы дан-ных используются совершенно не так, как традиционные научные публикации. Чаще всего они служат для выполнения различных вычислений, а не просто для чтения. По мере обновления фондов справочных данных могут выполняться новые вычисления, результаты которых могут привести к новым научным ре-зультатам или переоценке существующих. Чем дальше, тем больше: некоторые дополнения к этим фондам справочных данных будут признаны самостоятель-ным важным вкладом в науку. Можно сказать, что научные работники учатся всесторонне рассматривать весь диапазон возможностей и средств выражения для внесения своего вклада в архив науки в эпоху науки с использованием боль-шого объема данных и вычислений.

В конечном итоге архив науки сам становится главным объектом непрерыв-ной обработки информации — центральным фондом справочных данных — насколько это возможно при условии решения вопросов авторских прав и устранения технических ограничений [8]. Интеллектуальный анализ текстов и данных, получение выводов, интеграция структурированных данных и текстов на естественных языках (возможно, снабженных семантической разметкой для автоматического обнаружения ссылок на конкретные типы объектов — гены, звезды, особи, химические соединения или географические объекты, а также их свойства — с более высокой точностью по сравнению с эвристическими ал-горитмами анализа текста), поиск, фильтрация и кластеризация информации помогают решать проблемы постоянно растущего масштаба архива науки и все возрастающего дефицита его неавтоматизированного сопровождения. Они так-же помогают применять новые технологии науки с использованием большого объема данных для более эффективного извлечения результатов и гипотез из архива науки. Я думаю, что мы увидим очень интересные разработки, посколь-ку исследователи применяют эти инструменты для изучения «общедоступного» архива науки сквозь призму различных фондов закрытой информации (неопу-бликованные результаты, отраслевая коммерческая информация и даже госу-дарственные разведданные).

В эпоху вычислений с большим объемом данных мы видим, что люди исполь-зуют архив науки двумя способами. В малом масштабе, по одной или несколько статей одновременно — люди читают научные публикации так же, как они это делали на протяжении столетий. Но благодаря вычислительным средствам они могут выйти за рамки печатных работ и гораздо эффективнее использовать ле-жащие в их основе научные достижения и данные, а также перемещаться между публикациями и фондами справочных данных с большей скоростью, точностью и гибкостью. Кроме того, их находки можно будет интегрировать со средой взаимодействия и инструментами для аннотирования, авторской разработки, моделирования и анализа. Сегодня мы также видим, что ученые используют архив науки в большом масштабе, как корпус текстов и набор взаимосвязанных источников данных, к которым они применяют широкий набор новых вычисли-тельных средств. В этом случае ученые находят интересующие их публикации,

Page 215: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 181

выдвигают гипотезы, которые могут быть проверены с помощью комбинаций теоретических и экспериментальных исследований и моделирования, а иногда напрямую создают новые данные или результаты. Когда равновесие между ма-лым и большим масштабом использования архива науки изменится (сегодня, я полагаю, оно все еще на стороне малого масштаба), мы увидим, что это изменит многие аспекты научной культуры и практики научных публикаций, включая, возможно, взгляды на открытый доступ к научной литературе, применение раз-личных типов разметки и выбор средств авторской разработки для научных ра-бот, а также дисциплинарные нормы в отношении курирования данных, обмена данными и общего жизненного цикла данных. Я думаю, что если говорить о на-уке с использованием большого объема данных, со временем в научной работе на передний план постоянно, повсеместно и явно выйдет один набор данных, а именно — архив науки.

БЛАГОДАРНОСТИ

Я хочу поблагодарить участников пятничного семинара («Friday Seminar») Бакленда-Линча-Ларсена (Buchland-Lynch-Larsen), посвященного доступу к информации, который состоялся 24 апреля 2009 г. в школе информатики Ка-лифорнийского университета в Беркли. Ваше обсуждение предварительного текста этой статьи было очень полезным.

ССЫЛКИ

[1] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

[2] Лекция Фримена Дайсона (Freeman Dyson) об Эйнштейне (2008 г.), «Birds and Frogs», Notices Am. Math. Soc., vol. 56, no. 2, pp. 212—224, Feb. 2009, ww.ams.org/notices/200902/rtx090200212p.pdf.

[3] Национальный совет по делам науки, «Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century», National Science Foundation, 2005, www.nsf.gov/pubs/2005/nsb0540/start.jsp.

[4] Ассоциация научных библиотек, «To Stand the Test of Time: Long-term Stewardship of Digital Data Sets in Science and Engineering», Association of Research Libraries, 2006. www.arl.org/pp/access/nsfworkshop.shtml.

[5] Различные отчеты отдела киберинфраструктуры Национального совета по делам науки, www.nsf.gov/dir/index.jsp?org=OCI, в том числе документ с опи-санием концепции киберинфраструктуры и отчет Аткинса (Atkins).

[6] L. Lyon, «Dealing with Data: Roles, Rights, Responsibilities and Relationships», (консультационный отчет), UKOLN and the Joint Information Systems Committee (JISC), 2006, www.jisc.ac.uk/whatwedo/programmes/programme_digital_repositories/project_dealing_with_data.aspx.

[7] C. A. Lynch, «The Shape of the Scientific Article in the Developing Cyberinfrastructure», CT Watch, vol. 3, no. 3, pp. 5—11, Aug. 2007, www.ctwatch.

Page 216: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ182

org/quarterly/articles/2007/08/the-shape-of-the-scientific-article-in-the-developing-cyberinfrastructure.

[8] C. A. Lynch, «Open Computation: Beyond Human-Reader-Centric Views of Scholarly Literatures», in Neil Jacobs, Ed., Open Access: Key Strategic, Technical and Economic Aspects. Oxford: Chandos Publishing, 2006, pp. 185—193, www.cni.org/staff/cliffpubs//OpenComputation.pdf.

Page 217: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 183

ПОЛ ГИНСПАРГ (PAUL GINSPARG) Корнельский университет (Cornell University)

Текст в мире, ориентированном на данные

Я впервые встретился с Джимом Греем (Jim Gray), ког-да работал модератором в предметной области баз данных проекта arXiv в рамках включения в проект arXiv компьютерных наук, начатого в 1998 г. Вскоре

он сыграл решающую роль в реализации полнотекстового поиска в arXiv с помощью широкомасштабных поисковых систем, сначала Google, а затем Microsoft и Yahoo!. Предпри-нятые в 1990-х гг. попытки автоматического сканирования содержимого arXiv сталкивались с серьезными ограничения-ми из-за того, что они отправляли на серверы слишком мно-го запросов. Джим понимал возрастающую роль текста как формы данных и считал необходимым, чтобы текст можно было использовать как любой другой объект вычислений. В 2005 г. он участвовал в проектах arXiv и PubMed Central и поделился со мной своим ощущением того, что хотя эти два хранилища имели сходное назначение, они как будто рабо-тали в параллельных мирах, не имея никаких существенных точек пересечения. В перспективе он видел мир научных ре-сурсов — текстов, баз данных и любых других сопутствующих материалов — взаимосвязанным, с возможностью легко по нему перемещаться.

Многие ключевые открытые вопросы о технологическом преобразовании научной инфраструктуры, такие как долго-срочная финансовая модель для реализации контроля каче-ства, архитектура статьи будущего и соединение всех фраг-ментов в единую взаимосвязанную систему, поднимались еще десять лет назад. И хотя ответы на них остаются туманными, есть основания полагать, что мы можем ожидать существенно-го продвижения в решении по крайней мере двух последних вопросов. В статье [1] я описал первые попытки использова-

Page 218: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ184

ния различных возможностей полнотекстовых агрегаций и привел базу данных PubMed Central в качестве примера новаторского подхода. Ее полнотекстовые XML-документы проходят синтаксический анализ, тем самым обеспечивая не-сколько «представлений связанных материалов» для данной статьи, со ссылками на базы данных по геномам, нуклеотидам, наследственности, экспрессии генов, протеинам, химическим соединениям, таксономии и т.д. Эта методология сейчас начинает распространяться наряду с более общими возможностями семантиче-ского анализа: автоматическое обнаружение и обоснование, добавление ссылок на связанные документы и данные, обеспечение доступа к данным, дающим ос-нование для действий в статьях и интеграция данных между статьями.

Один из свежих примеров семантических оптимизаций, добавленных изда-телем, — журнал Molecular BioSystems издательства Royal Society of Chemistry4. Его расширенная HTML-разметка выделяет в тексте термины, представленные в химических терминологических базах данных, и связывает их с записями во внешней базе данных. Точно так же в тексте выделяются и устанавливаются свя-зи для терминов из генной и клеточной онтологии и секвенирования. Эта тексто-вая разметка выполняется редакторами-специалистами в предметной области с применением автоматизированных инструментов анализа текста. В качестве примера полностью автоматизированного средства аннотирования научных терминов можно назвать инструмент Reflect5 от лаборатории EMBL (Германия), который работает как внешний сервис на любой веб-странице или в качестве подключаемого модуля браузера. Он отмечает тегами названия генов, белков и малых молекул, а для отмеченных тегами терминов создаются ссылки на со-ответствующие базы данных по секвенированию, структурам или взаимодей-ствию.

В следующем мысленном эксперименте Шоттон (Shotton) и др. [2] вручную выполнили разметку статьи, используя имеющиеся стандартные технологии, чтобы продемонстрировать разнообразие возможных семантических оптими-заций — по сути, их минимальный набор, который, вероятно, в ближайшем будущем станет общепринятым. Помимо семантической разметки терминов в тексте и живых DOI- и URL-ссылок они реализовали, где это возможно, реор-ганизуемый справочный список — резюме документа, включающее статистику документа, облако тегов технических терминов, деревья тегов для помеченных именованных сущностей, сгруппированных по семантическому типу, анализ цитирования (в каждой статье) с помощью всплывающих подсказок «Citations in Context» («Цитаты в контексте») (предыстория, интеллектуальная подопле-ка, опровержения и т. д.), загружаемые листы с таблицами и данными, интерак-тивные числовые показатели и слияние данных с результатами других иссле-довательских статей и контекстными интерактивными картами (см. рисунок 1).

4 www.rsc.org/Publishing/Journals/mb

5 http://reflect.ws, победитель последнего конкурса Elsevier Grand Challenge

(www.elseviergrandchallenge.com)

Page 219: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 185

Они подчеркивают будущую важность предметно-ориентированных структу-рированных цифровых фрагментов, а именно распознаваемых компьютером метаданных, содержащих краткую сводку основных данных и выводов из ста-тей, включая список именованных сущностей в статье с точными идентифика-торами базы данных, список основных результатов, составленный с помощью управляемого словаря, и описание использованной методологии с применением стандартных кодов подтверждения. Использование управляемых словарей в таком структурированном резюме документа позволит не только ввести новые параметры для определения связей статьи с конкретной темой, но и реализовать новые формы автоматизации логических выводов.

В настоящее время распознавание именованных сущностей (например, на-званий генов) в неструктурированном тексте выполняется сравнительно просто, но надежное извлечение связей, выраженных в обычном тексте, — значительно более сложная задача. Следующее поколение инструментов для автоматизиро-

РИСУНОК 1.

Снимок экрана статьи «Exemplar Semantic Enhancements» (Примеры семантических опти-мизаций) (http://imageweb.zoo.ox.ac.uk/pub/2008/plospaper/latest, [2]). В тексте отмечены связи различных семантических классов терминов, которые при желании можно выделить цветной заливкой с помощью кнопок в верхнем ряду. При наведении мыши на справочную ссылку в тексте отображается текстовый блок с основными подкрепляющими утверждениями или цифрами из цитируемого документа.

Page 220: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ186

ванного извлечения и обработки знаний, работающих со структурированными фрагментами и семантически обработанным текстом, позволит нам гораздо теснее приблизиться к прямому поиску и просмотру «знаний», а именно по-средством синтезированных понятий и их отношений. В рамках дальнейшей оптимизации появится анализ сети цитирования, автоматический анализ изо-бражений, более универсальные гибриды данных (data mashup) и готовые или настраиваемые алгоритмы, обеспечивающие новые типы семантических филь-тров для просмотра текстов, данных и изображений. Все эти возможности так-же могут быть интегрированы в среды взаимодействия, где пользователи смогут аннотировать статьи и сопутствующую информацию, находить скрытые связи и обмениваться новыми результатами.

В ближайшем будущем семантическая оптимизация текста будет выполнять-ся с помощью набора полуавтоматических инструментов для авторов6, инстру-ментов для редакторов и автоматизированных средств, применяемых к новым и архивным публикациям. Многие авторы старой закалки не захотят тратить время на оптимизацию своих работ, особенно если это потребует значительных усилий. Разумеется, многие издатели будут предлагать разметку как дополни-тельный компонент процесса публикации, т.е. как часть своей финансовой мо-дели. Положительные результаты этой оптимизации, заметные для всех читате-лей, будут создавать давление в открытом секторе для равных по возможностям инструментов, возможно, с небольшим опозданием после разработки каждой новой функции. Гораздо естественнее включить семантику с самого начала, чем пытаться накладывать ее позднее, но в любом случае PDF не будет удобным форматом для переноса. При наличии подходящего формата документа, ин-струментов и мер поощрения авторы могут сами предоставлять большую часть структурных и семантических метаданных на этапе написания статьи, что со-кратит требуемый объем дополнительных работ.

В долгосрочной перспективе остается нерешенным вопрос о том, где хра-нить семантическую разметку, как и другие данные, публикуемые в Интерне-те. Должны ли издатели размещать наборы данных по своим публикациям у себя, или должны существовать независимые хранилища данных, подобные SourceForge? И как следует хранить разметку: как трехуровневые конструкции внутри документа или как внешние вложения, отражающие связи и зависимо-сти? По мере развития знаний будут появляться новые связи, новые объекты для аннотирования и существующие аннотации, ведущие к измененным источ-никам или данным. Нужно ли предусмотреть возможность отката этих измене-ний и просмотра документа в контексте любого предшествующего промежутка времени?

6 Например, статья Пабло Ферникола (Pablo Fernicola) «Article Authoring Add-in for Microsoft Office

Word 2007» («Надстройка для написания статей для Microsoft Office Word 2007»), www.microsoft.com/downloads/details.aspx?familyid=09c55527-0759-4d6d-ae02-51e90131997e

Page 221: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 187

Во избежание излишних разовых настроек при взаимодействии между до-кументами и данными и слиянии различных источников данных потребуется добавить общий, межоперационный семантический слой поверх имеющихся баз данных. Такие структуры также обеспечат более высокую доступность дан-ных для общих поисковых систем при поиске по ключевым словам и запросам, составленным на естественном языке. Подобный доступ к данным должен сти-мулировать специалистов по обслуживанию баз данных к внедрению локаль-ных семантических интерфейсов, что повысит их интеграцию в глобальную сеть данных и увеличит преимущества открытого доступа к тексту и данным для научного сообщества. Тим Бернерс-Ли (Tim Berners-Lee)7 активно продвигает понятие связанных данных для всех подобных целей, не только для ученых или крупных и популярных баз данных. Каждый пользователь вносит небольшой вклад в общую структуру, создавая связи объекта с URI, которые затем могут быть изменены на связи с более полезными данными. Такая четко сформулиро-ванная семантическая структура способствует применению более простых алго-ритмов для работы с текстом и данными в Интернете и более реалистична для реализации в ближайшем будущем по сравнению с созданием слоя комплекс-ной синтетической аналитики для интерпретации человеческих идей, изложен-ных в произвольной форме, посредством какого-либо вероятностного подхода.

Новые формы взаимодействия с уровнем данных также затрагиваются в дис-куссиях о Wolfram|Alpha8, новом ресурсе (открытом для общего доступа толь-ко после этой публикации), который использует большой объем человеческого труда для перевода многотысячных потоков данных в формат, пригодный для обработки алгоритмической системой визуализации Mathematica. Снабженная внешним интерфейсом для интерпретации запросов, частично сформулирован-ных на естественных языках, эта система и ее вероятные конкуренты существен-но повысят надежды пользователей на появление новых форм синтезированной информации, которая будет доступна напрямую из обычных поисковых систем. Эти приложения будут гораздо быстрее разрабатываться для хранилищ дан-ных, семантический слой которых курируется локально, а не требует централи-зованного курирования.

Большая часть современных успехов по интеграции данных с текстом по-средством семантической оптимизации, как это было описано выше, была достигнута применительно к литературе по медико-биологическим наукам. В принципе, инструменты для интеллектуального анализа текста и обработки информации на естественных языках, которые распознают связанные сущности и автоматически создают связи с соответствующими предметными онтология-ми, имеют естественные аналоги во всех областях. Например, астрономические объекты и эксперименты в астрономии, математические термины и теоремы в

7 www.w3.org/DesignIssues/LinkedData.html

8 www.wolframalpha.com. Основано на закрытой демонстрации 23 апреля 2009 г. и открытой презента-

ции 28 апреля 2009 г., http://cyber.law.harvard.edu/events/2009/04/wolfram

Page 222: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

математике, физические объекты, терминология и эксперименты в физике и химические структуры и эксперименты в химии. Хотя наука с использованием большого объема данных, естественно, является нормой для астрофизики, фраг-менты сети данных для астрофизики сегодня не поддаются столь же эффектив-ной гибридизации, как для медико-биологических наук. Однако наиболее пара-доксален тот факт, что хотя физики опередили остальных во многих цифровых разработках, датируемых началом 1990-х гг. (включая само создание Интернета в лаборатории физики высоких энергий CERN), а также в открытии доступа к своей литературе, в настоящее время не предпринимаются никакие согласован-ные усилия по разработке семантических структур для большинства областей физики. Одно из препятствий заключается в том, что во многих распределенных областях физики, таких как физика плотных сред, отсутствуют центральные ла-боратории с обширными специализированными библиотеками для формирова-ния и поддержания глобальных ресурсов.

В медико-биологических науках возможна ситуация, при которой в следую-щем десятилетии текст станет менее ценным по сравнению с семантическими сервисами, которые помогают исследователям находить данные, дающие осно-вание для действий, интерпретировать информацию и извлекать знания [3]. Од-нако в большинстве научных направлений результаты исследований представ-ляют нечто большее, чем объективный набор записей в базе данных. Научная статья сохранит свою главную роль: с помощью тщательно отобранных данных убеждать читателей в правильности гипотезы автора. Записи из базы данных будут параллельно выполнять роль предоставления доступа к полным и объ-ективным наборам данных, как для дальнейшего исследования, так и для авто-матизированного интеллектуального анализа данных. Также между научными направлениями существуют важные различия с точки зрения той роли, которую в них выполняют данные. Как мне недавно сказал один выдающийся бывший физик, ставший биологом: «В биологии отсутствуют основополагающие орга-низационные принципы»9. Он имел в виду, что в некоторых научных областях развитием науки в сущности управляют скорее данные, чем теория. Наука игра-ет разные роли в нашей массовой и политической культуре и, следовательно, пользуется разным уровнем поддержки. Так, в геномике мы стали свидетелями досрочного создания базы данных GenBank, присвоения ей статуса управляе-мого государством ресурса и последующего роста связанных с ней баз данных в Национальной медицинской библиотеке, которые активно используются.

Также предполагается, что обширный интеллектуальный анализ данных и его сопутствующая способность выделять и предсказывать тенденции может в конечном итоге заменить более традиционные компоненты научного метода [4]. Однако эта точка зрения смешивает цели фундаментальной теории и феноме-нологического моделирования. Наука стремится предоставить не просто авто-

9 Уолли Гилберт (Wally Gilbert), во время ужина 27 апреля 2009 г. Возможно, его комментарий имел

более узкий контекст, чем в этой статье.

Page 223: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 189

матические расчеты взаимосвязей. Ее цель, напротив, заключается в том, чтобы с помощью этих закономерностей, извлеченных из данных, создавать универ-сальные средства для их понимания априори. Таким образом, прогнозируемость теории имеет первостепенную важность как средство подтверждения ее кон-цептуального содержимого, хотя она, разумеется, также может иметь большую практическую пользу.

Поэтому мы не должны переоценивать роль данных и недооценивать роль текста, а все ученые должны следить за семантической оптимизацией текста и сопутствующими управляемыми данными разработками в медико-биологиче-ских науках с большим интересом и, вероятно, с завистью. Вскоре после этого в физических науках10 может возникнуть некая первичная проблема, для реше-ния которой ранее требовались многие недели сложных поисковых обходов баз данных, вручную сохраняемых вкладок браузеров, импровизированных сцена-риев анализа данных и всех прочих действий, выполняемых нами ежедневно. Например, ученый будущего, имеющий беспрепятственный семантический доступ к федерации баз данных, включая свойства зонной структуры и вычис-ления, измерения методом ЯМР и рентгеновского рассеяния, механические и другие свойства, может мгновенно внести небольшие изменения в недавно изо-бретенное вещество, чтобы добавить ему максимальные фотоэлектрические свойства, которые можно вообразить. Возможности подобного прогресса в по-иске новых источников энергии или предупреждении долгосрочных климати-ческих изменений могут быть доступны и теперь, но остаются незамеченными в современной ситуации с отсутствием интеграции текста и баз данных. Если при возникновении подобных проблем можно будет немедленно найти их решение с помощью автоматизированных средств, напрямую работающих с семантиче-ским уровнем, который обеспечивает каналы взаимодействия между открытым текстом и базами данных, тогда и другие научные сообщества смогут сделать шаг в будущее и воспользоваться новыми возможностями курирования и созда-ния знаний силами сообщества, предусмотренными четвертой парадигмой.

ССЫЛКИ

[1] P. Ginsparg, «Next-Generation Implications of Open Access», www.ctwatch.org/quarterly/articles/2007/08/next-generation-implications-of-open-access, accessed Aug. 2007.

[2] D. Shotton, K. Portwin, G. Klyne, and A. Miles, «Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article», PLoS Comput. Biol., vol. 5, no. 4, p. e1000361, 2009, doi: 10.1371/journal.pcbi.1000361.

[3] P. Bourne, «Will a Biological Database Be Different from a Biological Journal?» PLoS Comput. Biol., vol. 1, no. 3, p. e34, 2005, doi: 10.1371/journal.pcbi.0010034. Эта ста-тья была намеренно провокационной.

10 Как подчеркнул Джон Уилбэнкс (John Wilbanks) в нашей дискуссии 1 мая 2009 г.

Page 224: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ190

[4] C. Anderson, «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete», Wired, June 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory. Эта статья также была намеренно провокационной.

Page 225: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 191

ГЕРБЕРТ ВАН ДЕ СОМПЕЛ (HERBERT VAN DE SOMPEL) Лос-Аламосская национальная лаборатория (Los Alamos National Laboratory)

КАРЛ ЛАГОЗЕ (CARL LAGOZE) Корнельский университет (Cornell University)

Все на борт! Вперед, к автоматизированной

системе научного взаимодействия!

«Существующая система научного взаимодействия представляет собой не что иное, как отсканированную копию

бумажной системы».

Это утверждение, которое мы произносили во время многочисленных презентаций на конференциях для того, чтобы произвести впечатление на аудиторию, было окончательно сформулировано в статье, выпу-

щенной в 2004 г. [1]. Однако и по сей день оно в общем и целом справедливо. Хотя издатели научной литературы стали ис-пользовать новые технологии (такие как Интернет и докумен-ты PDF), в значительной степени упрощающие доступ к науч-ным материалам, эти изменения не реализуют весь потенциал новых цифровых и сетевых возможностей. В частности, они не помогают преодолеть три недостатка широко распростра-ненной системы научного взаимодействия:

• системные проблемы, в особенности неразрывная связь в системе публикации между подачей научной заявки на со-вместную авторскую разработку и процессом экспертного рецензирования;

• экономические проблемы, проявляющиеся в кризисе пе-риодических изданий, что создает огромную нагрузку на библиотеки;

Page 226: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ192

• технические проблемы, препятствующие реализации информационной ин-фраструктуры с поддержкой взаимодействия.

Наше беспокойство о состоянии научного взаимодействия разделяют многие специалисты по всему миру. Почти десять лет назад в сотрудничестве с пред-ставителями мирового научного сообщества мы создали группу Open Archives Initiative (OAI, Инициатива открытых архивов), которая оказала значительное влияние на направление и темпы развития движения Open Access (Открытый доступ). Протокол OAI-PMH и последующие попытки создания протокола OpenURL отражали нашу изначальную ориентированность на аспекты науч-ного взаимодействия, связанные с процессами. Другие члены сообщества ин-тересовались собственно научными информационными ресурсами. Например, Питер Мюррей-Раст (Peter Murray-Rust) занимался преобразованием структу-рированной, пригодной для машинной обработки информации (например, та-бличных данных и базовых координат, лежащих в основе графиков) в читаемый текст, который подходит только для чтения людьми [2].

Спустя десятилетие после начала нашей работы в этой области мы с радо-стью наблюдаем быстрые изменения, происходящие в различных форматах научного взаимодействия. Мы остановимся на трех областях, изменения в кото-рых, на наш взгляд, достаточно значительны, чтобы свидетельствовать о фунда-ментальных переменах.

РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ АРХИВА НАУКИ С ПОМОЩЬЮ БАЗОВОГО СЛОЯ КОМПЬЮТЕРНОЙ ОБРАБОТКИ

Одним из движущих факторов для реализации компьютерной обработки на-учных материалов является шквальный поток литературы, который исключа-ет для ученых возможность быть в курсе соответствующих научных знаний [3]. Для решения этой проблемы можно использовать агенты, которые читают и фильтруют научные материалы вместо ученых. Потребность в подобном меха-низме усиливается тем фактом, что ученым все чаще нужно осваивать и прора-батывать литературу по другим дисциплинам, связывая воедино и объединяя имеющиеся разрозненные результаты исследований, чтобы прийти к новым идеям. Это основная проблема для медико-биологических наук, характери-зующихся большим числом взаимосвязанных дисциплин (таких как генетика, молекулярная биология, биохимия, фармакохимия и органическая химия). Например, отсутствие единообразно структурированных данных в различных отраслях биомедицины считается серьезным препятствием для межотраслевых исследований — передачи открытий в основных биологических и медицинских исследованиях для их применения в клиническом лечении пациентов [4].

В последнее время мы наблюдаем выраженное движение в сторону машин-ного представления знаний, содержащихся в медико-биологической литера-туре, что делает возможными логические рассуждения, преодолевающие ме-жотраслевые барьеры. Для извлечения сущностей и отношений между ними

Page 227: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 193

из имеющейся литературы применяются передовые методики анализа текста, а для достижения универсального представления знаний были созданы общие онтологии. Этот подход уже привел к появлению новых открытий, основанных на информации, содержащейся в литературе, которую раньше мог прочитать только человек. Другие отрасли знаний последовали этому примеру. Некоторые инициативы позволяют ученым добавлять информацию о сущностях и их свя-зях на этапе публикации статьи, чтобы отказаться от обработки статьи после ее выхода, что широко распространено в настоящее время [5].

Создание международной организации Concept Web Alliance, целью которой является предоставление глобальной межотраслевой платформы для обсужде-ния, проектирования и, возможно, сертификации решений для обеспечения совмести-мости и пригодности к использованию обширных, разрозненных и сложных данных, означает, что тенденция к машинной обработке данных серьезно воспринимает-ся и научным сообществом, и отраслью научной информации. Создание машин-ного представления научных знаний поможет ученым и учащимся справиться с избытком информации. Оно позволит совершать новые открытия путем раз-мышления над имеющимися знаниями, а также повысить скорость открытий, избавляя ученых от ненужных исследований и открывая перспективные пути для новых исследований.

ИНТЕГРАЦИЯ НАБОРОВ ДАННЫХ В АРХИВ НАУКИ

Хотя данные всегда были ключевой составляющей научных исследований, до сих пор к ним относились не как к первостепенным объектам в процессе на-учного взаимодействия — в отличие от научных статей с описанием открытий, сделанных на основе этих данных. Эта ситуация быстро и радикально меняет-ся. Научное сообщество активно обсуждает и изучает возможности реализации всех основных функций научного взаимодействия — регистрации, сертифика-ции, информирования, архивирования и награждения [1] — для наборов данных.

Например, пирамида данных [6] ясно демонстрирует, как обеспечение на-дежности (сертификация) и цифровой сохранности (архивирование) наборов дан-ных становится насущной потребностью по мере того, как они выходят за рамки личного использования в сферу отраслевых научных сообществ и общества в це-лом. Международные инициативы, нацеленные на реализацию обмена научны-ми данными [7], отражают необходимость в инфраструктуре, способствующей созданию общих наборов данных (информирование). А работы по формированию стандартного формата цитирования для наборов данных [8] подразумевают, что наборы данных являются основными научными артефактами. Эти инициативы отчасти мотивированы убеждением в том, что ученые должны заслужить хоро-шую репутацию (быть награждены) за наборы данных, которые они составили и предоставили в распоряжение других ученых. Примерно десять лет назад эти функции научного взаимодействия были главным образом применимы только к научной литературе.

Page 228: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ194

ВЫЯВЛЕНИЕ ПРОЦЕССА НАУЧНОГО ВЗАИМОДЕЙСТВИЯ И ЕГО ИНТЕГРАЦИЯ В АРХИВ НАУКИ

Некоторые аспекты процесса научного взаимодействия были давно известны. Цитаты в публикациях отражают использование имевшихся знаний для созда-ния новых идей. Таким образом, график научного цитирования помогает об-наружить аспекты научной динамики и, как результат, активно изучается для выявления связей между различными отраслями знаний, а также анализа и про-гнозирования тенденций. Однако интерпретация графика научного цитирова-ния часто ненадежна вследствие несовершенных методов ручного и автомати-ческого поиска цитат и ссылок и сложных проблем с устранением авторской многозначности. Область охвата графика цитирования также ограничена (толь-ко ведущие журналы или только конкретные отрасли знания), и, к сожалению, самый репрезентативный график (Thomson Reuters) защищен правом собствен-ности.

Проблема с графиком цитирования является отражением более широкой проблемы: отсутствие непротиворечивой, задокументированной и наглядной картины эволюции научной статьи в системе, а также отсутствие информации о природе этой эволюции. Проблема в том, что связи, известные на момент пере-хода научной статьи на новую ступень в цепочке ценностей, практически сразу после этого теряются, и часто навсегда. Реальная динамика научных знаний — взаимодействие и связи между научными статьями, авторами, читателями, оцен-кой качества статей, областями научного исследования и т.п. — чрезвычайно сложно поддаются восстановлению постфактум. Поэтому важно создать слой, лежащий в основе научного взаимодействия, — систему, которая будет фикси-ровать и обнаруживать такую динамику, связи и зависимости.

Решение этой проблемы возникает в рамках нескольких инновационных инициатив, обеспечивающих публикацию информации о научном процессе в пригодной для автоматической обработки форме в Интернете, предпочтитель-но в момент, когда происходят вышеописанные события, и следовательно, когда имеется вся необходимая информация.

В частности, что касается графика цитирования, метод веб-цитирования, разрабатываемый в проекте CLADDIER, представляет механизм кодирования точного, доступного для обхода графика цитирования в Интернете. Несколько инициатив ориентированы на внедрение авторских идентификаторов [9], кото-рые позволят создавать менее противоречивые графики цитирования. График, снабженный семантикой цитирования, например, предложенной в проекте Citation Typing Ontology, также будет содержать информацию о причине цити-рования артефакта — важном аспекте, который до сих пор оставался неясным [10].

Помимо обработки данных о цитировании предпринимались и другие уси-лия по разработке научного процесса, включая проекты по реализации обмена научными данными (процесс фокусировки внимания на научной информации), такие как COUNTER, MESUR и сервис научных рекомендаций bX. В совокупно-

Page 229: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 195

сти эти проекты иллюстрируют широкие возможности применения подобной информации о процессе научного взаимодействия для создания коллекций, рас-чета новых показателей для оценки влияния научных артефактов [11], анализа текущих нaправлений исследований [12] и рекомендательных систем. В резуль-тате этой работы несколько проектов в Европе занимаются поиском техниче-ских решений для обмена подробными данными об использовании в Интернете.

Другой пример автоматизации процесса — успешная инициатива myExpe-riment, представляющая социальный портал для обмена описаниями вычисли-тельных потоков работ. Аналогичные проекты в химии обеспечивают публика-цию и обмен информацией из лабораторных журналов через Интернет [13].

Мы считаем эти инициативы особенно вдохновляющими, поскольку они позволяют нам представить следующий логический шаг — обмен информаци-ей об источнике данных. Данные об источнике представляют журнал входных данных и этапов обработки при выполнении потоков работ и являются важным аспектом научной информации как для обеспечения уверенности в достоверно-сти данных, так и для поддержки воспроизводимости результатов, требуемой от всех экспериментальных наук. Недавние работы в ИТ-сообществе [14] привели к созданию систем, способных хранить подробную информацию об источнике данных в единой среде. Мы полагаем, что информация об источнике данных, описывающая и связывающая потоки работ, наборы данных и процессы, пред-ставляет новый тип метаданных о процессе, который сыграет ключевую роль в науке, основанной на сетях и использующей большой объем данных. Ее значе-ние можно сравнить с важностью описательных метаданных, данных о цитиро-вании и об использовании данных в научной среде, основанных на публикациях. Следовательно, логично предположить, что в конечном итоге информация об источнике данных будет автоматизирована, чтобы она могла быть использована различными инструментами для поиска, анализа и оценки влияния некоторых основных продуктов новых научных знаний: потоков работ, наборов данных и процессов.

ВЗГЛЯД В БУДУЩЕЕ

Как говорилось выше, архив науки будет представлять собой результат объеди-нения традиционных и новых научных артефактов, разработки автоматизиро-ванной основы научных знаний и автоматизации метаданных о научном процес-се. Эти возможности достигнут своего максимального потенциала только при условии, что они будут реализованы в подходящей и обеспечивающей взаимо-действие киберинфраструктуре, основанной на Интернете и соответствующих веб-стандартах. Применение Интернета будет не только способствовать целост-ности научного процесса, но и позволит гибко интегрировать научные дискуссии в более широкий контекст общественных дискуссий, ведущихся в Интернете.

За последнее время мы отмечаем растущую ориентированность на Интернет при разработке подходов к реализации научного взаимодействия. Это проявля-

Page 230: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ196

ется в пробном или активном использовании идентификаторов URI, в частности HTTP URI для идентификации научных артефактов, понятий, исследователей и учреждений, а также применение форматов XML, RDF, RDFS, OWL, RSS и Atom для представления научной информации и знаний и обмена ими. Эти основные технологии все чаще дополняются совместимыми спецификациями, которые применяются и разрабатываются в отдельных научных сообществах. В общем, вырисовывается ситуация, когда все составляющие нового архива науки (авто-матизированные и пригодные для чтения человеком) публикуются в Интерне-те в соответствии с общими веб-стандартами и отраслевыми спецификациями этих стандартов. После их публикации в Интернете они становятся доступными для просмотра, сбора и анализа как человеком, так и автоматизированными агентами.

Наша работа над спецификациями OAI Object Reuse & Exchange (OAI-ORE) [15], в которых определяется подход к идентификации и описанию ресурсов e-Науки, представляющих агрегации нескольких ресурсов, является иллюстра-цией нового подхода, основанного на киберинфраструктуре, ориентированной на Интернет. Этот подход основывается на базовых веб-технологиях, а также следует основным принципам инициативы Linked Data, которая быстро разви-вается как наиболее масштабное проявление многих лет работы над проектом Semantic Web.

Описывая тенденции использования общих веб-технологий для научных це-лей, мы вспоминаем о Джиме Грее, который в ходе дискуссий, предварявших работы над спецификациями OAI-ORE, настаивал на том, что в любом решении должны применяться общие технологии потоковой передачи — RSS или Atom. Джим был прав, говоря о том, что для удовлетворения требований научного вза-имодействия необходимо разработать множество специализированных компо-нентов киберинфраструктуры, а прочие компоненты будут доступны сразу как результат общих работ по веб-стандартизации.

Заглядывая в ближайшее будущее, мы вспоминаем одну из известных фраз Джима Грея: «Да будут все ваши проблемы техническими». Этим ироничным комментарием Джим хотел сказать, что за самыми сложными техническими проблемами стоит еще более фундаментальная проблема: интеграция киберин-фраструктуры в потоки работ и практики ученых. Без этой интеграции даже са-мая лучшая инфраструктура не получит широкого распространения. К счастью, есть признаки того, что мы выучили этот урок опытным путем в результате мно-голетней работы над другими крупномасштабными инфраструктурными про-ектами, такими как Digital Libraries Initiative. Программа The Sustainable Digital Data Preservation and Access Network Partners (DataNet), финансируемая под-разделением Office of Cyberinfrastructure Национального научного фонда США, недавно утвердила финансирование двух 10-летних проектов, изучающих кибе-ринфраструктуру как социотехническую проблему, требующую знания техно-логий и понимания способов их интеграции в сообщества. Мы полагаем, что эта более широкая цель станет одним из самых важных факторов, которые будут

Page 231: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 197

способствовать изменению природы научного знания и способов его передачи в следующем десятилетии.

Мы уверены в том, что продолжающееся развитие Интернета, появление но-вых технологий, использующих его основные принципы, и понимание того, как люди используют технологии, в совокупности послужит основанием для фун-даментально переосмысленной системы научного взаимодействия, удобной для человека и поддерживающей машинную обработку. С появлением этой системы мы с удовольствием откажемся от когда-то любимого нами сравнения существу-ющей системы научного взаимодействия с отсканированной копией бумажной системы.

ССЫЛКИ

[1] H. Van de Sompel, S. Payette, J. Erickson, C. Lagoze, and S. Warner, «Rethinking Scholarly Communication: Building the System that Scholars Deserve», D-Lib Mag., vol. 10, no. 9, 2004, www.dlib.org/dlib/september04/vandesompel/09vandesompel.html.

[2] P. Murray-Rust and H. S. Rzepa, «The Next Big Thing: From Hypermedia to Datuments», J. Digit. Inf., vol. 5, no. 1, 2004.

[3] C. L. Palmer, M. H. Cragin, and T. P. Hogan, «Weak information work in scientific discovery», Inf. Process. Manage., vol. 43, no. 3., pp. 808—820, 2007, doi: 10.1016/j.ipm.2006.06.003.

[4] A. Ruttenberg, T. Clark, W. Bug, M. Samwald, O. Bodenreider, H. Chen, D. Doherty, K. Forsberg, Y. Gao, V. Kashyap, J. Kinoshita, J. Luciano, M. S. Marshall, C. Ogbuji, J. Rees, S. Stephens, G. T. Wong, E. Wu, D. Zaccagnini, T. Hongsermeier, E. Neumann, I. Herman, and K. H. Cheung, «Advancing translational research with the Semantic Web», BMC Bioinf., vol. 8, suppl. 3, p. S2, 2007, doi: 10.1186/1471-2105-8-S3-S2.

[5] D. Shotton, K. Portwin, G. Klyne, and A. Miles, «Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article», PLoS Comput. Biol., vol. 5, no. 4, p. e1000361, 2009, doi: 10.1371/journal.pcbi.1000361.

[6] F. Berman, «Got data?: a guide to data preservation in the information age», Commun. ACM, vol. 51, no. 12, pp. 50—56, 2008, doi: 10.1145/1409360.1409376.

[7] R. Ruusalepp, «Infrastructure Planning and Data Curation: A Comparative Study of International Approaches to Enabling the Sharing of Research Data», JISC, Nov. 30, 2008, www.dcc.ac.uk/docs/publications/reports/Data_Sharing_Report.pdf.

[8] M. Altman and G. King, «A Proposed Standard for the Scholarly Citation of Quantitative Data», D-Lib Magazine, vol. 13, no. 3/4, 2007.

[9] M. Enserink, «Science Publishing: Are You Ready to Become a Number?» Science, vol. 323, no. 5922, 2009, doi: 10.1126/science.323.5922.1662.

[10] N. Kaplan, «The norm of citation behavior», Am. Documentation, vol. 16. pp. 179—184, 1965.

[11] J. Bollen, H. Van de Sompel, A. Hagberg, and R. Chute, «A Principal Component Analysis of 39 Scientific Impact Measures», PLoS ONE, vol. 4, no. 6, p. e6022, 2009, doi: 10.1371/journal. pone.0006022.

Page 232: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ198

[12] J. Bollen, H. Van de Sompel, A. Hagberg, L. Bettencourt, R. Chute, and L. Balakireva, «Clickstream Data Yields High-Resolution Maps of Science», PLoS ONE, vol. 4, no. 3, p. e4803, 2009, doi: 10.1371/journal.pone.0004803.

[13] S. J. Coles, J. G. Frey, M. B. Hursthouse, M. E. Light, A. J. Milsted, L. A. Carr, D. De Roure, C. J. Gutteridge, H. R. Mills, K. E. Meacham, M. Surridge, E. Lyon, R. Heery, M. Duke, and M. Day, «An e-science environment for service crystallography from submission to dissemination», J. Chem. Inf. Model., vol. 46, no. 3, 2006, doi: 10.1021/ci050362w.

[14] R. Bose and J. Frew, «Lineage retrieval for scientific data processing: a survey», ACM Comput. Surv. (CSUR), vol. 37, no. 1, pp. 1—28, 2005, doi: 10.1145/1057977.1057978.

[15] H. Van de Sompel, C. Lagoze, C. E. Nelson, S. Warner, R. Sanderson, and P. Johnston, «Adding eScience Publications to the Data Web», Proc. Linked Data on the Web 2009, Madrid.

Page 233: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 199

ЭНН ФИЦДЖЕРАЛЬД (ANNE FITZGERALD), БРАЙАН ФИЦДЖЕРАЛЬД (BRIAN FITZGERALD), КАЙЛИ ПАППАЛАРОДО (KYLIE PAPPALARDO), Квинслендский технологический университет (Queensland University of Technology)

Будущее политики данных

Прогресс в информационно-коммуникационных тех-нологиях повлек за собой информационную револю-цию, которая привела к фундаментальным измене-ниям в способах сбора, совместного использования и

распространения информации [1, 2]. Международные науч-ные сообщества уже давно признают важность создания си-стем, обеспечивающих доступность и возможность использо-вания результатов научной деятельности разными учеными. Осознание потребности в доступе к данным и обмене ими наиболее отчетливо проявляется в основных документах-обос нованиях широкомасштабных наблюдательных проек-тов, создающих огромное количество данных о Земле, воде, морской среде и атмосфере.

В течение более 50 лет основные документы крупных со-вместных научных проектов обычно включали в качестве од-ного из важнейших принципов обеспечение открытости и до-ступности результатов исследований. И хотя эти соглашения часто заключаются на международном уровне (между пра-вительствами государств или их представителями в между-народных организациях), отдельные исследователи и иссле-довательские проекты обычно работают на местном уровне, под национальной юрисдикцией. Чтобы принципы доступа к данным, принятые в международных научных совместных проектах, эффективно претворялись в жизнь, необходимо обеспечить их поддержку на уровне государственных поли-тик и законов тех стран, в которых работают участники про-екта. Отсутствие моста между принципами доступа к данным, принятыми на международном уровне, с одной стороны, и политиками и законами на государственном уровне, с другой, означает, что преимущества совместного использования дан-ных могут быть нивелированы из-за препятствий на местном уровне [3].

Page 234: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ200

Необходимость согласования принципов доступа к данным, принятых меж-дународными научными совместными проектами, и местных политик и законов национальных юрисдикций, под которыми работают исследователи, подчерки-вается в проекте Global Earth Observation System of Systems11 (GEOSS), начатом в 2005 г. группой организаций, наблюдающих за состоянием Земли (Group on Earth Observations, GEO) [1, p. 125]. В проекте GEOSS предпринята попытка установить связь между учеными, предоставляющими данные об окружающей среде, и инструментами для поддержки принятия решений, с одной стороны, и конечными пользователями этих данных и инструментов, с другой, чтобы повы-сить важность и полезность наблюдений Земли для решения глобальных про-блем. В итоге будет создана глобальная общая инфраструктура, генерирующая всесторонние данные об окружающей среде почти в реальном времени, а также информацию и аналитику для широкого круга пользователей.

GEOSS — это «система систем», основанная на существующих системах на-блюдения и включающая новые системы моделирования и наблюдения Земли, предлагаемые как компоненты GEOSS. Эта новая общая инфраструктура свя-зывает растущее число различных инструментов и систем для мониторинга и прогнозирования изменений в глобальной окружающей среде. Она поддер-живает лиц, ответственных за разработку политик, менеджеров ресурсов, уче-ных-исследователей и многих других экспертов и специалистов, принимающих решения.

МЕЖДУНАРОДНЫЕ ПОЛИТИКИ

Среди первых действий, предпринятых группой GEO, было открытое призна-ние важности обмена данными для достижения своих целей и выработка стра-тегических принципов совместного использования данных в проекте GEOSS [4]:

• Полный и открытый обмен данными, метаданными и продуктами, совмест-но используемыми в проекте GEOSS, с учетом соответствующих междуна-родных стандартов, а также национального законодательства и политик.

• Предоставление всех совместно используемых данных, метаданных и про-дуктов с минимальными временными задержками и денежными затратами.

• Предоставление для исследований и образовательных целей всех совместно используемых данных, метаданных и продуктов — бесплатно или не дороже стоимости их воспроизведения.

Эти принципы, несмотря на свою важность, по сути не новы. Общая доступ-ность и открытый обмен данными также провозглашаются в ряде других между-народных политик, в том числе в документе «Бермудские принципы» (Bermuda

11 www.earthobservations.org/index.html

Page 235: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 201

Principles, 1996) и в Берлинской декларации (Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities (2003)) [5].

«Бермудские принципы» были разработаны учеными-участниками Между-народного консорциума по расшифровке генома человека (International Human Genome Sequencing Consortium) и финансирующими их организациями. Эти принципы представляли собой соглашение между учеными о необходимости создания основы для быстрого и открытого совместного использования данных о нуклеотидной последовательности гена до их публикации [6]. Бермудские принципы требовали автоматического сброса последовательности гена длиннее 1 Кбайт и немедленной публикации готовых аннотированных последовательно-стей. Они стремились сделать всю последовательность гена беспрепятственно доступной для общих исследований и разработок, чтобы обеспечить ее макси-мальную полезность для общества.

Берлинская декларация ставила своей целью поддержку парадигмы откры-того доступа посредством Интернета и продвигала Интернет в качестве основно-го инструмента для создания глобальной научной базы знаний. Она определяла «ресурс открытого доступа» (open access contribution) как результаты научных исследований, первичные данные и метаданные и требовала, чтобы ресурсы открытого доступа помещались в Интернет-хранилище и предоставлялись на основе «бесплатного безусловного всемирного права на доступ и разрешения на копирование, использование, распространение, передачу и публичное пред-ставление работы, а также создание и распространение производных работ, на любом цифровом носителе для любой разумной цели, при условии надлежащей ссылки на источник» [7].

В сущности, принципы GEOSS близко сопоставимы с принципами совмест-ного использования данных, которые поддерживаются в Договоре об Антаркти-ке, подписанном почти 50 годами ранее в Вашингтоне (США, округ Колумбия) в 1959 г.. Этот договор заслужил пристальное внимание в Австралии, особенно в связи с исследованиями данных морских наблюдений12. В статье III Договора об Антарктике сказано:

1. Для поощрения международного сотрудничества в научных исследовани-ях Антарктики, как установлено в Статье II настоящего Договора, стороны договора обязуются в максимально возможной и исполнимой мере:…

(c) обеспечивать обмен и свободную доступность научных наблюдений и ре-зультатов исследований в Антарктике [8].

Принципы совместного использования данных, изложенные в Договоре об Антарктике, в 10-летнем плане мероприятий проекта GEOSS, Бермудских принципах, Берлинской декларации и других документах, получили широ-

12 Среди других международных соглашений, включающих такие условия, — Конвенция ООН по мор-

скому праву, Озоновый протокол, Конвенция о биологическом разнообразии и Орхусская конвенция.

Page 236: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ202

кое признание не только как полезные, но и как крайне важные факторы для поддержки информационных потоков и доступности данных. И все же возни-кают проблемы в связи с тем, что в отсутствии четкой законодательной базы и государственных политик появляются другие препятствия для эффективного совместного использования данных, имеющих важнейшее значение для между-народных научных совместных проектов [5, 9]. Опыт показывает, что при отсут-ствии четко сформулированной политики доступа к данным и соответствующей законодательной базы благие намерения на практике слишком легко терпят по-ражение.

НАЦИОНАЛЬНАЯ ЗАКОНОДАТЕЛЬНАЯ БАЗА И ПОЛИТИКИ

Главная стратегия, гарантирующая эффективное практическое применение международных политик «полного и открытого обмена данными», состоит в разработке последовательной политики и законодательной базы на государ-ственном уровне (см. рисунок 1). Национальная законодательная база должна поддерживать международные принципы доступа и совместного использова-ния данных, а также быть достаточно четкой и практически применимой, что-бы ею могли руководствоваться исследователи на уровне научных проектов. Национальные законодательные базы по совместному использованию данных эффективно применяются в США и Европе, однако во многих других странах (включая Австралию) этот во-прос еще не решен. Ким Фин-ни (Kim Finney) из ЦОД Ан-тарктики привлекла внимание к проблемам при выполне-нии Статьи III(1)(c) Договора об Антарктике в отсутствии утвержденных политик досту-па к данным у сторон, подпи-савших Договор. Она отмечает, что для выполнения целей До-говора необходима искренняя готовность ученых открыть доступ к своим данным для других исследователей. И этой готовности недостает — несмо-тря на четко выраженное в До-говоре указание «обменивать-ся и свободно предоставлять доступ» к научным данным об Антарктике. Финни говорит об острой необходимости в по-

Международныеполитики

Например, принципысовместного использования

данных GEOSS,Договор об Антарктике,Бермудские принципы

Международныеправовые акты

Например,Рекомендации ОЭСР

Национальныезаконодательные базы

и политики

Планы управленияданными

РИСУНОК 1.

Нормативно-правовая база, регулирующая совместное использование данных.

Page 237: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 203

литике доступа к данным в странах-участницах Договора об Антарктике, по-скольку без такой политики цели, изложенные в Договоре об Антарктике, будут в лучшем случае выполнены лишь отчасти [10] [1, с. 77—78].

В США политики доступа и использования данных для исполнительных от-раслевых департаментов и ведомств правительства США установлены в цирку-ляре A-130 Службы управления и бюджета США [11] [1, с. 174—175]. Подтверж-дая, что правительственная информация является ценным общим ресурсом, и что граждане должны получать пользу от ее распространения, циркуляр А-130 требует отказаться от излишних ограничений. Кроме того, в циркуляре A-16 под названием «Координирование обработки географических сведений и со-путствующих геопространственных данных» сказано, что федеральные службы США несут ответственность за «сбор, обработку, распространение и хранение пространственной информации таким образом, чтобы полученные данные, ин-формация или продукты могли быть открыто предоставлены другим федераль-ным ведомствам и негосударственным пользователям, а также способствовали интеграции между всеми источниками» [12] [1, с. 181—183].

В Европе система политик включает обширную Директиву о повторном использовании государственной информации (2003) [13], а также конкретную директиву по созданию инфраструктуры пространственной информации (INSPIRE Directive, 2007) и Директиву о доступе к экологической информации (2003) [15], обязывающую органы власти предоставлять своевременный доступ к экологической информации.

При обсуждении директивы о повторном использовании государственной информации Европарламент и Совет ЕС признали, что государственный сек-тор является крупнейшим производителем информации в Европе, и что при ус-ловии доступности и повторного использования этой информации могут быть достигнуты значительные социальные и экономические преимущества. Однако европейские компании, участвующие в создании полезных информационных продуктов на основе имеющихся информационных ресурсов, окажутся в не-выгодном конкурентном положении в случае, если у них не будет четких ру-ководящих политик и единых практик в области доступа и повторного исполь-зования государственной информации. Несогласованность политик и практик в отношении государственной информации рассматривалась как препятствие для разработки цифровых продуктов и услуг, основанных на информации, по-лученной от различных стран [1, с. 137—138]. В ответ на это Директива о повтор-ном использовании государственной информации устанавливает нормативную базу, управляющую порядком повторного использования существующих доку-ментов, хранящихся в государственных организациях стран-членов ЕС. Кроме того, директива INSPIRE устанавливает политику и принципы ЕС в отношении пространственных данных, находящихся в распоряжении органов государ-ственной власти или хранящихся по их поручению, и в отношении использова-ния пространственных данных органами государственной власти для решения государственных задач.

Page 238: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ204

В отличие от США и Европы, в Австралии в настоящее время отсутствует система политик, регулирующая доступ и использование данных. В частности, текущая ситуация с доступом и повторным использованием государственной информации неопределенна и лишена основы в виде согласованного набора по-литик, с точки зрения как внутреннего и межведомственного взаимодействия различных уровней государственной власти на местном, региональном и госу-дарственном уровне, так и взаимодействия между государственными органами, научными учреждениями и негосударственным сектором13. В 2008 г. в докладе «Venturous Australia», сделанном в рамках проекта по анализу национальной инновационной системы (Review of the National Innovation System), содержа-лись рекомендации (в разделе Рекомендации 7.7) по разработке национальной информационной стратегии Австралии для оптимизации потока информации в экономике Австралии [16]. Однако по-прежнему остается неясным, как создать национальную информационную стратегию.

Отправную точку для таких стран, как Австралия, которым еще предстоит создать государственную нормативно-правовую базу, регулирующую совмест-ное использование результатов исследований, предоставила Организация эко-номического сотрудничества и развития (ОЭСР). В 2008 г. на совещании мини-стров в Сеуле, посвященном будущему Интернет-экономики, министры ОЭСР поддержали определение принципа доступа к государственной информации и результатам исследований, финансируемых из государственного бюджета. Эти документы устанавливают принципы, регулирующие доступность результатов исследований, в том числе их открытость, прозрачность, соответствие требова-ниям действующего законодательства, совместимость, качество, эффективность, контролируемость и подтверждаемость, аналогично принципам, изложенным в документе GEOSS. Принцип открытости в документе ОЭСР «Рекомендации по доступу к результатам исследований с государственным финансированием» (2006) гласит:

Открытость означает доступ к данным на равных условиях для международ-ного научного сообщества с наименьшим возможным уровнем затрат, предпоч-тительно не дороже предельной себестоимости ее распространения. Открытый доступ к результатам исследований с государственным финансированием дол-жен предоставляться своевременно, без каких-либо затруднений, в удобном для пользователей виде, предпочтительно через Интернет [17].

Рекомендации ОЭСР являются правовым документом ОЭСР, содержащим описание стандартов или целей, которых должны достичь страны-члены ОЭСР (в том числе Австралия), хотя этот документ не имеет обязательной юридической

13 После того, как в 2001г. подразделение по управлению пространственными данными (Office of Spatial

Data Management) утвердило политику расчета цен и доступа к пространственным данным, в Австра-лии были отмечены лишь незначительные сдвиги в вопросе разработки политик доступа к правитель-ственной информации.

Page 239: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 205

силы. И все же, как показывает долголетний опыт стран-членов ОЭСР, реко-мендации имеют большую морально-нравственную силу [2, с. 11]. В Австралии рабочая группа по данным для науки при Совете премьер-министра по науке, технике и инновациям (PMSEIC) в своем отчете за 2006 г. «От данных к мудрости: пути успешного управления научными данными в Австралии» рекомендовала учитывать руководство ОЭСР при разработке стратегической платформы для управления данными исследований в Австралии [18].

Разработка национальной системы для управления данными, основанной на принципах доступности и совместного использования данных (таких как рекомендации ОЭСР), поможет объединить государственные законы с между-народными политиками и протоколами, такими как Договор об Антарктике и принципы GEOSS. Эта система станет директивным указанием (или даже тре-бованием) для исследователей учитывать и, где это выполнимо, применять эти принципы совместного использования данных в своих планах по управлению данными исследовательских проектов [5, 9].

ЗАКЛЮЧЕНИЕ

Решение организационных вопросов о совместном использовании данных в рамках сложных международных электронных исследовательских проектов требует наличия соответствующих государственных политик, нормативно-пра-вовой базы и методик управления данными. И хотя международные научные сообщества, как правило, выражают готовность к совместному использованию и предоставлению доступа к данным, при отсутствии соответствующей государ-ственной политики, нормативно-правовой базы и эффективных методик управ-ления данными эти цели находятся под угрозой. Многие трудности обусловлены самой природой научных сообществ по электронным исследованиям, в особен-ности если ученые работают в географически удаленных регионах. Техноло-гия позволила преодолеть физические границы, однако границы юрисдикций остаются, как и прежде. Если результаты исследований должны передаваться, как это запланировано, необходимо, чтобы государственные политики и законы поддерживали системы доступа к данным, считающиеся основными для между-народных научных сообществ. При разработке политик, законов и методик на государственном уровне можно воспользоваться рекомендациями из документа ОЭСР о доступе к результатам исследований с государственным финансирова-нием, циркуляром A-130 Службы управления и бюджета США и различными директивами ЕС.

Важно отметить, что страны должны взять на себя ответственность за реа-лизацию целей политик по доступу и повторному использованию данных на всех трех уровнях для обеспечения эффективности информационных потоков. Лишь благодаря наличию надлежащих нормативно-правовых баз и политик мы сможем остаться на плаву в океане данных.

Page 240: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ206

ССЫЛКИ

[1] A. Fitzgerald, «A review of the literature on the legal aspects of open access policy, practices and licensing in Australia and selected jurisdictions», July 2009, Cooperative Research Centre for Spatial Information and Queensland University of Technology, www.aupsi.org.

[2] Submission of the Intellectual Property: Knowledge, Culture and Economy (IP: KCE) Research Program, Queensland University of Technology, to the Digital Economy Future Directions paper, Australian Government, prepared by B. Fitzgerald, A. Fitzgerald, J. Coates, and K. Pappalardo, Mar. 4, 2009, p. 2, www.dbcde.gov.au/__data/assets/pdf_file/0011/112304/Queensland_University_of_Technology_QUT_Law_Faculty.pdf.

[3] B. Fitzgerald, Ed., Legal Framework for e-Research: Realising the Potential. Sydney University Press, 2008, http://eprints.qut.edu.au/14439.

[4] Group on Earth Observations (GEO), «GEOSS 10-Year Implementation Plan», adopted Feb. 16, 2005, p. 4, www.earthobservations.org/docs/10-Year%20Implementation%20Plan.pdf.

[5] A. Fitzgerald and K. Pappalardo, «Building the Infrastructure for Data Access and Reuse in Collaborative Research: An Analysis of the Legal Context», OAK Law Project and Legal Framework for e-Research Project, 2007, http://eprints.qut.edu.au/8865.

[6] Бермудские принципы (Bermuda Principles), 1996, www.ornl.gov/sci/techresources/Human_Genome/research/bermuda.shtml, по данным на 10 июня 2009 г.

[7] Берлинская декларация (Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities) (2003), http://oa.mpg.de/openaccess-berlin/berlindeclaration.html, по данным на 10 июня 2009 г.

[8] Договор об Антарктике (The Antarctic Treaty) (1959), подписанный в г. Ва-шингтон (округ Колумбия) 1 декабря 1959 года, вступил в силу в Австралии и других странах 23 июня 1961 года [1961] ATS 12 (Australian Treaty Series, 1961, no. 12), www.austlii.edu.au/cgi-bin/sinodisp/au/other/dfat/treaties/1961/12.html?query=antarctic, по данным на 5 июня 2009 г.

[9] A. Fitzgerald, K. Pappalardo, and A. Austin, «Practical Data Management: A Legal and Policy Guide», OAK Law Project and Legal Framework for e-Research Project, 2008, http://eprints.qut.edu.au/14923.

[10] Scientific Committee on Antarctic Research (SCAR) Data and Information Strategy 2008—2013, Joint Committee on Antarctic Data Management (JCADM) and Standing Committee on Antarctic Geographic Information (SC-AGI), authored by K. Finney, Australian Antarctic Data Centre, Australian Antarctic Division (revised May 2008), p. 40, www.jcadm.scar.org/fileadmin/filesystem/jcadm_group/Strategy/SCAR_DIM_StrategyV2-CSKf_final.pdf.

[11] Циркуляр А-130 Службы управления и бюджета США по управлению государ-ственными информационными ресурсами (OMB Circular A-130), 2000, www.whitehouse.gov/omb/circulars/a130/a130trans4.html.

Page 241: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 207

[12] Циркуляр А-16 Службы управления и бюджета США о координировании обработки географических сведений и сопутствующих геопространственных данных (OMB Circular A-16), дата выпуска 16 января 1953 г., редакции от 1967, 1990, 2002, Sec. 8, www.whitehouse.gov/omb/circulars_a016_rev/#8.

[13] Европарламент и Совет ЕС, директива 2003/98/EC Европарламента и Совета ЕС от 17 ноября 2003 г. по повторному использованию государственной инфор-мации, 2003, OJ L 345/90, http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0098:EN:HTML.

[14] Европарламент и Совет ЕС, директива 2007/2/EC Европарламента и Совета ЕС от 14 марта 2007 года о создании инфраструктуры пространственной инфор-мации, 2007, OJ L 108/1, Apr. 25, 2007, http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2007:108:0001:01:EN:HTML.

[15] Европарламент и Совет ЕС, директива 2003/4/EC Европарламента и Совета ЕС от 28 января 2003 г. об общем доступе к экологической информации и отменяю-щая директива Совета ЕС 90/313/EEC OJL 041, 14 февраля 2003г., с. 0026—0032, http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0004:EN:HTML.

[16] Cutler & Company, «Venturous Australia: Building Strength in Innovation,» Review of the National Innovation System, p. 95, 2008, www.innovation.gov.au/innovationreview/Pages/home.aspx.

[17] ОЭСР «Рекомендации для Совета ЕС по доступу к результатам исследований с государственным финансированием», C(2006)184, Dec. 14, 2006, http://webdomino1.oecd.org/horizontal/oecdacts.nsf/Display/3 A5FB1397B5ADFB7C12572980053C9D3?OpenDocument, по данным на 5 июня 2009 г. Обратите внимание, что эти рекомендации были также опубликованы в документе ОЭСР «Принципы и руководство по доступу к результатам исследований с государ-ственным финансированием», 2007.

[18] Совет премьер-министра по науке, технике и инновациям (PMSEIC), рабочая группа по данным для науки, «От данных к мудрости: пути успешного управ-ления научными данными в Австралии», рекомендация 9, с. 12, декабрь 2006 г., www.dest.gov.au/sectors/science_innovation/publications_resources/profiles/Presentation_Data_for_Science.htm.

Page 242: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 243: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 209

ДЖОН УИЛБЭНКС (JOHN WILBANKS), Creative Commons

Я вижу изменение парадигмы, и это мы

Разговоры об изменениях парадигмы обычно действу-ют мне на нервы. Этот термин потерял свою ценность из-за его неточного применения в широких кругах, его даже превратили в шутку в сериале «Симпсоны». Поэ-

тому когда мы будем рассматривать понятие четвертой пара-дигмы и ее влияние на научное взаимодействие [2], нам сле-дует вспомнить его исходное значение в работе Томаса Куна (Thomas Kuhn) «Структура научных революций» (Structure of Scientific Revolutions) [1].

В своей модели Кун описывает мир науки, в котором некая совокупность идей становится превалирующей и закрепляет свои позиции, тем самым создавая мировоззрение (пресло-вутую «парадигму»), которая в свою очередь набирает силу и убедительность. Эта совокупность идей становится убеди-тельной, поскольку она представляет возможное объяснение наблюдаемых явлений. Так мы получили светоносный эфир, теорию миазмов в возникновении инфекционных болезней и идею о том, что Солнце вращается вокруг Земли. Совокуп-ность идей, мировоззрение, парадигма набирают силу путем инкрементализма. Обычно каждый ученый в своей работе шаг за шагом укрепляет текущую парадигму. Когда ученый вносит большой вклад в картину мира, он получает авторитет, контракты на проведение научных исследований, награды, призы и пост в совете директоров.

Все заинтересованные лица наживаются на совокупности идей, даже превосходя ее рамки. Различные отрасли эко-номики и органы власти (а также люди, в них работающие) создают компании и политики, зависящие от текущего миро-воззрения. Это создает уровень защиты, своего рода иммун-ную систему, которая защищает современное мировоззрение

Page 244: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ210

от нападок. Скептики и противники отодвигаются на задний план. Новые идеи не разрабатываются, им не хватает финансирования и кадров. Страх, неуверен-ность и сомнение окрашивают восприятие новых идей, методов и подходов, ко-торые бросают вызов общепринятой парадигме.

И все же мировоззрения утрачивают свою силу, а парадигмы рушатся, когда они больше не могут объяснять наблюдаемые явления или когда эксперименты достоверно доказывают, что парадигма неверна. Идея эфира была окончатель-но опровергнута после сотен лет инкрементализма, так же как теория миазмов и геоцентризм. Время перемен приходит, когда старые объяснения явлений более не соответствуют новым реалиям.

Я поражен тем, что именно эта идея содержалась в рассуждениях Джима Грея о четвертой парадигме [3] и «лавине данных». Он говорил о том, что наша способность измерения, хранения, анализа и визуализации данных является той самой новой реальностью, к которой должна адаптироваться наука. В сердце новой парадигмы лежат данные, которые наряду с эмпиризмом, теорией и мо-делированием в совокупности формируют единое целое, воспринимаемое нами как современный научный метод.

И все же я пришел воздать дань первым трем парадигмам, а не похоронить их. Эмпиризм и теория помогли нам пройти долгий путь — от представления о том, что Солнце вращается вокруг Земли, до квантовой физики. Моделирование лежит в основе многих современных наук, от антропологических реконструк-ций древнего Рима до прогнозов погоды. Точность моделирования и прогнозов стала центром самых жарких политических дебатов об изменениях в экономике и климате. И очень важно отметить, что эмпиризм и теория являются неотъем-лемой частью эффективного моделирования. Я могу на своем компьютере со-здать славную модель, в которой отсутствует теория тяготения, но когда я еду с крутого склона на своем автомобиле, эмпиризм в лице силы тяжести тянет меня вниз.

Так что по сути это не изменение парадигмы в смысле Куна. Данные не от-метают прежнюю реальность. Данные просто создают ряд нагрузок на мето-дологии и социальные привычки, которые мы используем при работе с нашим опытом и теорией и для их передачи, а также на надежность и сложность нашего моделирования и на то, как мы представляем, передаем и интегрируем наши знания.

Нам нужно изменить парадигму себя как ученых, а не прежние парадигмы открытий. Когда мы начали понимать, что материя состоит из атомов, что мы состоим из генов, а Земля вращается вокруг Солнца, — все это были изменения парадигм в смысле Куна. То, о чем мы здесь говорим, идет вразрез с подобными типами изменений. Наука с использованием большого объема данных в случае ее правильной реализации обеспечит больше изменений парадигм в научной теории, которые будут происходить более высокими темпами, поскольку мы сможем быстро оценивать наше мировоззрение, сопоставляя его с «объективной реальностью», которую мы можем измерять столь мощными инструментами.

Page 245: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 211

Стратегия преодоления «лавины данных» лучше базируется на сетях, а не на динамике Куна. Сети обладают возможностями масштабирования, полезны-ми для нас при управлении избытком данных. Они позволяют преобразовать огромные массивы информации в нечто ценное. Таким образом, информация перестает быть «проблемой», требующей «решения». И в самой структуре сетей заложен урок, который может помочь нам в изучении лавины данных: если нам требуется управлять лавиной данных, нам необходима открытая стратегия, от-вечающая практике использования сетей.

Говоря об этом, я имею в виду «сквозные», многоуровневые ИКТ-сети, состо-ящие всего-навсего из стека протоколов. Интернет был создан на основе доку-ментов, описывающих стандартные методы передачи и отображения информа-ции, а также порядок присвоения имен компьютерам и документам. Поскольку мы все согласились на эти методы, и любой может воспользоваться ими, не спра-шивая разрешения, Интернет появился на свет и продолжает расти.

В этом смысле данные являются не «четвертой парадигмой», а «четвертым сетевым уровнем» (поверх Ethernet, TCP/IP и Интернета [4]), который взаимо-действует сверху вниз с другими уровнями. Я полагаю, что эта точка зрения отражает характер научного метода немного лучше, чем понятие изменения парадигмы, имеющее деструктивную природу. Данные являются результатом поэтапного прогресса в развитии технологий, стоящих на службе у эмпиризма. Данные наполняют содержанием теорию, приводят в действие и подкрепляют моделирование и наиболее полезны в двустороннем стандартном взаимодей-ствии между этими двумя уровнями сети обмена знаниями.

Можно смело заявить о том, что парадигма, требующая ликвидации, — это мысль о том, что мы, как ученые, существуем вне сетей обмена знаниями. Это образное выражение, если мы с ним согласимся, скрывает в себе два урока, кото-рые станут очевидны по мере изучения нами проектирования сетей для научно-го взаимодействия на уровне, использующем большой объем данных.

Первый урок, который четко уловил Дэвид Айзенберг (David Isenberg), за-ключается в том, что Интернет «наследует свой деструктивный характер от од-ного очень специфичного свойства: ОН ПУБЛИЧЕН» [5]. Он публичен в несколь-ких отношениях. Спецификации стандартов, лежащих в основе Интернета, сами по себе открыты и публичны: их можно бесплатно просматривать, загружать, копировать и создавать на их основе производные стандарты. Они открыты с точки зрения авторского права. Эти спецификации могут быть использованы всеми, кто желает их усовершенствовать или расширить, но их ценность явля-ется результатом их повсеместного применения, а не частных усовершенствова-ний. Айзенберг отмечает, что именно так начинают происходить «чудеса»: сеть растет без хозяина, нам не нужно спрашивать разрешения, чтобы внедрять в нее инновации, в ней растут и появляются рынки (например, электронная почта, мгновенный обмен сообщениями, социальные сети и даже порнография). Изме-нение публичного характера Интернета угрожает самому факту его существо-вания. Это непонятно тем из нас, кто вырос в мире экономической конкуренции

Page 246: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ212

и традиционной экономической теории. И пусть Википедия существует, она не имеет ничего общего с энциклопедией «Британика».

Однако, как сказал Галилей, «И все-таки она вертится!» [6] Википедия суще-ствует, и Интернет — массовая иллюзия, определяемая набором сухих докумен-тов и протоколов, — помогает мне обмениваться видеозвонками по скайпу с моей семьей в Бразилии. Это движущая сила для инноваций, подобных которым мы никогда не видели. Интернет преподает нам урок: новые уровни сети, связанные с данными, должны воплощать идею публичности и открытости — стандарты, которые позволяют нам открыто работать вместе и переносить столь хорошо знакомые нам свойства сети с огромных коллекций документов в Интернете на огромные коллекции данных, которые мы можем очень легко накопить.

Второй урок проистекает из другого открытого пространства — открытого программного обеспечения. Программное обеспечение, построенное по модели разрозненных небольших разработок, объединенных на основе технических и правовых стандартов, также было теоретически невозможным. Однако реаль-ность Интернета сделала возможным это изменение парадигмы в модели Куна. Возможности повсеместного взаимодействия в сочетании с низкой стоимостью инструментов программирования и концептуальное применение публичных лицензий возымели необычный эффект: появление программного обеспечения, которое было работоспособным и увеличивалось в масштабе. Главный урок за-ключается в том, что мы можем использовать возможности миллионов умов, если создадим единую систему стандартов, а созданные продукты могут во мно-гих случаях превзойти программное обеспечение, разработанное в традицион-ной централизованной среде. (Хороший тому пример — Apache, самый попу-лярный веб-сервер в Интернете с 1996 г.)

Creative Commons применила эти уроки к лицензированию, создав набор стандартных лицензий для творческих работ. Эти лицензии, в свою очередь, рас-пространились по Интернету и охватили сотни миллионов цифровых объектов. Как оказалось, открытое лицензирование имеет замечательные преимущества. Оно обеспечивает своего рода совместимость (с практически нулевой стоимо-стью передачи), знакомую нам по техническим сетям, которая реализуется в виде различных прав, связанных с цифровыми объектами — песнями, фотогра-фиями, а также научной информацией.

При сравнении этих тенденций с традиционной экономической теорией нас ставит в тупик материальная мотивация. И здесь мы видим реальное изменение парадигмы в смысле Куна — прежняя теория не представляла мир, в котором люди работают бесплатно, но современная реальность это подтверждает. Эбен Моглен (Eben Moglen) сделал в 1999 г. провокационное заявление о том, что со-вместная работа в Интернете сродни электрической индукции — независимость сети не привязана к материальным выгодам отдельных ее участников. Мы не должны задаваться вопросом, в чем состоит материальная мотивация для со-вместной разработки программного обеспечения — как мы не спрашиваем, по-чему электроны движутся по проводам под действием силы тока. Вместо этого

Page 247: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 213

нам нужно спросить, каково сопротивление в проводах или в чем состоит свой-ство независимости сети? Метафорическое следствие Моглена из закона Фара-дея и закона Ома14 спустя 10 лет по-прежнему вызывает интерес.

В сети существует значительное сопротивление уровню с использованием большого объема данных. И по сути оно в большей степени основывается на программном обеспечении, а не на проблемах интеллектуальной собственно-сти. (Хотя интенсивность поля авторского права в сопротивлении трансформа-ции реферируемой литературы очень высоко и активно препятствует «веб-ре-волюции» в области научного взаимодействия.) Что касается данных, проблемы возникают в связи с авторскими правами15, но сопротивление также связано со многими другими источниками: сложности при аннотировании и повторном использовании данных, сложности при отправке больших файлов с данными, проблемы совместимости данных, не предназначенных для этого, и многое дру-гое. Поэтому для тех, кто эти данные не создавал, они имеют очень короткий пе-риод полураспада. Это сопротивление берет начало в парадигме нас самих как отдельных ученых, а не в парадигмах эмпиризма, теории или моделирования.

Поэтому я считаю, что мы должны придерживаться взглядов Моглена и что мы сопротивляемся сопротивлению. Мы должны инвестировать в аннотирова-ние и курирование, в возможности хранения и обработки данных, в совместную визуализацию и аналитику. Нам необходимы открытые стандарты для совмест-ного использования и представления данных. Нам нужны документы RFC для уровня данных. И в первую очередь нам нужно научить ученых и исследовате-лей работать с этим новым уровнем данных. Если мы по-прежнему будем при-держиваться узкой специализации в культуре обучения научных гильдий, со-циальная структура науки будет также оказывать значительное сопротивление уровню данных.

Мы должны воспринимать себя как связанные узлы, которые должны пе-редавать данные, проверять теории и использовать результаты моделирования, созданные другим учеными. И поскольку кривые накопления данных устрем-ляются вверх в геометрической прогрессии, нам необходимо расширять наши возможности использовать эти данные, и это острая необходимость. Мы должны объединить самих себя и наши знания в сети. Ничто, созданное человеком до сих пор, не росло столь быстро, как открытые сети.

14 В Метафорическом следствии Моглена из закона Фарадея сказано, что если вы обернете Интернет

вокруг каждого человека на планете и начнете вращать планету, то по сети потечет программное обе-спечение. Это независимое свойство объединенных человеческих умов: они создают вещи для удо-вольствия друг друга и для победы над нелегким чувством избыточного одиночества. Единственный вопрос, который следует задать: каково сопротивление сети? Метафорическое следствие Моглена из закона Ома утверждает, что сопротивление сети прямо пропорционально напряженности поля систе-мы «интеллектуальной собственности» [7].15

К данным во всем мире применяются самые различные законы об авторских правах, что приводит к путанице, усложняя и затрудняя схемы международного лицензирования [8].

Page 248: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ214

Как и любые сравнения, сравнение с сетью имеет свои ограничения. Созда-вать сети знаний сложнее, чем сети документов. Реализовать совместную разра-ботку программного обеспечения проще, поскольку инструменты разработки недорого стоят и имеются в избытке. Не так обстоят дела в физике и молекуляр-ной биологии. Некоторые аспекты, обуславливающие успешность Интернета, не будут в той же мере эффективны для науки и научного сообщества, поскольку договорные рейтинги позволят вам найти информацию, представляющую лишь скучное общее мнение, а не интересные данные, имеющие низкий рейтинг.

Но альтернатив сетевому подходу крайне мало. Лавина данных реальна, и она не замедляется. Мы можем обрабатывать данные быстрее и в больших объе-мах, чем когда-либо раньше, с массовым параллелизмом. Однако наши умствен-ные способности закостенели на уровне «один человек — один мозг». Если мы хотим идти в ногу со временем, нам нужно работать вместе, а сети являются наилучшим средством совместной работы, созданным в человеческой культуре. Это означает, что нам нужно сделать наш подход к данным столь же открытым, сколь и протоколы, соединяющие компьютеры и документы. И это единствен-ный путь достижения необходимого нам уровня масштаба.

Есть еще одно замечательное преимущество открытого подхода. У нас есть наши мировоззрения и парадигмы, наши мнения и аргументы. Мы по своей природе привыкли считать, что мы правы. Но мы можем быть неправы, и мы на-верняка не абсолютно правы. Включение нашего текущего мировоззрения в от-крытую систему будет означать, что те, кто придет после нас, будут продолжать нашу работу. Точно так же как мы в своей работе основываемся на эмпиризме, теории и моделировании. Если же мы ограничим себя закрытой системой, это будет означать, что для дальнейшего развития придется разрушить созданное нами. Добавление данных в сеть открытого уровня станет хорошим подарком для ученых, которые последуют за нами и перейдут в следующую парадигму. Оно будет эффективной структурой, которую запомнят как «кирпичик» на сле-дующем этапе эволюции научного метода.

ССЫЛКИ

[1] T. S. Kuhn, The Structure of Scientific Revolutions. Chicago: University of Chicago Press, 1996.

[2] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

[3] J. Gray and A. Szalay, «eScience — A Transformed Scientific Method», presentation to the Computer Science and Technology Board of the National Research Council, Mountain View, CA, Jan. 11, 2007. (В этом издании содержится отредактирован-ная запись презентации.)

[4] Joi Ito, ключевая презентация на конференции ETech, San Jose, CA, Mar. 11, 2009.[5] «Broadband without Internet ain’t worth squat», by David Isenberg, keynote

address delivered at Broadband Properties Summit, accessed on Apr. 30, 2009, at http://isen.com/blog/2009/04/broadband-without-internet-ain-worth.html.

Page 249: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 215

[6] Wikipedia, http://en.wikipedia.org/wiki/E_pur_si_muove, по данным на 30 апреля 2009 г.

[7] E. Moglen, «Anarchism Triumphant: Free Software and the Death of Copyright», First Monday, vol. 4, no. 8, Aug. 1999, http://emoglen.law.columbia.edu/my_pubs/nospeech.html.

[8] Протокол Science Commons по данным с открытым доступом, http://sciencecommons.org/projects/publishing/open-access-data-protocol.

Page 250: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 251: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 217

ТИМО ХЭННАЙ (TIMO HANNAY), Nature Publishing Group

От Web 2.0 к глобальной базе данных

Один из самых острых на язык веб-комментаторов, Клэй Ширки (Clay Shirky), выразил эту мысль наи-более точно. Во время своих бесед «Lessons from Napster» на конференции O’Reilly Peer-to-Peer

Conference в 2001 г. он предложил своей аудитории пораз-мышлять над пресловутым предсказанием создателя IBM Томаса Уотсона (Thomas Watson) о том, что мировой рынок компьютеров застынет на отметке примерно пять штук [1]. Без сомнения, у некоторых из присутствовавших в тот день с собой было больше компьютеров — на коленях, запястьях, в карманах и сумках. И это не считая всех прочих компьюте-ров, находившихся вокруг них в одном помещении — внутри проектора, звуковой системы, кондиционера и т.д. Но когда смешки в зале затихли, он нанес решающий удар. «Теперь мы знаем, что это число было неверным, — сказал Ширки. — Он завысил его на четыре». Это замечание вызвало бурное весе-лье в аудитории.

Разумеется, Ширки хотел сказать, что определяющей ха-рактеристикой эры Интернета в большей степени является не повсеместное распространение вычислительных устройств (хотя и имеющее трансформирующий характер), а их взаи-мосвязанность. Мы быстро приближаемся к тому моменту, когда любое устройство, не подключенное к Интернету, вряд ли будет считаться компьютером вообще. Как говорят, сеть — это компьютер.

Этот факт в сочетании с попутным наблюдением, что доминирующей вычислительной платформой в наше вре-мя являются не ОС Unix, Windows или Mac, а сам Интернет, натолкнули Тима О’Рейли (Tim O’Reilly) на разработку кон-цепции, которую он назвал «Операционная система Интер-

Page 252: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ218

нет» [2]. Впоследствии она превратилась в Интернет-мем, известный по всему миру как «Web 2.0» [3].

В этом емком (и теперь, к сожалению, чрезмерно распространенном) терми-не содержатся два важных понятия. Во-первых, Web 2.0 служил напоминанием о том, что Интернет, несмотря на крах доткомов в 2001 г. серьезным образом и раз-носторонне меняет наш мир. Во-вторых, он воплощает ряд передовых практик (или «проектных и бизнес-моделей») для максимально эффективного использо-вания и раскрытия этого потенциала. Перечислю эти передовые практики:

• сетевые эффекты и «архитектуры участия»;

• «длинный хвост»;

• программное обеспечение как сервис;

• технологии однорангового взаимодействия;

• системы доверия и растущие данные;

• открытые API и мэшапы;

• AJAX;

• тэгирование и фолксономии;

• «данные как новый Intel Inside».

Первую из этих передовых практик принято считать наиболее важной. Интернет обладает более мощными возможностями по сравнению с предше-ствующими платформами, поскольку он представляет собой открытую сеть, обеспечивающую эффективную работу приложений для совместной работы. В результате наиболее успешные веб-приложения используют сеть, на базе кото-рой они созданы, и производят собственные сетевые эффекты, иногда дающие очевидный устойчивый импульс к дальнейшему развитию. Именно так в форме eBay может возникнуть целая новая экономика. Именно так список Крейга и Ви-кипедия могут взять на себя могущество ведущих СМИ и справочных изданий, а Google может дать отличные результаты поиска путем незаметного связывания каждого создателя веб-ссылки с ее целью.

Если концепция Web 2.0 подчеркивает глобальную, коллективную природу этой новой среды передачи данных, как ее можно использовать в научном ис-следовании, которое является, наверное, наиболее глобальным и коллективным из всех предприятий человечества? Как это ни парадоксально, несмотря на про-исхождение Интернета в лаборатории CERN [4], ученые сравнительно медлен-но осваивают подходы, использующие все возможности Интернета, по крайней мере, в своей профессиональной жизни. Например, блоги по-разному исполь-зуются среди среди технических специалистов, политиков, экономистов и даже

Page 253: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 219

математиков. Более того, таким средам совместной работы, как OpenWetWare16 и Nature Network17, еще предстоит получить статус массовых среди исследовате-лей. Физики уже давно используют для обмена информацией о своих открыти-ях препринтный сервер arXiv18, но лишь потому, что он имитирует привычные им методы работы сначала с обычной, а затем и с электронной почтой. Науки о жизни и о Земле, напротив, медленнее осваивают подобные сервисы, такие как Nature Precedings19.

Это объясняется тем, что препятствия к широкомасштабному освоению этих сервисов носят не только (и не столько) технический характер, но скорее являют-ся психологическими и социальными. От старых привычек сложно отказаться, а системы мотивации, изначально созданные для стимулирования обмена ин-формацией через научные журналы, теперь могут дать обратный эффект, не способствуя аналогичной деятельности в других направлениях.

И хотя эти новые подходы развиваются медленнее, чем многие из нас желали бы, они все равно развиваются. Сложно предсказать, когда именно произойдут перемены, однако долгосрочные тенденции в научных исследованиях не вы-зывают сомнений: более глубокая специализация, более быстрый и открытый обмен информацией, сокращение размера «минимально публикуемого фраг-мента», показатели производительности, превосходящие публикации в журна-лах, стирание границы между журналами и базами данных, и реорганизация ролей издателей и редакторов. И главный результат этого постепенного, но не-избежного распространения информационных технологий, — мы увидим воз-растание скорости, с которой будут совершаться и претворяться в жизнь новые открытия. Лаборатории будущего будут работать в унисон с абсолютно новой наукой, с поддержкой вычислений, взаимодействия и Интернета.

Взгляните, к примеру, на химию. Предшественник всех сайтов совместной работы, Википедия20, теперь содержит много высококачественной научной ин-формации, большей частью предоставленной самими учеными. В Википедии представлена ценная, хорошо организованная, взаимосвязанная информация о тысячах химических соединений. При этом наблюдается рост более специализи-рованных ресурсов открытых и частных инициатив, в особенности PubChem21 и ChemSpider22 — с точки зрения контента, числа участников и широты примене-ния несмотря на то, что исторически химия всегда была довольно специализи-

16 http://openwetware.org

17 http://network.nature.com

18 www.arxiv.org

19 http://precedings.nature.com

20 http://wikipedia.org

21 http://pubchem.ncbi.nlm.nih.gov

22 www.chemspider.com

Page 254: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ220

рованной областью. (Или, возможно, отчасти из-за этого, хотя это уже тема для другой статьи.)

Говоря о специализированных областях, возьмем, к примеру, разработку новых лекарств. Компания InnoCentive23, отделившаяся от Eli Lilly, проложила новый путь своей Интернет-моделью открытых инноваций, в которой органи-зации решают различные исследовательские задачи, выходя за пределы своей внутренней деятельности. Некоторые другие фармацевтические компании, с которыми я общался за последние месяцы, также начали использовать подоб-ные подходы — в первую очередь не как акты доброй воли, а для достижения своих научных и коммерческих целей.

В науке, как и в промышленности, одним из наиболее важных движущих факторов для внедрения совместной работы, основанной на технической плат-форме, является насущная необходимость. Прошли те времена, когда один ис-следователь мог внести важный вклад, скажем, в молекулярную биологию, не имея доступа к данным, опыту и результатам анализа, выполненного другими учеными. В результате за последние пару десятков лет многие области иссле-дования, особенно в биологии, эволюционировали от «фермерского хозяйства» (небольшая группа исследователей в одном месте выполняет все: от сбора дан-ных до написания научной работы) до более «промышленного» варианта (круп-ные, распределенные команды специалистов, совместно работающие вне вре-менных и пространственных рамок для достижения общей цели).

В процессе работы они накапливают огромные объемы данных, причем на каждом этапе работ рост данных имеет не линейный, а экспоненциальный ха-рактер. К примеру, секвенирование генов уже давно уступило место целым ге-номам, а сейчас даже целым особям [5] и экосистемам [6]. Аналогичным образом одномерные данные о последовательности белков уступают место трехмерным структурам белка и в последнее время высокоразмерным наборам данных меж-белкового взаимодействия.

Это привносит изменения не только количественного, но и качественного ха-рактера. Криса Андерсена (Chris Anderson) критиковали за его статью в Wired, в которой он утверждает, что накопление и анализ столь больших объемов данных означает конец той науки, которую мы знаем [7]. Но он, без сомнения, прав в сво-ем более мягком (и, тем не менее, очень важном) высказывании о том, что в этом процессе настанет момент, когда «изменение количества данных будет иметь значение». Так же, как алгоритм поиска информации, например, PageRank от Google [8] мог функционировать, лишь когда Интернет достиг определенного масштаба, новые подходы к научным открытиям станут возможны лишь благо-даря масштабу накапливаемых нами наборов данных.

Однако реализовать этот потенциал будет непросто. Всем заинтересованным лицам, а не только исследователям и издателям, придется приложить немало усилий, чтобы сделать данные более полезными. Для этого потребуется ис-

23 www.innocentive.com

Page 255: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 221

пользовать ряд подходов, от относительно формальных, таких как четко сфор-мулированные стандартные форматы данных и согласованные на мировом уровне идентификаторы и онтологии, до менее формализованных, таких как тегирование текстов на естественных языках [9] и микроформаты HTML [10]. Эти подходы, наряду с такими автоматизированными методами, как интеллек-туальный анализ текста [11], помогут снабдить каждый фрагмент информации контекстом, связывающим его с остальными фрагментами. Это также позволит объединить в единое целое две ранее отдельные области — текстовый, частич-но структурированный мир журналов и цифровой, высокоструктурированный мир баз данных. По мере структурирования информации, содержащейся в журналах, по мере курирования данных в многочисленных базах данных и по мере установления более многообразных взаимосвязей между этими областями, может настать тот день, когда различие между ними станет столь размытым, что потеряет свой смысл.

Усовершенствованные структуры данных и более подробные аннотации бу-дут достигнуты в значительной мере благодаря работе у источника — в лабора-тории. В некоторых проектах и научных направлениях мы уже видим, что ор-ганизация и управление исходными веществами, экспериментами и наборами данных выполняются посредством сложных лабораторных информационных систем. Мы также увидим, что записи исследователей все чаще будут выполнять-ся не на бумаге, а в виде электронных лабораторных журналов, что обеспечит их улучшенную интеграцию с остальной генерируемой информацией. В областях, имеющих клиническую значимость, эти данные будут также связаны с биопси-ей и информацией о пациентах. Так, от лабораторного стола и научной работы к клинической практике, от одного открытия к другому, мы будем соединять эти точки, изучая неизвестную область и устанавливая подробные связи там, где раньше мы имели лишь несколько примерных линий на пустом графике.

Научные знания, а по сути, все человеческие знания, являются фундамен-тально взаимосвязанными [12], и эти связи являются столь же информативными, как и сами факты. И хотя объемы данных растут ошеломляющими темпами, мы не должны упускать из виду еще более важной тенденции развития, которая требует нашего внимания и поддержки: информация становится более взаимос-вязанной. По мере добавления ссылок, тегов и идентификаторов данные во всем мире соединяются в единую бурлящую массу, которая станет не только сырьем для централизованной компьютерной обработки, но и единой глобальной базой данных. И как таковая, эта масса данных будет огромной, беспорядочной, бес-системной и запутанной. Но она также будет обладать безмерной ценностью — как неизменное свидетельство нашего рода и нашего века.

ССЫЛКИ

[1] C. Shirky, «Lessons from Napster», talk delivered at the O’Reilly Peer-to-Peer Conference, Feb. 15, 2001, www.openp2p.com/pub/a/p2p/2001/02/15/lessons.html.

Page 256: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ222

[2] T. O’Reilly, «Inventing the Future», 2002, www.oreillynet.com/pub/a/network/2002/04/09/future.html.

[3] T. O’Reilly, «What Is Web 2.0», 2005, www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html.

[4] T. Berners-Lee, Weaving the Web. San Francisco: HarperOne, 1999.[5] «International Consortium Announces the 1000 Genomes Project», www.genome.

gov/26524516.[6] J. C. Venter et al., «Environmental genome shotgun sequencing of the Sargasso Sea»,

Science, vol. 304, pp. 66—74, 2004, doi:10.1126/science.1093857.[7] C. Anderson, «The End of Theory: The Data Deluge Makes the Scientific

Method Obsolete», Wired, June 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory.

[8] S. Brin and L. Page, «The Anatomy of a Large-Scale Hypertextual Web Search Engine», 1998, http://ilpubs.stanford.edu:8090/361.

[9] http://en.wikipedia.org/wiki/Tag_(metadata)[10] http://en.wikipedia.org/wiki/Microformat[11] http://en.wikipedia.org/wiki/Text_mining[12] E. O. Wilson, Consilience: The Unity of Knowledge. New York: Knopf, 1998.

Page 257: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 258: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся
Page 259: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 225

Планы на будущее

КРЕЙГ МУНДИ (CRAIG MUNDIE) | Microsoft

Междисциплинарный характер статей, собранных в этой книге, пред-ставляет уникальную перспективу научных открытий, управляемых данными, и мимолетный взгляд в захватывающее будущее.

Во второй декаде 21 века мы сталкиваемся с уникальными зада-чами в области здравоохранения, образования, энергетики, окружающей среды, цифрового доступа, кибербезопасности и конфиденциальности, общественной безопасности и т. д. Но вместе с другими авторами статей этой книги я полагаю, что эти задачи могут быть преобразованы в возможности с помощью радикаль-но новых разработок в науке и технологиях.

Как отмечал Джим Грей (Jim Gray), первая, вторая и третья парадигмы на-уки — эмпиризм, аналитика и моделирование — успешно подвели нас к теку-щему моменту в истории. Кроме того, нет сомнений в том, что если мы будем полагаться на имеющиеся парадигмы и технологии, мы по-прежнему будем добиваться поступательного прогресса. Но если нам нужно достичь серьезного прорыва, потребуются новые подходы. Нам необходимо войти в следующую, четвертую парадигму науки.

Концепция Джима, представляющая эту парадигму, требовала новой на-учной методологии, сосредоточенной на возможностях науки, использующей большие объемы данных. Сегодня эта концепция становится реальностью. Вы-числительные технологии с их всепроникающими возможностями подклю-чения и взаимодействия посредством Интернета уже используются в качестве фундамента практически всех научных исследований. Мы накапливаем ранее невообразимые объемы данных в цифровом виде — данных, которые помогут реализовать принципиальное преобразование научных исследований и экспе-риментов. В то же время вычислительные возможности стоят на гребне волны мощных технических достижений, таких как многоядерная архитектура, модель

Page 260: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

226 ПЛАНЫ НА БУДУЩЕЕ

«клиент плюс облако», естественные пользовательские интерфейсы и квантовые вычисления, которые предвещают переворот в области научных достижений.

Наука, использующая большие объемы данных, обеспечит появление важных научных достижений во многих областях. По мере оснащения Земли большим количеством низкозатратных широкополосных датчиков мы получим более полное и точное представление об окружающей среде с помощью виртуального, охватывающего всю Землю «макроскопа». Точно так же к нам становится ближе ночное небо благодаря распространенным широкополосным системам визуали-зации данных. Это взаимное усиление вычислительных технологий и доступа к данным поможет расширить знания населения о нашей планете и Вселенной в целом, делая нас всех свидетелями научных достижений и повышая нашу осве-домленность об их безграничных преимуществах для всех.

Переход к медицине, управляемой данными, поможет преобразованиям и в здравоохранении. Возможности применения вычислительных технологий к геномике и протеомике можно будет осуществить на частном уровне, что при-ведет к фундаментальным изменениям в практике медицины. Медицинские данные будут доступны в режиме реального времени — их можно будет отсле-живать, сравнивать и анализировать с учетом наших характерных особенностей, что гарантирует индивидуальный подход к лечению, поскольку мы все разные. Массовый анализ данных обеспечит отслеживание заболеваний в режиме реаль-ного времени и принятие целевых мер при угрозе пандемии. Наш виртуальный «макроскоп» теперь можно направить не только на нашу планету, но и на самих себя. И все эти достижения помогут медицине расширить свой масштаб, охватив более четырех миллиардов людей, которые сегодня лишены даже базового ме-дицинского обслуживания.

По мере экспоненциального роста мощности вычислительных технологий они также обеспечат более естественную среду взаимодействия с учеными. Си-стемы, способные «понимать» и имеющие гораздо большую контекстуальную информированность, обеспечат тот уровень проактивной поддержки, который ранее мог предоставить лишь человек. Для ученых это будет означать большую глубину научных исследований, более серьезные научные открытия и более бы-стрые прорывы. Еще одно важное достижение — появление сервисов мега-мас-штаба, размещаемых в облаке и работающих с клиентскими компьютерами любых типов. Такая инфраструктура обеспечит появление абсолютно новых систем доставки данных для ученых, поддерживающих новые способы визуали-зации, анализа и взаимодействия с данными, которые, в свою очередь, помогут упростить совместную работу и сотрудничество с другими учеными.

Эта усовершенствованная вычислительная инфраструктура сделает воз-можной поистине глобальную цифровую библиотеку, где весь жизненный цикл научного исследования — от зарождения идеи до публикации — будет проис-ходить в электронной среде открыто для всех. В процессе разработки научных идей и последующей публикации ученые смогут виртуально взаимодействовать друг с другом — совместно использовать источники данных, рабочие докумен-

Page 261: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 227

Проект well-formed.eigenfactor предназначен для визуализации потока информации в науке. Он возник в процессе сотрудничества между проектом Eigenfactor (анализ данных) и Морицем Сте-фанером (Moritz Stefaner) (визуализация). На этой иллюстрации показаны ссылки цитирования в журнале Nature. Более подробную информацию и примеры визуализации см. на сайте http://well-formed.eigenfactor.org.

Page 262: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

228 ПЛАНЫ НА БУДУЩЕЕ

ты и результаты исследований. Читатели, в свою очередь, смогут перемещаться по тексту публикаций, с легкостью просматривая в Интернете связанные с ними презентации, изображения, видео- и аудио-фрагменты, данные и аналитику. Научные публикации станут постоянно доступны по всему миру в режиме ре-ального времени.

Я с воодушевлением смотрю на то, как ученые и ИТ-специалисты в сотруд-ничестве решают сложные задачи нашего века. Их совместные усилия серьез-ным и позитивным образом повлияют на наше будущее.

Page 263: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 229

Заключение

ТОНИ ХЕЙ (TONY HEY), СТЮАРТ ТЭНСЛИ (STEWART TANSLEY) И КРИСТИН ТОЛЛЕ (KRISTIN TOLLE) | Microsoft Research

К середине 1990-х гг. Джим Грей (Jim Gray) осознал, что новые важные за-дачи для технологий баз данных с точки зрения больших данных будут поступать из сферы науки, а не коммерческой деятельности. Он также назвал технические задачи, которые поставит перед учеными наука с ис-

пользованием большого объема данных, и отметил возможную ключевую роль ИТ и компьютерных наук в будущих научных открытиях. Термин eScience (е-На-ука) был создан в 2000 г. Джоном Тейлором (John Taylor), тогда возглавлявшим UK Research Councils. Тейлор признавал растущую важность ИТ в совместных, междисциплинарных научных исследованиях с использованием большого объ-ема данных в 21 веке и использовал термин «е-Наука» для обозначения набора средств и технологий, необходимых для поддержки такого рода исследований. В знак признания инициативы eScience в Великобритании Джим Грей назвал свою исследовательскую группу в Microsoft Research «eScience Group». Совместно с учеными он работал над изучением стоящих перед ними задач и поиском необ-ходимых им инструментов и средств.

Выступая перед Советом по компьютерным наукам и телекоммуникаци-ям Государственного совета по исследованиям США в 2007 г., Джим подробно представил свою концепцию науки с использованием большого объема данных и перечислил семь основных направлений для работы финансирующих орга-низаций:

1. Финансирование разработки и поддержки программных средств.

2. Инвестирование в инструменты и средства на всех уровнях финансирова-ния.

3. Поддержка разработки многофункциональных лабораторных систем управ-ления информацией.

Page 264: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

230 ПЛАНЫ НА БУДУЩЕЕ

4. Поддержка исследований с помощью управления научными данными, ана-лиза данных, визуализации данных, новых алгоритмов, инструментов и средств.

5. Создание цифровых библиотек, оказывающих поддержку другим наукам точно так же, как Национальная медицинская библиотека США поддержи-вает биологические науки.

6. Поддержка создания новых инструментов для авторской разработки доку-ментов и моделей публикации.

7. Поддержка разработки библиотек цифровых данных, содержащих научные данные (не только метаданные) и обеспечивающих интеграцию с публикуе-мой литературой.

Мы полагаем, что сегодня эти задачи являются в не меньшей степени важны-ми для финансирующих организаций. Поэтому мы составили эту книгу и вклю-чили в нее текст выступления Джима, составленный по записям его лекции и презентаций. Также будет полезным проследить развитие и успехи сообщества eScience с момента публикации отчета «К науке 2020 года», опубликованном нашими коллегами из Microsoft Research в Кембридже (Великобритания)2. Этот отчет был основан на семинаре, состоявшемся в июле 2005 г., в котором приняли участие некоторые авторы статьей в этой новой книге. Впоследствии этот отчет послужил стимулом для появления специального выпуска журнала Nature под названием «2020 Computing» (март 2006 г.)3

В основе научных вычислений в эпоху четвертой парадигмы лежит потреб-ность ученых и ИТ-специалистов в совместной работе — не как руководителя и подчиненного, а на равных — когда обе стороны подогревают, обеспечивают и обогащают нашу способность совершать открытия, которые могут повлечь за собой полезные и позитивные изменения в нашем мире. В этой книге мы сде-лали акцент на здравоохранении и окружающей среде — всего двух областях, в которых человечество сталкивается с наиболее серьезными задачами. Для достижения значительных успехов научное сообщество должно использовать поддержку соответствующей киберинфраструктуры, состоящей не только из оборудования — вычислительных ресурсов, центров обработки данных и высо-коскоростных сетей, но и из программных средств и межплатформенного ПО. Джим также предвидел появление глобальной цифровой научной библиотеки, содержащей научную литературу и данные исследований. Мы видим развитие науки, использующей большой объем данных и находимся в гуще радикальных изменений научного взаимодействия, вызванных не только технологиями (Ин-

2 http://research.microsoft.com/en-us/um/cambridge/projects/towards2020science/background_

overview.htm3 Nature, vol. 440, no. 7083, Mar. 23, 2006, pp. 383–580.

Page 265: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 231

тернет, Web 2.0) и семантическим аннотированием, но и общемировым движе-нием в сторону открытого доступа и открытой науки.

Эта книга — плод поистине бескорыстного труда, в который мы вложили свою душу. Она состоялась благодаря желанию Джима обеспечить возможности научных исследований с помощью компьютерных технологий, охватывающих различные области науки, как упомянутые в этой книге, так и оставшиеся за ее рамками. Мы считаем, что эта книга является продолжением работы Джима с научным сообществом. Мы намеренно попросили наших авторов выйти за пре-делы своей профессиональной зоны комфорта и поделиться своими представ-лениями о будущем своих областей исследования, которое настанет через 5—10 лет. Мы обратились к ним с просьбой подготовить свои статьи для этой книги не только в форме рассуждения, что часто сложнее, чем просто техническая на-учная статья, но и в сотрудничестве с ИТ-специалистами. Мы благодарны всем нашим авторам за то, что они откликнулись на эту просьбу, и мы надеемся, что они (и вы) будете довольны результатом.

Несколько десятков лет назад наука была очень жестко привязана к научным дисциплинам. Сегодня, как свидетельствуют статьи этой книги, в результате ме-жотраслевого взаимодействия были достигнуты значительные успехи, которые продолжатся и в будущем. Статьи в этой книге представляют текущую карти-ну — главенствующее представление о замечательном партнерстве науки и ИТ, революции в области данных. Это современный взгляд на ситуацию, который может измениться. Однако мы горячо надеемся и верим, что идеи, заложенные в общем подтексте этих статей, сохранят свою силу на многие годы.

И, наконец, мы представляем эту книгу как призыв к действию, обращенный ко всему научному сообществу, правительствам, финансирующим организаци-ям и обществу в целом. Мы призываем к сотрудничеству и совместной работе для достижения общей цели — улучшения жизни всего человечества. Мы нахо-димся на том этапе, когда мы должны использовать наши научные знания для достижения конкретных целей ради сохранения жизни человечества. Для до-стижения этой цели нам остро необходимо тесное сотрудничество специалистов с глубокими научными знаниями, с одной стороны, и экспертов по технологиям, с другой.

Эта ситуация чем-то похожа на 1940-е годы, когда физики США и Европы вели совместную работу над Манхэттенским проектом в ответ на настоятель-ный призыв своих стран. Сегодня ученые должны в глобальном сотрудничестве

ТониХей(TonyHey),КристинТолле(KristinTolle)иСтюартТэнсли(StewartTansley),Microsoft External Research, http://research.microsoft.com/ collaboration

Page 266: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

232 ПЛАНЫ НА БУДУЩЕЕ

решать насущные проблемы в области здравоохранения и окружающей среды, стоящие перед человечеством, пожалуй, в еще более сжатые сроки. И, как это ни парадоксально, достижения в ядерной физике, реализованные в Манхэттенском проекте, вероятно, помогут частично решить задачу обеспечения нашей плане-ты безуглеродной энергией.

Page 267: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 233

Что дальше?

Мы надеемся, что эта книга вдохновит вас на дальнейшие действия и исследо-вания. Мы в Microsoft Research подтверждаем свои слова делами. Например, мы заново сформулировали цели для нашей научной партнерской организации External Research, сосредоточившись на изучении тем, представленных в этой книге.

Эти темы включают активные исследования в динамических областях, поэ-тому будущее развитие идей, предложенных в этой книге, сложно отследить и предсказать. Но мы предлагаем вам несколько путей, как можно следовать этим идеям и участвовать в общем диалоге:

• Если вы ученый, поговорите о своих задачах с ИТ-специалистом (и наобо-рот).

• Если вы студент, изучайте курсы по научным и ИТ-дисциплинам.

• Если вы преподаватель, куратор, родитель, убедите своих подопечных по-мимо специализации обратить внимание на междисциплинарные исследо-вания.

• Используйте возможность пообщаться с редакторами и авторами этой книги по обычным каналам научного взаимодействия.

• Следите за нашими совместными научными проектами в области е-Науки на нашем веб-сайте: http://research.microsoft.com.

• Принимайте активное участие в жизни сообщества eScience. На веб-сайте, по-священном четвертой парадигме research.microsoft.com/en-us/collaboration/fourthparadigm мы предложили для вас список полезных ресурсов.

http://research.microsoft.com/en-us/collaboration/fourthparadigm

Page 268: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

234 БЛАГОДАРНОСТИ

Благодарности

Редакция выражает сердечную благодарность всем авторам, принимавшим уча-стие в подготовке этой книги, за представление своих концепций о четвертой парадигме. Мы также благодарим наши семьи и коллег за их поддержку в ходе напряженного процесса редакторской подготовки материалов. Мы выражаем глубокую признательность за уникальный вклад в работу нашей проектной группы: Ине Чанг (Ina Chang), Мариан Уотчер (Marian Wachter), Селесте Эрик-сон (Celeste Ericsson) и Дин Катц (Dean Katz). И конечно, мы благодарим Джима Грея за вдохновение.

СОАВТОРЫ

Марк Р. Эббот (Mark R. Abbott),Университет штата Орегон

Деннис Д. Балдоччи (Dennis D. Baldocchi),Калифорнийский университет в Беркли

Роджер С. Барга (Roger S. Barga),Microsoft Research

Матиас Бевей (Mathias Bavay),WSL Institute for Snow and Avalanche Research SLF

Гордон Белл (Gordon Bell),Microsoft Research

Крис Бишоп (Chris Bishop),Microsoft Research

Хосе А. Блейкли (José A. Blakeley),Microsoft

Иан Бучан (Iain Buchan),Манчестерский университет

Лука Карделли (Luca Cardelli),Microsoft Research

Майкл А. Коэн (Michael F. Cohen),Microsoft Research

Николас Дэйвес (Nicholas Dawes)WSL Institute for Snow and Avalanche Research SLF

Дел ДеХарт (Del DeHart),Robertson Research Institute

Джон Р. Делейни (John R. Delaney),Вашингтонский университет

Дэвид Де Рур (David De Roure),Университет Саутгемптона

Page 269: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 235

Джон Дикасон (John Dickason),частная практика

Грэм Кэмерон (Graham Cameron),EMBL-European Bioinformatics Institute

Ли Диркс (Lee Dirks),Microsoft Research

Джеф Доцир (Jeff Dozier),Калифорнийский университет в Сан-та-Барбара

Дэн Фэй (Dan Fay),Microsoft Research

Крейг Файед (Craig Feied),Microsoft

Энн Фицджеральд (Anne Fitzgerald),Квинслендский технологический универ-ситет

Брайен Фицджеральд (Brian Fitzgerald),Квинслендский технологический универ-ситет

Питер Фокс (Peter Fox),Политехнический институт Ренссе-лира

Уильям Б. Гейл (William B. Gail),Microsoft

Дэнис Ганнон (Dennis Gannon),Microsoft Research

Майкл Гиллам (Michael Gillam),Microsoft

Пол Гинспарг (Paul Ginsparg),Корнелльский университет

Кэрол Гобл (Carole Goble),Манчестерский университет

Алиса А. Гудман (Alyssa A. Goodman),Гарвардский университет

Дэрон Грин (Daron Green),Microsoft Research

Джонатан Хэндлер (Jonathan Handler),Microsoft

Тимо Ханнай (Timo Hannay),Nature Publishing Group

Чарльз Хансен (Charles Hansen),Университет Юты

Девид Хекерман (David Heckerman),Microsoft Research

Джеймс Хендлер (James Hendler), Политехнический институт Ренссе-лира

Эрик Хорвиц (Eric Horvitz),Microsoft Research

Джеймс Р. Хант (James R. Hunt),Калифорнийский университет в Берклии the Berkeley Water Center

Крис Р. Джонсон (Chris R. Johnson),Университет Юты

Уильям Кристан (William Kristan),Калифорнийский университет в Сан-Диего

Карл Лагозе (Carl Lagoze),Корнелльский университет

Page 270: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

236 БЛАГОДАРНОСТИ

Джеймс Ларус (James Larus),Microsoft Research

Майкл Ленинг (Michael Lehning),WSL Institute for Snow and Avalanche Research SLF

Джеф В. Личман (Jeff W. Lichtman),Гарвардский университет

Клиффорд Линч (Clifford Lynch),Coalition for Networked Information

Саймон Мерсер (Simon Mercer),Microsoft Research

Элиза Муди (Eliza Moody),Microsoft

Крейг Мунди (Craig Mundie),Microsoft

Суман Нат (Suman Nath),Microsoft Research

Кайли Паппалардо (Kylie Pappalardo),Квинслендский технологический универ-ситет

Савас Парастатидис (Savas Parastatidis),Microsoft

Марк Парланж (Marc Parlange),Федеральная политехническая школа Лозанны

Валерио Паскуччи (Valerio Pascucci),Университет Юты

Ганс Петер Фистер (Hanspeter Pfister),Гарвардский университет

Кэтрин Плейзант (Catherine Plaisant),Мерилендский университет

Коррадо Приами (Corrado Priami),Microsoft Research — Трентский уни-верситет, Centre for Computational and Systems Biology

Дэн Рид (Dan Reed),Microsoft Research

Р. Клей Рейд (R. Clay Reid),Гарвардский университет

Джоэл Робертсон (Joel Robertson),Robertson Research Institute

Бен Шнайдерман (Ben Shneiderman),Мерилендский университет

Клаудио Т. Силва (Claudio T. Silva),Университет Юты

Марк Смит (Mark Smith),Мэрилендский университет

Кристофер Соузен (Christopher Southan),EMBL-European Bioinformatics Institute

Александр С. Салаи (Alexander S. Szalay),Университет Джона Хопкинса

Кристин Толле (Kristin Tolle),Microsoft Research

Герберт Ван де Сомпел (Herbert Van de Sompel),Los Alamos National Laboratory

Кэтрин ван Инген (Catharine van Ingen), Microsoft Research

Page 271: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 237

Джон Уилбэнкс (John Wilbanks),Creative Commons

Джон Уинн (John Winn),Microsoft Research

Кертис Г. Вонг (Curtis G. Wong),Microsoft Research

Фенг Джао (Feng Zhao),Microsoft Research

Page 272: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

238 БЛАГОДАРНОСТИ

Page 273: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 239

Несколько слов о Джиме

Лауреат премии Тьюринга, американский ученый в области теории вы-числительных систем, доктор Джеймс Николас «Джим» Грей (James Nicholas «Jim» Gray) (род. в 1944 г., пропал без вести на море 28 ян-варя 2007 г.) известен своими инновационными разработками в каче-

стве программиста, специалиста по базам данных, инженера и исследователя. Он получил степень доктора философии по информатике в Калифорнийском университете в Беркли в 1969 г. и стал первым, кто получил эту ученую степень в этом учебном заведении. Работал в ряде крупнейших высокотехнологич-ных компаний, в том числе Bell Labs, IBM Research, Tandem, Digital Equipment Corporation и наконец, Microsoft Research в Силиконовой долине.

Джим начал работу в Microsoft в 1995 г. как старший научный сотрудник и в итоге стал членом технического совета Microsoft, руководящего подразделением Bay Area Research Center (BARC). Изначально он интересовался исследованием крупных баз данных и систем обработки транзакций. Его долгое время увлека-ли вопросы масштабируемых вычислений — создание суперсерверов и техно-логических систем на основе промышленного ПО и оборудования. После 2002 г. его работа сосредоточилась на е-Науке: применении компьютеров для решения научных проблем, связанных с использованием большого объема данных. Куль-минацией этих работ стала его концепция «четвертой парадигмы» науки, разра-ботанная совместно с Алексом Шалай (Alex Szalay). Четвертая парадигма науки представляет логическое продолжение более ранних исторических этапов с пре-обладанием эксперимента, теории и моделирования.

Джим сделал первые шаги в технологиях баз данных и одним из первых при-ступил к разработке технологий, используемых в автоматизированных тран-закциях. Его работа оказалась полезной в развитии электронной коммерции, продажи билетов через Интернет, автоматизированных банкоматов и глубоких баз данных, обеспечивающих успех современных высококлассных поисковых Интернет-систем.

В 1998 г. он был удостоен премии Тьюринга, самой престижной награды в об-ласти информатики, «за новаторский вклад в исследования баз данных и обра-ботки транзакций и техническое лидерство в реализации систем». В 1982 г. Джим стал почетным членом IEEE и получил награду IEEE Charles Babbage Award.

Его последующие работы в области технологий баз данных продолжают использоваться океанографами, геологами и астрономами. Среди достиже-ний Джима в Microsoft — веб-сайт TerraServer, созданный в сотрудничестве с

Page 274: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

240 НЕСКОЛЬКО СЛОВ О ДЖИМЕ

Геологической службой США, который проложил путь для современных кар-тографических Интернет-сервисов, и его работа над проектом Слоуновско-го цифрового обзора неба совместно с Астрофизическим исследовательским консорциумом (ARC) и др. Основанная на этом проекте программа Microsoft WorldWide Telescope была впоследствии посвящена Джиму.

«Джим всегда развивался в двух направлениях — техническом и личност-ном, — говорит Дэвид Васкевич (David Vaskevitch), старший вице-президент и технический директор подразделения Platform Technology & Strategy. — Техни-чески он всегда был впереди, указывая, насколько будущее будет отличаться от настоящего».

«Многие в нашей отрасли, включая меня, многим обязаны Джиму за его ин-теллект, видение, бескорыстную готовность быть учителем и наставником, — го-ворит Майк Олсон (Mike Olson), вице-президент Embedded Technologies, Oracle Corporation. Шанкар Састри (Shankar Sastry), декан College of Engineering в Ка-лифорнийском университете в Беркли. — Джим был настоящим идеологом и лидером в этой отрасли».

«Влияние Джима оценивается не только его техническими достижениями, но и большим числом людей по всему миру, которых он вдохновлял в их работе», — Рик Рашид (Rick Rashid), старший вице-президент Microsoft Research.

Председатель правления Microsoft Билл Гейтс (Bill Gates) так характеризует наследие Джима: «Его образ мышления по-прежнему влияет на людей, застав-ляя их по-новому взглянуть на то, как данные и программное обеспечение изме-няют концепцию ведения научной деятельности».

Такие мнения можно часто услышать от бесчисленных исследователей, дру-зей и коллег, которые многие годы общались с Джимом, независимо от их из-вестности и авторитета. Известный, любимый и уважаемый многими, Джим Грей не нуждается в представлении. Поэтому мы посвящаем эту книгу ему и удивительной работе, которая продолжается и в его отсутствие.

Редакция

Page 275: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 241

Глоссарий

СТЕПЕНИ 10

экза E 1 000 000 000 000 000 000 1018 квинтиллионпета P 1 000 000 000 000 000 1015 квадриллионтера T 1 000 000 000 000 1012 триллионгига G 1 000 000 000 109 миллиардмега M 1 000 000 106 миллионкило k 1 000 103 тысячагекто h 100 102 стодека da 10 101 десять- - 1 100 одиндеци d 0,1 10-1 одна десятаясанти c 0,01 10-2 одна сотаямилли m 0,001 10

-3 одна тысячная

микро μ 0,000001 10-6 одна миллионнаянано n 0,000000001 10-9 одна миллиарднаяпико p 0,000000000001 10-12 одна триллионная

СОКРАЩЕНИЯ

ASKAPAustralian Square Kilometre Array Pathfinder (Австралийский путе-поис-ковый телескоп площадью в квадратный километр)

ATLUMAutomatic Tape-Collecting Lathe Ultramicrotome (Автоматический лен-точный собирающий обрабатывающий ультрамикротом)

AUVautonomous underwater vehicle (Автономный подводный аппарат)

BPELBusiness Process Execution Language (Язык выполнения бизнес-процессов)

CCDcharge-coupled device (ПЗС, прибор с зарядовой связью)

CEVCenter for Environmental Visualization (Центр экологической визуализации)

CLADDIER Citation, Location, And Deposition in Discipline and Institutional Repositories (Цитирование, расположение и размещение в отраслевых и вузов-ских хранилищах)

CMLChemistry Markup Language (Язык химической разметки)

Page 276: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

242 ГЛОССАРИЙ

CPUcentral processing unit (ЦП, центральный процессор)

CSTBComputer Science and Telecommunications Board (Совет по компьютерной науке и телекоммуникациям)

DAGdirected acyclic graph (Ориентированный ациклический граф)

DDBJDNA Data Bank of Japan (Японская база данных ДНК)

DOEDepartment of Energy (Департамент энергетических ресурсов)

EBIEuropean Bioinformatics Institute (Европейский институт биоинформатики)

ECHO Earth Observing System Clearinghouse (Система наблюдения Земли Clearinghouse)

EHRelectronic health record (Электронная история болезни)

EMBLEuropean Molecular Biology Laboratory (Европейская лаборатория моле-кулярной биологии)

EMBL-BankБаза данных нуклеотидных последовательностей Лаборатории мо-лекулярной биологии

EOSDISEarth Observing System Data and Information System (Система наблюде-ния Земли из космоса)

ETevapotranspiration (эвапотранспирация)

FDAFood and Drug Administration (Управление по контролю за продуктами и лекарствами США)

FFTFast Fourier Transform (БПФ, быстрое преобразование Фурье)

FLUXNETГлобальная сеть метеорологических вышек

fMRI functional magnetic resonance imaging (функциональная магнитно-резо-нансная томография)

FTPFile Transfer Protocol (Протокол передачи файлов)

GCMDGlobal Change Master Directory (Международная система регистрации данных NASA)

GEOSSGlobal Earth Observation System of Systems (Глобальная система систем изучения Земли)

GOLDGenomes OnLine Database (Веб-база данных по структуре генома чело-века)

GPUgraphics processing unit (графический процессор)

GPGPUgeneral-purpose graphics processing unit (графический процессор обще-го назначения)

GUIgraphical user interface (графический пользовательский интерфейс)

H1N1свиной грипп

INSDCInternational Nucleotide Sequence Database Collaboration (Международ-ная система баз данных ДНК)

Page 277: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 243

ITinformation technology (информационные технологии)

KEGGKyoto Encyclopedia of Genes and Genomes (Киотская энциклопедия генов и геномов)

KLASKeystone Library Automation System (Кейстоунская система автоматиза-ции библиотек)

LEADLinked Environments for Atmospheric Discovery (Метеорологический меж-дисциплинарный проект)

LHCLarge Hadron Collider (Большой адронный коллайдер)

LIDARLight Detection and Ranging (Метеорологический лазерный локатор)

LLNLLawrence Livermore National Laboratory (Ливерморская национальная ла-боратория им. Э. Лоуренса)

LONILaboratory of Neuro Imaging (Лаборатория нейровизуализации)

MESURMetrics from Scholarly Usage of Resources (проект «Измерение академи-ческого использования ресурсов»)

MMIMarine Metadata Interoperability (Интероперабельность морских метадан-ных)

NASA National Aeronautics and Space Administration (НАСА, Национальное управление по аэронавтике и исследованию космического пространства)

NHS National Health Service (Национальная служба здравоохранения Велико-британии)

NIH National Institutes of Health (Национальный институт здравоохранения США)

NLM National Library of Medicine (Национальная медицинская библиотека США)

NLMDTDNational Library of Medicine Document Type Definition (стандарт DTD Национальной медицинской библиотеки)

NOAANational Oceanic and Atmospheric Administration (Национальное управ-ление океанических и атмосферных исследований)

NRC National Research Council (Национальный научно-исследовательский со-вет)

NSFNational Science Foundation (Национальный научный совет)

OAIOpen Archives Initiative (Инициатива открытых архивов)

OAI-OREOpen Archives Initiative Object Reuse and Exchange protocol (Протокол ORE Инициативы открытых архивов)

OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting (Протокол PMH Инициативы открытых архивов)

OBOOpen Biomedical Ontologies (Открытые биомедицинские онтологии)

OOobject-oriented (объектно-ориентированный)

Page 278: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

244 ГЛОССАРИЙ

OOIOcean Observatories Initiative (Инициатива океанических обсерваторий)

OWLWeb Ontology Language (Язык веб-онтологий)

Pan-STARRSPanoramic Survey Telescope And Rapid Response System (Система телескопов панорамного обзора и быстрого реагирования)

PHRpersonal health record (Личная медицинская карта)

PubMedFree National Library of Medicine online database of biomedical journal articles (Бесплатная веб-база данных медицинских и биологических публикаций Национальной медицинской библиотеки США)

RDFResource Description Framework (Стандарт RDF)

RDFSRDF Schema (RDF-схема)

ROVremotely operated vehicle (Дистанционно управляемое транспортное сред-ство)

RSSReally Simple Syndication (Формат RSS)

SCECSouthern California Earthquake Center (Центр землетрясений Южной Ка-лифорнии)

SOAservice-oriented architecture (Сервис-ориентированная архитектура)

SWORDSimple Web-service Offering Repository Deposit (Веб-сервис размещения репозиториев)

TCP/IP Transmission Control Protocol/Internet Protocol (семейство протоколов TCP/IP)

TMtransactional memory (Транзакционная память)

UNICEFUnited Nations Children’s Fund (Детский фонд ООН)

UniProtUniversal Protein Resource (Банк данных Универсального белкового ре-сурса)

URIUniform Resource Identifier (Универсальный идентификатор ресурса)

USGSU.S. Geological Survey (Геологическая служба США)

VT100Видео-терминал Digital Equipment Corporation (DEC)

WATERSNetworkWATer and Environmental Research Systems Network (Сеть си-стем изучения воды и окружающей среды)

WHO World Health Organization (ВОЗ, Всемирная организация здравоохране-ния)

XMLeXtensible Markup Language (Расширяемый язык разметки, XML)

Page 279: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 245

Благодарность за предоставленные фотографии и графические материалы

Обложка: Луис Алонсо Осана (Luis Alonso Ocaña)/age fotostock. Все права за-щищены.

Стр. x. Галилео вычисляет оптическое увеличение своего телескопа. Мэри Эванс (Mary Evans)/Photo Researchers, Inc. Все права защищены.

Стр. xvi. Джим Грей (Jim Gray) выступает на конференции «Вычисления в 21 веке» в Пекине, октябрь 2006 г.. Microsoft Research.

Стр. 2. Снимок горы Богдо в Китае (Геологическая служба США/НАСА). Для общего пользования.

Стр. 54. Цветной МРТ-снимок женщины. Саймон Фрейзер (Simon Fraser)/Photo Researchers, Inc. Все права защищены.

Стр. 108. Подложка с чипом Intel Teraflops Research Chip. © Intel Corporation. Все права защищены.

Стр. 174. Центральная библиотека, г. Сиэтл. Рем Кулхаас (Rem Koolhaas), глав-ный архитектор. Ветала Хокинс (Vetala Hawkins)/Filmateria Digital. Все пра-ва защищены.

Стр. 222. Две звезды, вращающиеся по орбите друг вокруг друга, в центре круп-ной эмиссионной туманности NGC 6357 в созвездии Скорпиона, на рассто-янии примерно 8 тыс. световых лет от Земли. НАСА, Европейское косми-ческое агентство и Хесус Маис-Апеланиз (Jesús Maíz Apellániz) (Instituto de Astrofísica de Andalucía, Испания). Для общего пользования.

Стр. 226. Визуализация с изображением ссылок цитирования в журнале Nature. Изображение предоставлено Морицем Стефанером (Moritz Stefaner) и Кар-лом Бергстромом (Carl Bergstrom), http://well-formed.eigenfactor.org.

Page 280: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

246 БЛАГОДАРНОСТЬ ЗА ПРЕДОСТАВЛЕННЫЕ ФОТОГРАФИИ И ГРАФИЧЕСКИЕ МАТЕРИАЛЫ

Стр. 229. Тони Хей (Tony Hey), Кристин Толле (Kristin Tolle) и Стюарт Тэнсли (Stewart Tansley) из подразделения Microsoft External Research. Ветала Хо-кинс (Vetala Hawkins)/Microsoft Corporation.

Стр. 234. Джим Грей на яхте Tenacious, январь 2006 г. Фото Тони Хея (Tony Hey).

Оборотная сторона обложки. Microsoft Tag (www.microsoft.com/tag). Скачайте бесплатное приложение для своего телефона на http://gettag.mobi/ и «впе-ред!»

Примечание. По разным причинам URL-адреса могут стать недоступны, вре-менно или постоянно. Не все URL-адреса, указанные в этой книге, были доступны на момент ее публикации, однако мы смогли открыть эти стра-ницы с помощью различных сервисов, таких как Internet Archive’s Wayback Machine (www.archive.org/web/web.php).

Оформление, формат и стиль и изготовление книги — Katz Communications Group, www.katzcommunications.com.

Page 281: Ч етвертая парадигмаdownload.microsoft.com/documents/rus/devcenter/IV...Microsoft Research. Данный документ, вследствие меняющих-ся

ЧЕТВЕРТАЯ ПАРАДИГМА 247

О четвертой парадигме

Эта книга представляет первый общий взгляд на стремительно развивающуюся область науки, использующей большой объем данных, и ставит своей целью ока-зать влияние на мировое научное и ИТ-сообщество и воодушевить следующее поколение ученых. Научные открытия все больше будут опираться на современ-ные вычислительные возможности, которые помогают исследователям изучать и использовать большие массивы данных. Темпы развития каждой научной дис-циплины будут зависеть от эффективности сотрудничества ее исследователей друг с другом и с ИТ-специалистами в таких областях eScience (е-Науки), как базы данных, управление рабочим потоком, визуализация и облачные вычис-ления. Этот сборник статей расширяет концепцию новой, четвертой парадигмы открытий в науке, использующей большой объем данных, предложенную пе-редовым ученым в области теории вычислительных систем Джимом Греем, и предлагает идеи для ее полной реализации.

«Образ мышления Джима Грея по-прежнему влияет на людей, заставляя их по-новому взглянуть на то, как данные и программное обеспечение изменяют кон-

цепцию ведения научной деятельности».— Билл Гейтс (Bill Gates).

«Я часто говорю тем, кто работает в е-Науке, что они выбрали эту отрасль не потому, что они отличаются стратегическим или сверхразвитым интеллектом, а потому, что они заботятся о науке и живут в наше время. Технологии меняют мир,

а наука пользуется их преимуществами, чтобы достичь больших высот».— Рис Франсис (Rhys Francis), Australian eResearch Infrastructure Council

«Одна из наиболее сложных задач, стоящих перед наукой в 21 веке, — то, как мы соответствуем этой новой эпохе науки, использующей большой объем данных. Эта задача рассматривается как новая парадигма, следующая за экспериментальными и теоретическими исследованиями и компьютерным моделированием природных яв-

лений, — парадигма, требующая новых инструментов, приемов и методов работы».Дуглас Келл (Douglas Kell), Манчестерский университет

«Соавторы статей этой книги проделали выдающуюся работу — они помогают лучше понять эту новую парадигму с точки зрения различных

отраслей знания».Гордон Белл (Gordon Bell), Microsoft Research