BIG DATA Новый вызов .
description
Transcript of BIG DATA Новый вызов .
![Page 1: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/1.jpg)
BIG DATAНовый вызов.
Будзко В.И.заместитель директора по научной работе
Института проблем информатики РАН, д.т.н., член-корреспондент Академии
криптографии РФ
“В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в
зависимости от качества их аналитики”Вирджиния Рометти - IBM CEO 2 марта 2012 года
![Page 2: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/2.jpg)
Рост цифровых данных и доступной памяти
![Page 3: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/3.jpg)
Прогноз роста данных до 2015 года
Гло
баль
ный
объе
м д
анны
х в
экза
байт
ах
Процентное соотношение
Управленческие решения, традиционно определяемые
данными организации
К 2015 году количество устройств, объединенных в сеть вдвое будет превышать население земли.Всем
этим сенсорным данным присуща неопределенность
Суммарное число позиций в средствах массовой информации превышает население земли. Эти данные крайне неопределенны по
представлению и содержанию
![Page 4: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/4.jpg)
Обвал данных• Каждый день в мире производится 2,5 квинтильона
(1018) байтов данных. 90% данных созданы за последние два года.
• Каждый час Wal-Mart совершает 1 миллион сделок, пополняя базу данных на 2,5 петабайта (1015)- в 170 раз больше объема данных Библиотеки Конгресса США.
• Объем отправлений, доставляемых американской Почтовой службой за один год, равен 5 петабайтам, а Google обрабатывает такой же объем данных всего за один час.
• Суммарный объем всей существующей на земле информации составляет несколько больше одного зеттабайта (1021).
![Page 5: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/5.jpg)
Новый взгляд – старые принципы• В какой степени доступные данные отражают реальное состояние
моделируемой предметной области? Полнота.
• Насколько правильно данные описывают предметную область? Точность.
• Система высокой доступности данных: доступные данные достаточной полноты и точности обработаны и вовремя получен аналитический продукт. (Своевременный отбор данных и своевременное получение аналитического продукта)
выявление (Discovery),
отбор (Discrimination),
переработка (Distillation),
доведение в нужном представлении (Delivery/Dissemination).
![Page 6: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/6.jpg)
В информационно-аналитической АИС получение аналитического информационного продукта возможно только при использовании структурированных данных.
Если для решения аналитической задачи требуется привлечь неструктурированные или слабо структурированные данные, то требуется разработать средство их преобразования в структуру.
После преобразования речи в текст по тексту определяется смысловое содержание сказанного и преобразовывается в некоторый структурированный формат.
![Page 7: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/7.jpg)
Словосочетание Большие Данные появилось в конце 1990-ых среди ученых, у которых отсутствовала возможность сохранить или проанализировать огромные и возрастающие данные, произведенные все более и более сложными цифровыми технологическими средствами, применяемыми при решении задач физики элементарных частиц, экономики, климатологии, астрофизики.
![Page 8: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/8.jpg)
К середине 2000-ых проводились интенсивные исследования Больших Данных в таких компаниях как Google, Yahoo, Amazon и Netflix, в которые поступали возрастающие объемы данных из Web. Google разработал в 2004 году структуры MapReduce.В 2008 году в результате исполнения проекта Apache была реализована система Hadoop (как общедоступное изделие) для параллельной обработки больших файлов в одном пакете. Hadoop, использует структуру MapReduce и файловую систему, чтобы действовать как хранилище данных.
![Page 9: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/9.jpg)
Файл-ориентированного подхода Hadoop оказалось недостаточно, требовалась функция базы данных. NoSQL решения BigTable Google в 2006 и разработка Amazon Dynamo – в 2007 стали первыми реализациями в этом направлении. Общедоступные продукты - Amazon SimpleDB, Cassandra, MongoDB и Terrastore. Маркетологи вендоров аппаратного и программного обеспечения начали перемаркировывать многие продукты и решения на Большие Данные. Реляционные и другие традиционные подходы обработки бросались в "общий котел".
![Page 10: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/10.jpg)
Традиционные данные составляют меньше чем 10% цифровой информации, которой управляет бизнес
![Page 11: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/11.jpg)
BI / Reporting
BI / Reporting
Exploration / Visualization
FunctionalApp
IndustryApp
Predictive Analytics
Content Analytics
Analytic Applications
Стратегия IBM Big Data : приблизить аналитику к данным
IBM Big Data Platform
Systems Management
Application Development
Visualization & Discovery
Accelerators
Information Integration & Governance
HadoopSystem
Stream Computing
Data Warehouse
Новые аналитические приложения выдвигают требования к платформе big data:
• Объединять и управлять всем разнообразием (Variety), скоростью (Velocity) и объемом (Volume), достоверностью (Veracity) и обоснованностью (Validity) данных
• Применять передовую аналитику к информации в ее исходной форме
• Визуализировать все доступные данные для специального анализа
• Среда проектирования для создания новых аналитических приложений
• Оптимизация рабочей нагрузки и планирование
• Безопасность и управление
![Page 12: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/12.jpg)
Ускоренный data miningУскоренный data mining
Изображения и видео
Простые и сложные текстыПростые и сложные тексты
Text(listen, verb),
(radio, noun)
АкустикаАкустика
ГеоаналитикаГеоаналитика
ПрогнозыПрогнозы
Продвинутые математические моделиПродвинутые математические модели
СтатистикаСтатистикаpopulation
tt asR ),(
Analytic Accelerators Designed for VarietyБолее умная аналитика!!!
![Page 13: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/13.jpg)
![Page 14: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/14.jpg)
![Page 15: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/15.jpg)
Big Data
Content Analytics
Технологии IBM
Business Analytics
Databases / Data Warehouses
2880 Processing Cores
16 Terabytes Memory (RAM) – 20TB Disk
Системные спецификации
90 IBM P750 Servers
80 Teraflops (80 trillion operations per second)
Workload Optimized Systems
Watson – взгляд изнутри
Cores x 20 + 1 = 57600 + 2880 = 60480 On Oncology Task
Инт
ел
лек
туал
ьнос
тьИ
нфор
мир
уем
ость
![Page 16: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/16.jpg)
1. Любые виды источников1. Любые виды источников
2. Любая скорость потока данных от источника2. Любая скорость потока данных от источника
3. Принятие решения – в потоке (миллисекунды)3. Принятие решения – в потоке (миллисекунды)
IBM получает заказ на разработку технологии:
2002
![Page 17: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/17.jpg)
17
Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ
доступных данныхЭффективно с точки зрения затрат управлять и анализировать все доступные данные,
в их первозданном виде – структурированные,
неструктурированные, потоковые
ERPCRM RFID
Website
Network Switches
Social Media
Billing
![Page 18: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/18.jpg)
StreamsStreams
BigInsBigIns
DEDE NZ NZ
Декларативные языкиДекларативные языки
Готовые средства разработки
Готовые средства разработки
ИнструментыИнструменты
Языки программирования 3-го поколения: Языки программирования 3-го поколения: Java, Java, C/C++, Python, Perl C/C++, Python, Perl Языки программирования 3-го поколения: Языки программирования 3-го поколения: Java, Java, C/C++, Python, Perl C/C++, Python, Perl
КоннекторыКоннекторы
SPSS(Декларативный язык PMML)
SPSS(Декларативный язык PMML)
Cognos BICognos BI
Общая схема компонентов платформы Big DataВсего около 900 «кирпичей»
![Page 19: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/19.jpg)
Современная схема принятия решений:
Что делают люди?Подтверждение решения
Принятиерешения
Цифровая реальность
CEO
Область интересов
Обсуждение области интересов
Поиск в области интересов
Креативная команда
Обучение в области интересов
Big Data
Детализацияобласти интересов
Задания интегральной инфо потребности
![Page 20: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/20.jpg)
Угрозы и проблемы
1. Отставание:• кадры,• подготовка кадров,• технологическая платформа,• постановка задач,• и пр.Только МО США ежегодно выделяет на исследования в области Больших данных 300 млн. долларов.Big Data –национальная программа США.
![Page 21: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/21.jpg)
Угрозы и проблемы
2. Доступность наших источников:• Интернет, социальные сети (Twitter, Faceook,
Одноклассники и пр). Основатель социальной сети Facebook Марк Цукерберг – 15 млрд. долларов
• мобильные телефоны, планшеты, смартфоны и пр. • облачные вычисления и хранилища,• технологические достижения в открытой публикации
или по эл почте,• и пр.
![Page 22: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/22.jpg)
Угрозы и проблемы
3. Отсутствие наработок по информационнойбезопасности Больших данных.
4. Огромный объем «неведанного» ПО, даже в открытых кодах, затрудняет выполнение соответствующих исследований.
![Page 23: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/23.jpg)
Сокращение отставания СССР в области информатизации•1968 год. Письмо Дородницина в ЦК.
Решение по ЕС ЭВМ. Инициатива М.Р. Шура-Бура и В.К. Левина о построении ЕС ЭВМ, программно совместимой с IBM/360.
•1972 год. Решение Ю.В. Андропова
•1973-1975 годы. Работа коллектива специалистов (КГБ, МО, НИЦЭВТ, НИИ "Восход", НИИАА под вывеской МНИИПИ АСУ ГХ) по освоению продуктов IBM на площадке ОКБА Минхимпром
![Page 24: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/24.jpg)
Отечественные аналогиПродукт IBM
(прототип)Отечественный
аналогИсполнитель
IMS/360 ОКА НИЦЭВТ
CICS КАМА НИЦЭВТ
OS/360 ОС/ЕС НИЦЭВТ
GIS УНИС Центр ПрограммСистем
Позднее НИИ «Восход» выпустил аналог ADABAS – ДИСОДНИИАА выпустил аналог IDMS - СЕТЬ
Катализатор повышения профессионализма. Собственные разработки.
![Page 25: BIG DATA Новый вызов .](https://reader036.fdocuments.net/reader036/viewer/2022081506/56814644550346895db34f5a/html5/thumbnails/25.jpg)
Что делать?
Учиться, учиться, учиться…
Спасибо за внимание