2015 06-16 круглый стол компетенции по большим данным
-
Upload
evgeniy-pavlovskiy -
Category
Education
-
view
36 -
download
0
Transcript of 2015 06-16 круглый стол компетенции по большим данным
![Page 1: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/1.jpg)
Большие данныеЧто у нас есть?
Павловский Е.Н.директор по развитию ООО "Экспасофт"
![Page 2: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/2.jpg)
2
План1. Определение феномена БД
2. Значение БД для разных отраслей
3. Субъекты подготовки специалистов (=центры компетенций) по БД
4. Проблемы в области БД
5. Направления развития
6. Образовательный задел НСО
![Page 3: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/3.jpg)
3
Большие данные – это не только данные• Технологии получения, хранения, обработки, удаления данных
• Методы обработки и представления данных
• Проблема нехватки ресурсов для обработки
• Социальный феномен (качественный переход)
• Данные большого объёма, разнообразия, темпа роста,
• Большой потенциальной ценности
![Page 4: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/4.jpg)
4
4V• Volume - объём данных
• Velocity - скорость создания и обработки данных
• Variety - разнообразие источников и форм хранения данных
• Value - ценность
![Page 5: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/5.jpg)
5
"Большие данные – это новая нефть" (Clifford Lynch, Nature, 2008)• ЦОДы – это ресурсы:
• сбор данных, технологии хранения, облачные хостинги и т.п.
• Технологии "глубокой переработки":• Сами по себе данные не очень ценны, ценны закономерности
• Известные примеры применения (доказанная польза):• Влияние покупок пива на продажи памперсов• Рекомендованные покупки• Бизнес на кредитах людям с плохой кредитной историей• И т.п.
![Page 6: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/6.jpg)
6Три составляющих успеха в "нефтяной отрасли"
ЦОДы
Кейсыприменен
ия
Технологии
обработки
![Page 7: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/7.jpg)
7
Восстановление данных фракционного состава добываемой смесиДанные:
• 3 исходных параметра ($10k)
• 3 целевых параметра ($200k)
• 5 участков данных
• Частота измерений – раз в минуту
• Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
![Page 8: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/8.jpg)
8Пример Amazon
Онлайн-магазин книг
Дополнительные продажи
Рекомендация покупки
![Page 9: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/9.jpg)
9Персонализированный прогноз уровня сахара в крови на основе машинного обучения
Вставка рисунка
Табаков К.А., Экспасофт, бакалавр
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 1270
20
40
60
80
100
120
140
160
180
Предсказаные значения
Реальные значения
![Page 10: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/10.jpg)
10
Изменение парадигм• Объектом деятельности является не программа и код, а гипотезы и данные
• Больше источников – выше достоверность
• Больше данных – выше точность
• Больше данных – ниже требования к качеству данных
• Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
• Неперемещаемость данных => параллелизм и вычисления по месту хранения
• Отказ от структурированности => технологии извлечения информации и знаний
![Page 11: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/11.jpg)
Copyright © 2012 EMC Corporation. All Rights Reserved.
EMC2 PROVEN PROFESSIONAL
Data Analytics Lifecycle
11
Исследование
Внедрение
Планирование модели
Подготовка данных
Построение модели
Представление результатов
Do I have enough information to draft an analytic plan and share
for peer review?
Do I have enough
good quality data to start building the
model?
Do I have a good idea about the type
of model to try? Can I refine the analytic plan?
Is the model robust enough?
Have we failed for sure?
1
2
3
4
6
5
![Page 12: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/12.jpg)
13
Субъекты подготовки специалистов• НГУ: ФИТ, ФФ, ММФ, ФЕН; НГТУ: АВТФ; СибГУТИ
• ИЦиГ (биоинформатика), ИВТ (вычисления), ИВМиМГ, ИСИ, ИАЭ
• ИТ-компании: отдельные курсы или магистерские программы
• ИТ-компании создающие технологии обработки данных
• НСО-ГАУ "Центр" – межвузовская магистратура
• ГАУ "АРИС" – поддержка ИТ-кластера
• Специалисты
![Page 13: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/13.jpg)
14Орг-формы
ИППК или ЦДО НГУГАУ «Центр» - межвуз. маг.КА Сухорукова
Компетенции
ЦЕРН
НейросетиФЭЧ
ИЯФ
Спутники
НейросетиВоенка
ИАЭ
FRiS, оптим. алг, онтологии, логикаРаспознавание
ИМ
Банки данных
CUDA, DNAБиоинформат
ика
ИЦиГ, УНИПРО,
НПС Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦИнформатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
ИнициативыМагистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
ХранениеКардиология, Радиология
НИИПК
?
ХранениеМедицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность, медицина, финансы, сервера
Экспасофт
Приборы
?
Унискан, ТИОН
Игры
SlpunkИгры
Alawar
МТС
ТранзакцииТаргетинг
Eyeline
Банки
ТранзакцииФинансы
ЦФТ
?
Вычисления, хранение
ИЦКТ
Потребители
?
Обработка, образовани
еМедицина, биология, физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
![Page 14: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/14.jpg)
15
Проблемы в области Больших данных• Нет культуры обезличивания и передачи данных (ФЗ-152)
• Нет понимания возможной пользы от анализа данных
• Недостаточные компетенции в статистике
• "Мы закончили НГУ, сами разберёмся в теме"
• Отсутствие брокеров данных
• Проекты по анализу данных имеют высокий риск
• Недостаточно данных
![Page 15: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/15.jpg)
16
Направления развития Больших данных в Новосибирске• На базе исследовательского потенциала:
• Обработка биологических, ФЭЧ, спутниковых данных• Новые алгоритмы анализа больших данных
• На базе технологических компаний:• Предоставление вычислительных ресурсов• Предоставление услуг по анализу• Услуги по хранению
• На базе доступа к данным• Исследования в телекоммуникациях, приборостроении, госбезопасности, банковском секторе
![Page 16: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/16.jpg)
• самая широкая аудитория (школьники, разработчики, бакалавры)
• средство привлечения из онлайн в офлайнОнлайн-курсы
• вовлекаем в мобильность• Готовим для индустрии и для науки
Магистратура(10-20 чел/год)
• укрепление научных школАспирантура(5-10 чел/год)
• Повышение квалификации в области обработки больших данных
Дополнительное образование (20 – 100
чел/год)
Кадровое обеспечение(мощность в 2016)
![Page 17: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/17.jpg)
18
Образовательный задел• Магистерская программа "Big Data Analytics" (проект 5-100 НГУ, грант Потанина)
• Курсы повышения квалификации (Экспасофт в сотрудничестве)
• Первый в России онлайн видео-курс на Интуите http://bit.ly/IntuitBDA
• Сертифицированные курсы по CUDA
• Биоинформатика
![Page 18: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/18.jpg)
19
Master program in Data science
![Page 19: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/19.jpg)
20
Прикладные области• Биоинформатика
• Исследование экспрессии генов
• Приборостроение• Построение новых приборов на основе выявленных закономерностей (по сердцебиению данные о здоровье, о диете)
• Телекоммуникации• Новые услуги, таргетинг
• Персонализированная медицина• Персонализированные рекомендации
![Page 20: 2015 06-16 круглый стол компетенции по большим данным](https://reader035.fdocuments.net/reader035/viewer/2022062420/55cabb7bbb61ebbb6e8b458e/html5/thumbnails/20.jpg)
21
Литература• National Research Council. Dec, 2013. Frontiers in Massive Data Analysis. Washington, D.C.: The National Academies Press.