04 элементы business intelligence в работе аналитика ч2
-
Upload
natalya-sveshnikova -
Category
Business
-
view
5.109 -
download
2
description
Transcript of 04 элементы business intelligence в работе аналитика ч2
1
Элементы Business Intelligence в работе аналитика
Часть 2
Работа с данными, реляционные отношения
Москва, 2008
Свешникова Н.В.
2
• Операции над данными, формирование отчетов
• Табличное представление и реляционные отношения
• Реляционная алгебра Кодда
• Формирование собственных моделей данных
BI аналитикСегодня мы завершим рассмотрение оставшихся вопросов…
3
Работа аналитика часто связана с обработкой данных, уже структурированных и сложенных в хранилище.
Естественный распространенный способ структуризации – табличное представление, будь то таблицы MS Excel,
реляционные базы данных или списки MS SharePoint.
BI аналитик Источники данных
Data
Server
4
BI аналитик Обработка данных
В зависимости от объема и структуры данных меняются приемы обработки и математический аппарат:
• Пока данные умещаются на одном экране в табличке Excel, нам часто проще работать с каждой отдельной ячейкой. Это операции над скалярными величинами.
• Данные становятся динамичнее, количество строк в вашей таблице стремительно растет – Вы начинаете оперировать столбцами. Операции становятся векторными.
• Усложняется структура данных, вы сопоставляете данные нескольких таблиц с разным набором столбцов и сложными взаимосвязями. Это операции над множествами.
5
BI аналитик Обработка данных
Чтобы оперировать большими объемами сложно структурированных данных стоит знать основы
•Теория множеств
•Реляционная алгебра Кодда
6
Табличное представление является «житейской» интерпретациейреляционного отношения – базового понятия
реляционной модели данных
BI аналитикТабличное представление и реляционное отношение
Таблица = отношение
Заголовок = схема отношения
Столбец = атрибут
Строка = кортеж
7
• Отсутствие кортежей-дубликатов Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения
• Отсутствие упорядоченности кортежей
• Отсутствие упорядоченности атрибутов
• Атомарность значений всех атрибутов Т.е. значение не содержит своей явной структуры
• Нормальна форма отношения
BI аналитикОсновные свойства отношений
8
• Нормальна форма отношения
BI аналитик 1я нормальная форма
Номер Имя Зарплата Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Номер Имя Зарплата Отдел
113 Иванов 25000 А
213 Петров 35000
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000
Ненормализованное отношение
9
BI аналитикРеляционная алгебра Кодда
Основана на традиционных теоретико-множественных операциях, дополненных некоторыми специальными операциями
Объединение
Пересечение
Разность
Декартово произведение
Ограничение
Проекция
Соединение отношений
Деление отношений
10
BI аналитикТеоретико-множественные операции: Объединение
Результат С объединения А и В содержит кортежи, содержащиеся или в отношении А или в отношении В
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Отношение В
№ Имя Зарп. Отдел
234 Васильева 40000 С
213 Петров 35000 А
134 Котова 19000 Б
123 Федотова 43000 В
421 Макаров 30000 С
Отношение С
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
234 Васильева 40000 С
134 Котова 19000 Б
421 Макаров 30000 С
11
BI аналитикТеоретико-множественные операции: Пересечение
Результат С пересечения А и В содержит кортежи, содержащиеся и в отношении А и в отношении В
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Отношение В
№ Имя Зарп. Отдел
234 Васильева 40000 С
213 Петров 35000 А
123 Федотова 43000 В
134 Котова 19000 Б
421 Макаров 30000 С
Отношение С
№ Имя Зарп. Отдел
213 Петров 35000 А
123 Федотова 43000 В
12
BI аналитикТеоретико-множественные операции: Разность
Результат С разности А и В содержит кортежи, содержащиеся в отношении А, но не содержащиеся в отношении В
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Отношение В
№ Имя Зарп. Отдел
234 Васильева 40000 С
213 Петров 35000 А
123 Федотова 43000 В
134 Котова 19000 Б
421 Макаров 30000 СОтношение С
№ Имя Зарп. Отдел
113 Иванов 25000 А
134 Сидоров 16000 Б
421 Пупкина 39000 В
13
BI аналитикТеоретико-множественные операции: декартово произведение
Кортежи результата С декартового произведения А и В есть объединение каждого кортежа А с каждым кортежом В
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Отношение В
Проект РМ
П1 Иванов
П2 Васин
Отношение С
№ Имя Зарп. Отд
Пр РМ
113 Иванов 25000 А П1 Иванов
213 Петров 35000 А П1 Иванов
134 Сидоров 16000 Б П1 Иванов
123 Федотова 43000 В П1 Иванов
421 Пупкина 39000 В П1 Иванов
113 Иванов 25000 А П2 Васин
213 Петров 35000 А П2 Васин
134 Сидоров 16000 Б П2 Васин
123 Федотова 43000 В П2 Васин
421 Пупкина 39000 В П2 Васин
14
BI аналитикСпециальные реляционные операции: ограничение
Результат С ограничения А по условию b есть набор кортежей, атрибуты которых удовлетворяют условию b
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В Отношение C
№ Имя Зарп. Отдел
213 Петров 35000 А
123 Федотова 43000 В
421 Пупкина 39000 В
Условие b
Заплата > 30000
Можно охарактеризовать,как «горизонтальную»
вырезку из таблицы
15
BI аналитикСпециальные реляционные операции: проекция
Результат С проекции А на множество атрибутов ai есть отношениес соответствующим набором атрибутов и удалением дубликатов
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Проекция на…
Отдел
Можно охарактеризовать,как «вертикальную»вырезку из таблицы
Отношение С
Отдел
А
Б
В
16
BI аналитикСпециальные реляционные операции: проекция и агрегирование
Модель показателей и классификатор, рассмотренная ранеедополняет операцию проецирования операцией агрегирования
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Проекция на…
Зарплату
Отношение С1
Зарплата
25000
35000
16000
43000
39000
Проекция с агрегированием на…
Зарплату
Отношение С2
Зарплата
158000
17
BI аналитикСпециальные реляционные операции: Соединение отношений по условию
Результат С соединения А и В по условию d есть ограничениепо условию декартового произведения А и В
Отношение А
№ Имя Зарп. Отдел
113 Иванов 25000 А
213 Петров 35000 А
134 Сидоров 16000 Б
123 Федотова 43000 В
421 Пупкина 39000 В
Отношение В
Отд Рук. Комн
А Петренко 211
Б Сидоренко 221
В Васильев 315
Отношение С
№ Имя Зарп. Отд Рук. Ком
113 Иванов 25000 А Петренко
211
213 Петров 35000 А Петренко
211
134 Сидоров 16000 Б Сидоренко
221
123 Федотова
43000 В Васильев 315
421 Пупкина 39000 В Васильев 315
Условие
Отдел из А = Отдел из В
18
BI аналитикСпециальные реляционные операции: деление отношений
Для выполнения операции А должно содержать все атрибуты ВРезультат С деления А на В есть множество кортежей А, которым
соответствуют каждый из кортежей В
Отношение А
№ Имя Зарп. Проект
113 Иванов 25000 П1
213 Петров 35000 П2
134 Сидоров 16000 П1
213 Петров 35000 П1
421 Пупкина 39000 П1
123 Федотова 43000 П2
421 Пупкина 39000 П2
Отношение В
Проект
П1
П2
Отношение С
№ Имя Зарп. Проект
213 Петров 35000 П2
421 Пупкина 39000 П1
19
Online Analytical Processing, or OLAP, is an approach to quickly provide answers to analytical
queries that are multi-dimensional in nature
BI аналитикИнструменты многомерногоанализа
Позволяет запрашивать данные из различных источников: баз данных, отдельных файлов, например, MS Excel.
Запросы составляются с помощью пользовательского интерфейса.
Широкие вычислительные возможности Связывание данных из различных запросов Поддержка разнообразных представлений данных:
таблицы, кросс-таблицы, графики, диаграммы.
20
Key Performance Indicators (KPI) are financial and non-financial metrics used to help an organization define and
measure progress toward organizational goals
BI аналитикФормирование собственных моделей данных
Как правило, отчетность – это средство представления Ключевых показателей эффективности
Эти показатели задают метрики, которые позволяют руководству проводить диагностику ситуации и принимать обоснованные решения.
Рассмотрим формирование показателей и отчетности на простом примере.
21
Пусть у нас есть задача проанализировать эффективность рекрутинговой деятельности отдела кадров.Для начала необходимо исследовать процесс
BI аналитик Эффективность рекрутинга
Поступление заявок от подразделений
Публикация вакансий Активный поиск
Обработка резюме, контакт с кандидатом
Проведение собеседования
Прием на работу
Отказ
Отказ
22
BI аналитик Что мы измеряем?
Высокоуровневые вопросы:
Сколько сотрудников удалось нанять? (Факт) Сколько сотрудников требовалось нанять за этот
период? (План)
Если факт совершенно не соответствует плану, какие возникнут дополнительные вопросы?
Сколько кандидатов рассматривалось вообще? Каким образом, на каких этапах и по каким причинам они
отсеивались?
23
BI аналитик Отчетная форма
Отвечая на эти вопросы, мы
получаем нашу первую
отчетную форму
24
BI аналитикКак собираются данные для отчета?
Для фиксированияплана нужно вести
журналпо поступающим
заявкам
25
BI аналитикКак собираются данные для отчета?
Для фиксированияфакта нужен
журнал по обработанным
резюме
26
BI аналитик Что можно получить еще?
Оптимизировать работу:
Какие источники поступления резюме наиболее эффективны?
Каковы причины отказов?
Далее информационную модель можно расширять, чтобы получать ответы на все новые вопросы…
Соответствует ли предложение спросу на рынке труда? Сколько времени уходит у сотрудника ОК на полную
обработку одного резюме? И т.п.
27
BI аналитик | Подведем итоги
BI аналитик
Обработкаданных
Реляционныеотношения
Реляционнаяоперации
Формированиемоделей данных
Сборданных
Формированиеотчетов и
показателей
28
BI аналитик | Заключение
• Вопросы?
29
Введение | Литература
www.wikipedia.org
С. Д. Кузнецов. «Основы баз данных. Курс лекций. Учебное пособие». – М.: Интернет-Университет Информационных технологий, 2005. – 488 стр.