phd thesis presentation

31
Вейнберг Роман Рафаилович Моделирование процессов выявления и формирования предпочтений потребителей телекоммуникационного предприятия Диссертация на соискание учёной степени кандидата экономических наук Научный руководитель: д.т.н., профессор Романов Виктор Петрович Москва 2013 Специальность 08.00.13 Математические и инструментальные методы экономики

Transcript of phd thesis presentation

Page 1: phd thesis presentation

Completed

Вейнберг Роман Рафаилович

Моделирование процессов выявления и

формирования предпочтений потребителей

телекоммуникационного предприятия

Диссертация на соискание учёной степеникандидата экономических наук

Научный руководитель:

д.т.н., профессор

Романов Виктор Петрович

Москва 2013

Специальность 08.00.13 Математические и инструментальные методы экономики

Page 2: phd thesis presentation

Completed

Слайд 2

1. Последние 2-3 года в мире наблюдается удвоение объема передаваемой

информации через информационно-телекоммуникационную инфраструктуру;

2. Происходит дифференциация спектра предоставляемых сервисов (до 100

комбинаций услуг на отдельно взятых локальных рынках), с имеющимся

повышением динамики изменения предоставляемых услуг связи;

3. Наблюдается рост объемов клиентской базы - показатели общемирового

количества пользователей сотовой связи прогнозируются на уровне 14

миллиардов абонентов к 2020 году.

Актуальность диссертационного исследования

Повышение конкуренции на телекоммуникационном рынке

Необходимость усовершенствования существующей концепции

взаимоотношения с клиентами (CRM)

Разработка комплекса методов и моделей, представляющих собой

инструмент эффективного управления и анализа потребительской базы,

ядром которой должно стать наличие гибкой интеллектуальной

информационной системы поддержки принятия решений, позволяющей

автоматизировано формировать клиентские предпочтения и подбирать

рациональные пакеты услуг связи

Page 3: phd thesis presentation

Completed

Слайд 3

Разработка комплексной модели и совокупности программно-

инструментальных средств мониторинга предпочтений и

формирования структуры клиентской базы телекоммуникационной

компании с использованием интеллектуального анализа данных и

системы управления бизнес-правилами в рамках бизнес-процесса

взаимодействия субъектов телекоммуникационного рынка для

подбора рационального набора услуг связи в зависимости от

клиентских характеристик.

Цель диссертационного исследования

Page 4: phd thesis presentation

Completed

Слайд 4

1. Сформировать систему качественных и количественных характеристик,

определяющих активность потребителей рынка телекоммуникационных услуг и

отражающих их личные данные;

2. Формализовать информационно-логическую схему выявления и формирования

клиентских предпочтений с учетом обратной связи и набора потребительских

(профиля потребления) и личностных клиентских характеристик (личного

профиля);

3. Разработать методику выявления клиентских предпочтений с учетом профиля

потребления и набора личностных клиентских характеристик на основе

применения методов интеллектуального анализа данных.

4. Провести компьютерные эксперименты для подтверждения практической

эффективности разработанной методики выявления клиентских предпочтений на

основе кластеризации данных потребления услуг связи, с последующей

классификацией полученных кластеров с учетом набора личностных клиентских

характеристик.

5. Построить модель подбора необходимых наборов услуг связи и формализации

применения результатов ИАД на основе системы управления бизнес-правилами.

6. Разработать структуру интеллектуальной информационной системы поддержки

принятия решений (ИИСППР) с модулем ИАД, необходимым для анализа и

выявления предпочтений клиентов, и модулем BRMS, обеспечивающим

формализацию применения результатов кластеризации и классификации

клиентских предпочтений.

Задачи диссертационного исследования

Page 5: phd thesis presentation

Completed

Слайд 5

Объект исследования: предпочтения потребителей

телекоммуникационных услуг, характеризующиеся разнородными

количественными и качественными характеристиками;

Предмет исследования: инструментальные методы и средства

выявления и формирования предпочтений потребителей услуг связи,

базирующиеся на анализе активности клиентов телекоммуникационной

компании и телекоммуникационного рынка Российской Федерации;

Методы исследования: системный анализ, визуализация данных

(метод главных компонент, метод Сэммона и нечеткий метод Сэммона),

четкая и нечеткая кластеризация «без учителя» на основе Эвклидова

расстояния, классификация данных «с учителем», на основе машины

опорных векторов и обучающих функций ядра, EDM-метод, метод поиска

оптимального количества кластеров с помощью вычисления «седловой

точки», методы математической логики;

Используемое ПО: программно-инструментальный комплекс IBM

SPSS, JPM SAS, R-project, XL-Stat, Matlab, программный пакет

визуального программирования Visual Rules Suite (модуль BRMS Visual

Rules Modeler, компании Bosh), комплекс автоматизированного

проектирования и моделирования бизнес-процессов Microsoft Visio, база

данных MySQL Server и СУБД dbForge Studio.

Page 6: phd thesis presentation

Completed

Слайд 6

состоит в разработке целостной методики выявления и формирования клиентских предпочтений, а также построении структуры интеллектуальной информационной системы поддержки принятия решений на основе применения комплекса методов интеллектуального анализа данных и их интеграции с системой управления бизнес-правилами, позволяющей осуществлять в результате компьютерного эксперимента подбор рационального набора услуг мобильной связи.

Научная новизна исследования

Информационная база исследования

данные компании ОАО Мобильные ТелеСистемы, официальный сайт компании ОАО МТС, материалы специальных периодических печатных и электронных изданий в области CRM и сотовой связи, материалы научных и научно-практических конференций, публикуемые данные информационных агентств, отчеты аналитических и консалтинговых компаний.

Page 7: phd thesis presentation

Completed

Слайд 7

1. Создана информационно-логическая схема (ИЛС) реализации процесса

выявления и формирования клиентских предпочтений с учетом обратной связи

между субъектами рынка и формализацией применения полученных результатов

интеллектуального анализа данных (ИАД) с помощью системы управления бизнес-

правилами в рамках бизнес-процесса подбора рационального набора услуг в

зависимости от клиентских характеристик;

2. Предложен рациональный набор характеристик клиентов и их активности на

телекоммуникационном рынке, включающий в себя данные по потреблению услуг

связи и набор личностных данных, реализованные в виде древовидной структуры

системы показателей;

3. Разработана методика выявления клиентских предпочтений, реализованная c

помощью компьютерного эксперимента в рамках модельных данных изучаемой

совокупности клиентов и основанная на методологии ИАД;

4. Разработана модель на основе системы управления бизнес-правилами для

автоматизации процесса подбора телекоммуникационных услуг через

последовательное и параллельное выполнение блоков правил;

5. Разработана структура интеллектуальной информационной системы поддержки

принятия решений на основе средств интеллектуального анализа данных и

формализации применения его результатов в системе управления бизнес-

правилами.

Наиболее существенные научные результаты

Page 8: phd thesis presentation

Completed

РЕЗУЛЬТАТ 1: создана информационно-логическая схема (ИЛС) реализации процесса

выявления и формирования клиентских предпочтений в рамках управления

взаимоотношениями с клиентами

Page 9: phd thesis presentation

Completed

9

РЕЗУЛЬТАТ 2: предложен набор характеристик о клиентах и их активности на телекоммуникационном рынке реализованный в виде древовидной структуры системы

показателей

Page 10: phd thesis presentation

Completed

Слайд 10

РЕЗУЛЬТАТ 3: разработана методика выявления клиентских предпочтений,

реализованная c помощью компьютерного эксперимента (слайды 11-22)

Данная методика характеризуется комплексным подходом к формированию

предпочтений клиентов необходимым в условиях динамического развития и

изменения рынка телекоммуникационных услуг связи.

Page 11: phd thesis presentation

Completed

Этапы методики выявления клиентских предпочтений 3.1. Выбор и обоснование методов кластеризации данных (без учителя и предварительной классификации)

Слайд 11

Page 12: phd thesis presentation

Completed

3.2. Поиск оптимального количества кластеров на примере алгоритма k-

средних (k-means) с помощью метода изгиба (Elbow Criterion)

Примечание*

• коэффициент распределения (PC) = 1,

• классификационная энтропия (CE) = «NaN (Not-a-Number)».

Это связано с тем, что эти две меры предназначены

для методов нечеткого разбиения.

Объединять в кластеры данные для различных значений центров кластеров «с» и проверять правильность

разбиения полученных кластеров, используя методы проверки, путем определения коэффициентов и

индексов c учетом их графической интерпретации (изогнутости графика):

1. Индекс Данна (DI)

2. Альтернативный индекс Данна (ADI)

3. Коэффициент распределения (PC)*

4. Классификационная энтропия (CE)*

5. Индекс распределения (PI)

6. Индекс разделения (SI)

7. Индекс Си-Бени (XB)

Критерий изгиба - необходимо выбрать такое количество

кластеров, чтобы добавление других кластеров не

приводило к добавлению соответствующей информации [R.

L. Thorndike, 1953].

Графическая демонстрация метода изгиба и поиска оптимального

количества кластеров для алгоритма К-средних (фрагмент), трех индексов (PI, SI, XB)

Слайд 12

Page 13: phd thesis presentation

Completed

1. Процесс проверки выбора оптимального количества кластеров повторяется и для других алгоритмов

кластеризации: Гюстафсон-Кессель, К-медоид, Гаф-Гева и С-средних;

2. Определено, что для алгоритмов K-средних, К-медоид и Гаф-Гева оптимальное число кластеров

равняется четырем (с = 4). Для алгоритмов нечетких С-средних и Густафсона-Кесселя, исходя из

графического представления метода изгиба, оптимальное количество кластеров равняется шести (с = 6).

3. Для визуализации данных были выбраны следующие методы понижения размерности (без большой

потери качества исходных данных, в связи с определением и расчётом главных компонент в области

высокой дисперсии исходных данных):

3.3. Окончательный выбор оптимального количества кластеров и

визуализация результатов кластеризации

Метод главных

компонент [K. Pearson, (1901)].

Сохранение дисперсии в данных при

визуализации для алгоритма K-

средних .

Метод Сэммона [Sammon J.W.

(1969)].

Сохранение расстояний между

образами при визуализации для

алгоритма К-медойд.

Fuzzy метод Сэммона

[Sammon J.W. (1969)].

Сохранение расстояния

между точками данных и

центрами кластеров при

визуализации для С-

средних, Густафсона-

Кесселя и Гаф-Гева.

Слайд 13

Page 14: phd thesis presentation

CompletedС помощью результатов использования методов проверки и визуализации кластеризации

можно сделать вывод о том, что существуют два возможных наилучших решения для

изучаемой совокупности данных: алгоритм Гаф-Гева при с = 4 и алгоритм Густафсона-

Кесселя при с = 6.

3.4. Окончательный выбор методов кластеризации для изучаемой

совокупности клиентов и построение клиентcких профилей потребления

Слайд 14

Page 15: phd thesis presentation

Completed

3.5. Построение профиля потребления по среднему значению по всем линиям

(эквивалент центра кластера, c = 4)

Профили центров кластеров для с = 4

(алгоритм кластеризации Гаф-Гева).

• в случае с четырьмя кластерами, в кластере

1 присутствуют клиенты, которые, по

сравнению с другими кластерами, обладают

минимальными значениями в каждой

категории. В кластере 2 наблюдаются

высокие значения в позициях 6, в то время

как кластер 3 содержит пиковые

значения характеристик в 10, 11 и 12.

Четвертый и заключительный кластер имеет

высокие значения характеристик почти по

всем категориям, кроме 6-го, 10-го, 11-го и

12-го значения характеристик.

Профиль потребления 1:

MIN значения всех характеристик,

Потенциал внутреннего развития:

«объем SMS-трафика» - VAS

«объем MMS-трафика» - VAS

1 2

3 4

Профиль потребления 2:

Потенциал внутреннего развития:

«звонки на мобильные телефоны» - CSD

«междугородный роуминг» - CSD

«мобильный Интернет» - VAS

«мобильный контент» - VAS

Профиль потребления 2:

MAX «международный роуминг» - CSD

(средняя продолжительность

вызова в секундах, в день)

Профиль потребления 3:

MAX «Мобильный контент» - VAS

MAX «Продолжительность входящего вызова»

MAX «Количество телефонных вызовов в день»

MAX потребление по большинству услуг связи

(от повседневных CSD, до высокотехнологичных VAS

услуг): 1. звонки по домашнему региону,

2. звонки внутри сети, звонки на стационарные телефоны,

3. звонки на мобильные телефоны,

4. междугородний роуминг, международный роуминг,

5. объем SMS-трафика, объем MMS-трафика,

6. использование мобильного Интернета

Слайд 15

Page 16: phd thesis presentation

Completed Этап обучения SVM с помощью К-кратной перекрестной проверки:

3.6. Классификация полученных кластеров с помощью метода опорных

векторов и использования обучающих функций ядра

Определение точки остановки обучения SVM.

Данные обучения будут использоваться

для обучения SVM.

Тестовые данные будут применяться для

оценки ошибок во время обучения SVM.

Проверочные данные будут

использоваться для определения

реальной эффективности SVM после

завершения его обучения.

SVM будет остановлено, когда ошибка,

оцениваемая с помощью тестовых

данных, достигнет локального

минимума,

K-кратное разбиение данных, K = 10

Для каждого из K экспериментов, K-1 будут

использоваться для обучения, а оставшийся

один эксперимент – для тестирования.

Метод: «один против одного», в котором

создаются модели k (k – 1)/2, где k –

число классов.

Количество проводимых экспериментов обучения

Слайд 16

Page 17: phd thesis presentation

Completed Линейная функция ядра K (xi, xj) = xi

T xj

Полиномиальная функций ядра степени d : K (xi, xj) = (xiT xj + с0)

d

Сигмоидальная функция ядра K (xi, xj) = tanh (xiT xj + с0)

Радиальная базисная функция ядра K (xi, xj) = ехр (– | | хi – хj | |2)

3.7. Проверка эффективности функций ядра как уникального

классификатора с разными вычисляемыми параметрами*

6

4 Радиальная базисная функция

Повышение размерности данных с помощью кернелфункций:

*Составлена лично автором на основе экспериментальных данных и расчётов Слайд 17

Page 18: phd thesis presentation

Completed

Слайд 18

РЕЗУЛЬТАТ 4: разработана модель на основе системы управления бизнес-

правилами для автоматизации процесса подбора телекоммуникационных

услуг через последовательное и параллельное выполнение блоков правил

Глобальный поток правил модели Telecom Project 1 в BRMS-системе Visual Rules

Modeler Элементы

обновления экспорта и импорта во

внешнюю базу

данных (MySQL)

Элементы вложенного

потока правил

Алгоритм выполнения

внутренних потоков правил

модели

Page 19: phd thesis presentation

Completed

14

РЕЗУЛЬТАТ 5: разработана структура интеллектуальной информационной системы поддержки принятия решений в виде

совокупности функционально и информационно связанных модулей (ИАД и BRMS) обеспечивающих формирование

клиентских предпочтений и подбор адекватных им наборов услуг связи

Page 20: phd thesis presentation

Completed

Результаты диссертационного исследования внедрены в ОАО «Основа Телеком» и ООО «Бизнес Аналитические Системы» (БАС);

Полученные теоретические результаты и инструментальные решения могут быть использованы в процессе выявления, формирования и управления клиентскими предпочтениями в рамках телекоммуникационного сектора Российской Федерации;

Фрагментарно практические результаты диссертационного исследования интегрированы в учебный процесс в рамках подготовки бакалавров образовательного направления 080500.62 – Бизнес – информатика по дисциплине «Системы управления бизнес-правилами»;

Результаты могут быть использованы предприятиями телекоммуникационной сферы, сферы услуг, фирмами, занимающимися созданием аналитических и колаборационных CRM и т.д.

Практическое значение диссертационного исследования

Опубликованные работы и выступления на конференциях

Основные положения работы представлялись и докладывались на 12-ти международных научно-практических конференциях;

По материалам диссертации опубликовано 16 работ общим объемом 5,8 п.л., в том числе авторских 3,7 п.л., из них 1,06 п.л. – 4 статьи в журналах ВАК Минобрнауки России.

Слайд 20

Page 21: phd thesis presentation

Completed

1. Разработанная информационно-логическая схема взаимоотношения потребителей и

поставщиков услуг связи с использованием совокупности инструментальных методов

интеллектуального анализа данных и системы управления бизнес-правилами, обеспечивает

корректное и адекватное моделирование процесса выявления и формирования клиентских

предпочтений;

2. Показатели, определяющие потребителя услуг связи целесообразно разделить на «профиль

потребления» (с учетом услуг, приносящих дополнительный доход - VAS и услуг голосовой

связи - CSD) и «личный профиль клиента» (набор социально-демографических

характеристик: возраст, пол, образ жизни), что в совокупности отражает целостную модель

типичного клиента телекоммуникационного предприятия;

3. Применение разработанной методики выявления клиентских предпочтений показало, что в

рамках динамических условий развития и изменения рынка услуг связи целесообразно для

моделирования процессов выявления клиентских предпочтений в телекоммуникационной

сфере применять алгоритмы нечеткой кластеризации;

4. Применение моделей и системы управления бизнес правилами дает возможность

проведения корректной формализации результатов интеллектуального анализа данных с

дальнейшей возможностью их автоматического тестирования и выполнения;

5. В результате интеграции модуля интеллектуального анализа данных и системы управления

бизнес правилами была разработана структура интеллектуальной информационная системы

поддержки принятия решений, функционально обеспечивающая автоматизацию процессов

подбора рационального набора услуг связи для клиентов исходя из набора их

количественных и качественных характеристик. Работоспособность системы доказана

проведенным тестами и выполненными потоками правил, с занесением результатов в базу

данных клиентов, а также эффективностью ее внедрения и использования на реальном

телекоммуникационном предприятии.

Выводы диссертационного исследования

Слайд 21

Page 22: phd thesis presentation

Completed

Благодарю за внимание!

Page 23: phd thesis presentation

Completed

Дополнительный материал:

визуализация алгоритмов

кластеризации

Page 24: phd thesis presentation

Completed

1. Визуализация четкого алгоритма кластеризации k-средних и k-medoids*

методы четкой кластеризации

позволяют

проанализировать данные

клиентского профиля

потребления и построить

надлежащие кластеры.

Примечание*

•Во избежание проблем, связанных с построением диаграммы (использование слишком большого количества

значений приведет к отображению большого облака точек), из двумерного множества данных было выбрано

500 значений, соответствующих 500 клиентам (потреблению ими услуг связи по 12-ти значениям характеристик)

ни один из кластеров не

содержит

существенно большее или

меньшее

число клиентов, чем другие

кластеры.

У данного метода кластеризации есть

проблемы с интерпретацией динамических

данных

Page 25: phd thesis presentation

Completed

2. Визуализация нечеткого алгоритма кластеризации нечеткое c-среднее

(fuzzy c-means) и fuzzy Густафсон-Кессель (GK)

Для ситуации с 4 кластерами

видны только два хорошо

заметных кластера. При

более детальном

рассмотрении графика можно

увидеть, что на самом деле

имеются 4 центра кластеров, и

что центры кластеров

находится практически на

одном месте.

Для ситуации с 6 кластерами

можно увидеть три больших

кластера с одним небольшим

кластером в одном из больших

кластеров. Двух других

центров кластеров почти не

видно. Это означает, что

алгоритм нечетких С-средних

не позволяет обнаружить

надлежащие кластеры для

этого множества данных.

В обоих случаях кластеры

хорошо разделены. Кластер в левом нижнем углу и

кластер в правом верхнем углу присутствуют в случае с 4 и 6 кластерами.

Это может свидетельствовать о том, что точки в этих кластерах

представляют клиентов, у которых имеются отличия от других клиентов МТС по нескольким полям.

Page 26: phd thesis presentation

Completed

3. Визуализация нечеткого алгоритма кластеризации Гаф-Гева (GG)

Результат использования

алгоритма Гаф-Гева для с = 4

схож с результатом

применения алгоритма

Густафсона-Кесселя для с = 4

(предыдущий слайд).

Результат для с = 6 является

примечательным. В данном

случае появляются кластеры

в других кластерах.

Оценка оптимальности

показателей и индексов

кластеризации

Page 27: phd thesis presentation

Completed

1 - звонки по домашнему региону (средняя продолжительность вызова в секундах в день), 2 – звонки внутри сети (среднее количество

вызовов в день), 3 – звонки на стационарные телефоны (среднее количество вызовов в день), 4 – звонки на мобильные телефоны (%), 5 –

междугородний роуминг (средняя продолжительность вызова в секундах, в день), 6 – международный роуминг (средняя продолжительность

вызова в секундах, в день), 7 – объем SMS-трафика (измеряется в процентах, в день), 8 – объем MMS-трафика (измеряется в процентах, в

день), 9 – использование мобильного Интернета (измеряется в процентах, в день), 10 – использование мобильного контента (измеряется в

процентах, в день), 11 – продолжительность входящего вызова (средняя # в секундах в день), 12 - количество телефонных вызовов в день.

4. Построение профиля потребления по среднему значению по всем линиям

(эквивалент центра кластера, c = 6)

Профили центров кластеров для с = 6

(алгоритм кластеризации Густафсон-Кессель).

Результаты кластеризации по 12-ти нормированным

значениям характеристик клиентов для двух

алгоритмов кластеризации.

1 2

3 4

5 6

Числовые характеристики показателей

Page 28: phd thesis presentation

Completed

Модель на основе

бизнес-правил

Page 29: phd thesis presentation

Completed

Примеры вложенных потоков бизнес-правил и их выполнение в Visual Rules Modeler

(модель Telecom Project 1)

«Сluster's attachment» - формализация через правила принадлежности клиента к кластеру и отслеживание его

динамического изменения и движения

«Age» - формализация показателя «возраст клиента»

набор БП: Business Rules

IF Cluster’s_attachment = 1 THEN set

client_profile = «1», set description =

«max_cons=sms, max_ cons=mms,

PID = inside_calls»;

IF Age = «<25» AND

Cluster’s_attachment = 1

THEN

set status = «student», set description

= «max_cons=sms, max_ cons=mms,

PID = inside_calls».

набор БП: Business Rules

IF Cluster’s_attachment = 3 THEN set

client_profile = «3»;

IF Age = «25-40» AND

Cluster’s_attachment = 3 THEN set

status = «middle_age», set description

=«average_consumption»

ELSE

IF Age = «>50» AND

Cluster’s_attachment = 4

THEN

set status = «old», set description =

«low_consumption».

Page 30: phd thesis presentation

Completed

Для экспериментальной проверки было разработано 120 записей с данными условных потребителей телекоммуникационных

услуг. Данные вводятся через СУБД dbForge (MySQL).

В исследовании разработано 100 вариаций правил в рамках модели ГПП (на языке программирования Rule Language),

обработано, выполнено и протестировано 7 вложенных потоков правил.

Работа с тестовыми результатами и получение рекомендаций для клиентов

Тестовые данные клиентов

Поля БД с результатами

исполнения правил

Структура авторской БД

Тестирование правил

Page 31: phd thesis presentation

Completed

Оценка эффективности использования и внедрения авторских разработок в рамках

деятельности телекоммуникационного предприятия РФ.

• Внедрение основных научных результатов было произведено в телекоммуникационную компанию ОАО

«Основа Телеком», что отражено в заключении комиссии ООО «АйКомИнвест», а также в части

маркетинговых предложений для консалтинговой компании ООО «Бизнес Аналитические Системы»

(БАС), что также отражено в соответствующих документах о внедрении.

• В таблице указываются основные ключевые показатели эффективности и укрупненно показана

предполагаемая эффективность внедрения авторских разработок на вышеназванных предприятиях.