ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. ·...

18
وان عن تکن ی کها ی داده کاوی دریل تحل داده ها ی زمانی سری و پیشنی بیData Minning Techniques in Time Series Data Analysis and Forecasting

Transcript of ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. ·...

Page 1: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

عنوان بینیو پیش سری زمانی یهادادهتحلیل در کاوی داده یکهایتکن

Data Minning Techniques in Time Series Data Analysis and Forecasting

Page 2: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

چكيده

أ

چکیده

های در بسياری از کاربردهای واقعی، مقدار مشاهدات یک متغير وابسته به مقدار آن متغيرهای در زمان

های مختلفی با استفاده از ها با عنوان سری زمانی مطرح هستند که پژوهشقبل است. اینگونه داده

بندی انواع به دسته جااین اند. درها پرداختهاینگونه دادهبينی و تحليل در کاوی به پيشهای دادهتكنيک

ایم.سری زمانی، کاربردها، انواع مسایل سری زمانی و نحوه حل آنها پرداخته

های کلیدی: واژه

شبکه عصبی ، بینی، رگرسیونسری زمانی، الگوی فصلی، الگوی افقی، الگوی متمایل، پیش

.پذیر، رگرسیون بردار پشتیبانبازگشت

Page 3: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فهرست عناوین

ب

صفحه عناوینفهرست

1 ......................................................................................................................................... مقدمه 1

2 ....................................................................................................................................................یزمان یسر فیتعر 1.1

2 ................................................................................................... ماهانه تصادفات در هامرگ تعداد: یزمان یسر مثال 1.1.1

3 ....................................................................................................................................... یزمان یسر یالگوها انواع 1.2

6 ........................................................................................................................................ کاربردها و موضوع تياهم 1.3

6 ....................................................................................................................................................................... هاچالش 1.4

7 ........................................................... یزمان یسر یهاداده لیتحل در یکاوداده یهاکیتکن 2

8 .................................................................................... آنها در موجود یهاروش و یزمان یسر در لیمسا انواع 2.1

8 ................................................................................................................................................... یزمان یسر نوع صيتشخ 2.1.1

9 ................................................................................................................................ یزمان یهایسر ینيبشيپ و ليتحل 2.1.2

11 ........................................................................................................................... مراجع و منابع 3

Page 4: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فهرست اشكال

ج

صفحه فهرست اشکال

3 ....................................................................... 1998-1993 یهاسال در ماهانه تصادفات در هامرگ تعداد 1-1 شكل

4 ................................................................................................. نیبنز فروش نمودار. یافق یالگو کی از یمثال 2-1 شكل

5 .....................................................................2111 تا 1961 یهاسال نيب در Arab منطقه یدما حداکثر 3-1 شكل

11 ............................................................................................................................... جردن و المن یعصب شبكه 1-2 شكل

Page 5: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فصل اول: مقدمه

1

1

مقدمه

Page 6: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فصل اول: مقدمه

2

مقدمه

های زمانی به کار رفته بينی سریتحيل و پيشهایی است که برای بررسی روشهدف ژوهشپ نیا در

پردازیم.ها میکاربردها و چالش انواع سری زمانی بر اساس الگو، است. در این فصل به تعریف مساله،

سری زمانیتعریف 1.1

باشد که هرکدام از این مشاهدات در زمان می 𝑥𝑡ای از مشاهدات به صورت یک سری زمانی مجموعه

انجام شده است. در صورتی که فاصله زمانی مشاهدات مساوی باشد به آن سری زمانی 𝑡مشخص

گویند.ه آن سری زمانی پيوسته میگسسته و در غير اینصورت ب

هایی است که هنوز اتفاق نيفتاده در زمان 𝑥بينی مقدار گاهی پيشهای زمانی بينی در سریهدف پيش

است. انواع مسایل سری زمانی و نحوه برخورد با آنها در فصل دوم توضيح داده شده است.

تصادفات ماهانهها در تعداد مرگمثال سری زمانی: 1.1.1

. همانطور که [1] دهددر آمریكا را نشان می 1998-1993های تصادفات ماهانه در سال 1-1شكل

در طول سال قابل مشاهده است و در اواسط هر سال 1فصلیکنيد یک الگوی تكرارشونده مشاهده می

یک پيک داریم.

1 Seasonal Pattern

Page 7: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فصل اول: مقدمه

3

1998-1993های ها در تصادفات ماهانه در سالتعداد مرگ 1-1شكل

های مرتبط با مشاهدات است. بينی سری زمانی در نظر گرفتن تمام ویژگییكی از نكات مهم در پيش

سازی در نظر ای در مدلونهبرای مثال در مثال قبل ماه یک متغير موثر در تصادفات است که باید به گ

و تكرار شونده دارد. فصلیدر واقع سری زمانی باال رفتار گرفته شود.

انواع الگوهای سری زمانی 1.2

[:2بندی کرد ]توان به صورت زیر دستهزمانی را می الگوی مشاهدات در یک سری

Page 8: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فصل اول: مقدمه

4

شكل دارد ) تصادفیات سانa: در این نوع الگو مشاهدات حول یک مقدار ميانگين نو2الگوی افقی .1

1-2.)

مثالی از یک الگوی افقی. نمودار فروش بنزین 2-1شكل

مقدار ميانگين واقعا تصادفی باشد بهترین مدل برای برخود با این در صورتی که نوسات حول یک

مشاهدات مدل کردن آنها به صورت یک توزیع گوسی با ميانگين و یک واریانس است که از روی

های پيچيده برای ای دارد که نيازی به مدلزنيم. در واقع این نوع الگو رفتار سادهمشاهدات تخمين می

يست.بينی در آنها نپيش

به باشند، بعضی از آنها اگرچه عموما شامل نوسانات تصادفی مییک سری زمانی : 3متمایلالگوی .2

باشند. این نوع رفتار را تر میصورت تدریجی متمایل به حرکت به سمت مقادیر باالتر یا پایين

2 Horizontal Pattern

3 Trend Pattern

Page 9: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فصل اول: مقدمه

5

افزایش یا کاهش همچون 4گویند. این نوع الگو متاثر از عوامل بلند مدتالگوی متمایل می

نوع سری ای از این باشد. نمونهکنندگان میتغيير تمایالت مصرفجمعيت، پيشرفت تكنولوژی،

.[1] بيندمی 3-1شكل در باشد رادمای یک منطقه میکه مربوط به را زمانی

2111تا 1961های در بين سال Arabحداکثر دمای منطقه 3-1شكل

های زمانی الگویی از مشاهدات به صورت وابسته به فصل )و یا در اینگونه سریالگوی فصلی: .3

شوند.هفته و ...( به صورت تناوبی تكرار می

تواند برای مثال ترکيبی از تمایل به سمت افزایش و یک الگوی سری زمانی میالگوهای ترکيبی: .4

فصلی باشد برای مثال ميزان تصادفات هم وابسته به فصل و هم افزایش تعداد وسایل نقليه

است.

4 Long Term

Page 10: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

فصل اول: مقدمه

6

و کاربردها اهمیت موضوع 1.1

يمت سهام، تعداد فروش کاال، قعيت آب و هوا، ضو بينیپيش همچون یواقع یاز کاربردها یاريدر بس

باشند. برای مثال یک واحد ای از زمان میبينی معدل دانشجویان و ... مشاهدات متغيرهای وابستهپيش

ریزی مناسبی انججام تواند در آن جهت برنامهبينی ميزان تقاضای کاال در هر دوره میتجاری با پيش

ها و بينیپيشتوان ر تغييرات معدل دانشجویان میتحليل یک سری زمانی همچون نمودابا دهد. گاهی

های مناسبی انجام داد. یكی دیگر از کاربردهای تحليل سری زمانی یافتن متغيرهای تاثيرگذار ریزیبرنامه

توانند معيارهای بسيار مهمی برای جلوگيری از در یک پدیده زیست محيطی مثل دمای هوا است که می

اند که دمای هوا در منطقه عرب [ نشان داده1طی شود. پژوهشگران در ]های مخرب زیست محيپدیده

بينی دوا توان برای پيش[ می1ارتباط بسيار زیادی با نوسانات اطلس شمالی دارد. از نتایج این پژوهش ]

و وضع هوا در این منظقه استفاده کرد.

هاچالش 1.4

معموال .در مجموعه داده آموزش است 5جاافتادهسری زمانی وجود مقادیر نهيزم درهای مطرح از چالش

یا وجود نداشته و یا اندازه گيری نشده است. 𝑥های زمانی به علت مشكالتی مقدار متغير در بعضی بازه

باید راهكاری برای حل این چالش ،برای اینكه مدل یادگير ما بتواند از اطالعات به خوبی استفاده کند

سازی است.های موثر در مدلدرنظر گرفتن تمام ویژگیها لشباشد. از دیگر چا داشته

5 Missing Value

Page 11: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

9

2

های سری زمانیکاوی در تحلیل دادههای دادهتکنیک

Page 12: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

8

های موجود در آنهاانواع مسایل در سری زمانی و روش 2.1

نوع مساله متداول در سری زمانی وجود دارد: دو

بندی سری زمانی(سری زمانی )دسته تشخيص نوع .1

های زمانیبينی سریتحليل و پيش .2

تشخیص نوع سری زمانی 2.1.1

دنباله "های سری زمانی است. در این نوع مسایل بندی نوع الگوی دادهدر این نوع مساله هدف دسته

له این مساشود. بندی میورودی مدل نهایی است که به یكی از دسته های مورد نظر دسته "سری زمانی

برای مثال [. 5، 4کار شده است ] "6تشخيص الگوی چارت کنترل"ها با عنوان در اکثر پژوهش

الگوهای چارت کنترل را براساس الگوی موجود در SOM[ با استفاده از شبكه عصبی 4پژوهشگران در ]

Syntheticتوان به های در این زمينه میمجموعه دادهاز اند.کردهدسته تقسيم بندی 6آنها به

9Control Chart Time Series Data Set دسته 6لگو از ا 611مجموعه داده شامل اشاره کرد. این

باشد.زیر می

1. Normal

2. Cyclic

3. Increasing trend

6 Control-Chart Pattern-Recognition

7 https://archive.ics.uci.edu/ml/datasets/Synthetic+Control+Chart+Time+Series

Page 13: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

9

4. Decreasing trend

5. Upward shift

6. Downward shift

ها یک دنباله هرکدام از داده

توان به های چارت کنترلی میبندی دادهدسته های جدید برایکاوی موجود در پژوهشهای دادهاز روش

[ اشاره کرد.8] های استنتاج نروفازیسيستم[ و 7های عصبی ][، شبكه6دار ]بردار پشتيبان وزن ماشين

های زمانیسریبینی و پیشتحلیل 2.1.2

بينی مشاهده بعدی در دنباله مشاهدات سری زمانی است. هدف پيشبينی سری زمانی، پيشدر مسایل

است که اختالف مقدار واقعی با 8معيار ارزیابی که در این مسایل کاربرد دارد معيار ميانگين مربعات خطا

( AR) 9اتو رگرسيون های مختلف رگرسيون و[. از مدل2کند ]گيری میبينی شده را اندازهمقدار پيش

شود. تفاوت رگرسيون در مسایل سری زمانی این است که بينی کننده استفاده میبه منظور مدل پيش

کنيم. در مسایل رگرسيون های قبل استفاده میبينی مشاهدات از مقدار مشاهدات در زمانبرای پيش

است. xبرحسب ورودی yبينی متغير وابسته معمولی هدف پيش

اصلی در رگرسيون سری زمانی این است که مشاهدات با نقاط قبل از خود همبستگی دارند و فرض

هدف تخمين این خود همبستگی است. هدف از رگرسيون تخمين تابعی است که زمان را به عنوان یک

8 Mean Square Error

9 Auto Regression

Page 14: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

11

فرض توان زند. انواع توابع خطی، مكعبی و ... را میمتغير مستقل دریافت و مقدار مشاهده را تخمين می

[.2کرد ]

های سری زمانی به کار برد. در مورد توان برای دادهدو نوع مدل رگرسيون محلی و سراسری را می

[ 9پژوهشگران در ]دهيم. ينی آموزش میبرگرسيون محلی مدل رگرسيون را به صورت محلی برای پيش

اند.دنظر قرار دادههای زمانی مالی مبينی سریمدل رگرسيون بردار پشتيبان محلی را برای پيش

بينی بهتر یافتن متغيرهای وابسته به یک مشاهده سری زمانی نيز یكی از رویكردهای مهم در زمينه پيش

عالوه بر اینكه مقدار متغير مشاهده شده را در یک . در بسياری از کاربردها یک متغير سری زمانی است

در دسترس است. برای مثال در پيش بينی معدل دنباله زمانی داریم تعدادی ویژگی نيز از زمان جاری

هایی هم چون تعداد واحد عمومی اخذ های ترم قبل، ویژگیترم جاری یک دانشجو عالوه بر دنباله معدل

های هر ترم را داریم که شده، تعداد واحد تخصصی اخذ شده، تعداد کل واحدها و ... به عنوان ویژگی

برای مثال ها و هم دنباله تغييرات را در نظر بگيرید.هم ویژگی ای باشد کهسازی باید به گونهمدل

های آن لحظه در نظر ای به مقادیر قبلی و ویژگیرا وابسته 𝑦𝑡بينی یعنی [ متغير پيش9پژوهشگران در ]

گرفته اند.

Page 15: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

11

بينی متغيرهای سری زمانی استفاده شده به شدت در زمينه پيش 11های شبكه عصبی بازگشتیاز مدل

های مطرح در این جردن از روش-چون المن، جردن و المنهای شبكه عصبی بازگشتی هماست. روش

با های دیگر در کنار ویژگیها خروجی شبكه )متغير سری زمانی( در این مدل .[11] باشندزمينه می

شكل زیر یک شبكه عصبی جردن را نشان شود.بكه عصبی وارد میتاخيرهای مختلف به ورودی ش

متغيرهای خروجی با تاخير به عنوان در مدل جردن شود مشاهده می 1-2شكل که در دهد. همانطور می

.های وضعيت جاری()در کنار ویژگی شودورودی به شبكه داده می

و جردن المن عصبی شبكه 1-2شكل

توان به های زمانی استفاده شده است میبينی سریهای داده کاوی که در زمينه پيشاز دیگر تكنيک

[ از درخت تصميم برای 11[. پژوهشگران در ]11الگوریتم ژنتيک و درخت تصميم نيز اشاره کرد ]

اند. در واقع آنها از بينی استفاده کردههای قبلی و انتخاب بهترین متد پيشیادگيری الگوها در داده

اند.استفاده کرده های سری زمانیبر اساس ویژگی بينیدرخت تصميم برای انتخاب بهترین متد پيش

10 Recurrent Neural Networks

Page 16: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

12

Page 17: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

13

مراجعمنابع و 1

:مقاالت اصلی

[1] Brockwell, Peter J., and Richard A. Davis. Introduction to time series and

forecasting. Springer Science & Business Media, 2006.

[2] Time Series Analysis and Forecasting Chapter 15.

[3] Donat, M. G., T. C. Peterson, M. Brunet, A. D. King, M. Almazroui, R. K.

Kolli, Djamel Boucherf et al. "Changes in extreme temperature and

precipitation in the Arab region: long‐term trends and variability related to

ENSO and NAO."International Journal of Climatology 34, no. 3 (2014):

581-592.

[4] Pham, D. T., and A. B. Chan. "Control chart pattern recognition using a new type

of self-organizing neural network." Proceedings of the Institution of Mechanical

Engineers, Part I: Journal of Systems and Control Engineering 212, no. 2 (1998):

115-127.

[5] Hachicha, Wafik, and Ahmed Ghorbel. "A survey of control-chart pattern-

recognition literature (1991–2010) based on a new conceptual classification

scheme." Computers & Industrial Engineering 63, no. 1 (2012): 204-222.

[6] Xanthopoulos, Petros, and Talayeh Razzaghi. "A weighted support vector

machine method for control chart pattern recognition." Computers &

Industrial Engineering 70 (2014): 134-149.

[7] El Farissi, O., A. Moudden, and S. Benkachcha. "Using Artificial Neural

Networks for Recognition of Control Chart Pattern." International Journal

of Computer Applications 116, no. 3 (2015).

[8] Nikpey, Abdolhakim, Somayeh Mirzaei, Masoud Pourmandi, and Jalil

Addeh. "Identification of the Control Chart Patterns Using the Optimized

Page 18: ناونع - AIcodeaicode.ir/projectsfree/data-minning-techniques-time... · 2016. 1. 13. · هديكچ أ هدیکچ یاهنامز ر یاهريغتم نآ رادقم هب هتسباو

14

Adaptive Neuro-Fuzzy Inference System." International Journal of Modern

Education and Computer Science (IJMECS) 6, no. 7 (2014): 16.

[9] Jiang, Hui, and Wenwu He. "Grey relational grade in local support vector

regression for financial time series prediction." Expert Systems with

Applications 39, no. 3 (2012): 2256-2262.

[10] Li, Penghua, Yinguo Li, Qingyu Xiong, Yi Chai, and Yi Zhang.

"Application of a hybrid quantized Elman neural network in short-term load

forecasting."International Journal of Electrical Power & Energy Systems 55

(2014): 749-759.

[11] Gerdes, Mike. "Decision trees and genetic algorithms for condition

monitoring forecasting of aircraft air conditioning." Expert systems with

applications 40, no. 12 (2013): 5021-5026.