اصول و مباني تحليل لاگ يا فايل هاي گزارش وب

93
ا لاگ ي ل ي ل ح ت ي ن ا ي مل و و ص ا وب ارش ز گ ل هاي ي ا ف ي ل ما ج ا د رض ي م ج+ ران ه ت م عل م ت ي6 ب ر ت گاه ش نر دا ا ادي ي س اA داک راي ت ا عاب لا ط ل ا ي ل ح ت و ي جH ن س م عل کده ش ه و رM ت س يP ي ر28/3/88 + ران ت ي ا نع رسا لا ط داري و ا اي ي ک+ ن م ج ت ا

description

اصول و مباني تحليل لاگ يا فايل هاي گزارش وب. حميد رضا جمالي استاديار دانشگاه تربيت معلم تهران رئيس پژوهشکده علم سنجي و تحليل اطلاعات ايرانداک 28/3/88 انجمن کتابداری و اطلاع رسانی ایران. برنامه کارگاه. ابزارهاي تحليل لاگ نمونه ها و قالب هاي لاگ اجزاء تشکيل دهنده متريک هاي پايه - PowerPoint PPT Presentation

Transcript of اصول و مباني تحليل لاگ يا فايل هاي گزارش وب

Page 1: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

اصول و مباني تحليل الگ يا

فايل هاي گزارش وب

حميد رضا جمالياستاديار دانشگاه تربيت معلم تهران

رئيس پژوهشکده علم سنجي و تحليل اطالعات ايرانداک انجمن کتابداری و اطالع رسانی ایران28/3/88

Page 2: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

برنامه کارگاه

ابزارهاي تحليل الگ•نمونه ها و قالب هاي الگ•اجزاء تشکيل دهنده •متريک هاي پايه•مشکالت متريکها•متريکهاي پيشرفته•نتيجه•

Page 3: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

پيشينه

تمرکز روي ارزيابي کارکرد 70-60دهه •سيستمها

ظهور فهرستهاي آنالين 80 تا اواسط 70دهه •با تاکيد بر استفاده و نيز استفاده کننده

، افزاي تنوع در کاربرد تحليل الگ80دهه • به بعد، تحليل وب الگ90دهه •

Page 4: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

مفاهيم(: رايانه اي که يک درخواست از آن ارسال clientکاربر )

مي شود

(: درخواست رايانه يک کاربر براي requestدرخواست )اطالعات

(: رايانه اي که اطالعات را ارسال مي serverسرور )کند

(: يک server transaction logsالگهاي تراکنشي سرور )رکورد از فايلهاي ارسال شده به کاربر توسط سرور

در پاسخ به درخواست رسيده

Page 5: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

ابزارهاي تحليل الگ

خودتان يک برنامه بنويسيد• spss يک نرم افزار آماري استفاده کنيد•يکي از نرم افزارهاي تجاري تحليل الگ را •

استفاده کنيد

Page 6: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

فرمت يا قالب الگ

فرمت معمولي يا رايج•

فرمت معمولي بسط يافته•

فرمت ترکيبي•

فرمت تغيير يافته•

Page 7: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

فيلدهاي فرمت معمولي

• Remote hostname.

• Date

• Request

• Status

• Bytes

Page 8: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

نمونه فرمت معمولي

129.22.7.22 - - [30/May/2005:23:30:00 -0700] "GET /cgi/content/full/30/3/667 HTTP/1.1" 200 144369

Page 9: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

فرمت معمولي بسط يافته

همان فيلدهاي فرمت معمولي بعالوه موارد زير

Referrer - URL which linked user to site

User agent fields – visitor’s browser

Page 10: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

نمونه فرمت معمولي بسط يافته

129.22.7.22 - - [31/May/2004:00:06:39 -0400] "GET /cgi-bin/sciserv.pl?collection=journals&journal=02663538&issue=v61i0006&article=889_tdpogerdp&form=pdf&file=file.pdf HTTP/1.1" 302 5 "Mozilla/4.0 )compatible; MSIE 6.0; Windows 98; .NET CLR 1.1.4322(" "-"

Page 11: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

فيلدهاي فرمت ترکيبي

فيلدهاي فرمت معمولي بعالوه موارد زير

referral fieldUser agent fieldcookie field

Page 12: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

نمونه فرمت ترکيبي

• 216.37.138.189 - - [19/May/2005:23:52:14 -0700] "GET /content/vol31/issue12/ HTTP/1.0" 200 35221 "http://www.e-poker-777.com/texas-hold-em-online.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; iOpus-I-M)" Qo2JHqtCeZkAAG-MQmI;edmob107j1.JS1

Page 13: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

فرمت تغيير يافته يا کاستيومايزد

133.1.155.60 143915 c4aaba66-7c6f-11d7-bb4a-8a0c593caa77 fc0f2bc6-b9e5-11d9-975c-8a0c5905aa77143915 05/01/05 02:09:01 C000011799 298788827 Main_Home_Page 1 y Subject_id 1

Page 14: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Intouchکيوسک

H 03-Nov-2003 Mon 15:48:39 0000 Female 1 under 15D 03-Nov-2003 Mon 15:48:40 0001 1###########################001#XXXD 03-Nov-2003 Mon 15:48:41 0002 #2##########################002#XXXD 03-Nov-2003 Mon 15:48:42 0003 #2-j########################003#XXXT 03-Nov-2003 Mon 15:48:45 0006E 03-Nov-2003 Mon 15:50:48 0129

Page 15: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

کيوسک وزارت بهداشت انگليس

2001-07-02 08:28:31 GET /images/moredown.gif 304 2794

2001-07-02 08:28:31 GET /images/print.gif 304 24942001-07-02 08:28:34 GET /images/moredown.gif 304

29842001-07-02 08:28:34 GET

/data/CorneliadeLangesyndrome.xml 304 29942001-07-02 08:28:34 GET /data/caf/c72.htm 304 160

Page 16: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

تلويزيون ديجيتال

194.117.134.147 - - [19/Jul/2001:01:02:51 +0000] 'GET http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation2.html HTTP/1.1' 200 0 'http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation.html' 'Mozilla/3.0 (Liberate DTV 1.)' '0050942188C9'

Page 17: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Remote Hostname Internet protocol (IP) Number

شماره آي پي: آدرسي که کامپيوترها را روي اينترنت •به هم متصل مي کند

گروه عدد که با نقطه از هم جدا شده 4متشکل از •اند

( مي توان Reverse DNS lookupبا استفاده از )•اطالعات بيشتري به دست آورد

گاهي آدرس زير شبکه را هم مي توان شناسايي کرد•

Page 18: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Reverse Domain Name Server Lookup

دي ان اس: يک سرويس ثبت و کسب شماره آي پي•• Reverse DNS lookup converts the IP number

into the DNS name this gives:

Name

Organisation Type

Academic, Commercial, Net provider

Country details

Page 19: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

DNS Convention

• US آمريکا .com, .edu, .net, .org, .arp

No country extension

• Rest بقيه دنيا .co, .ac, .net, .org,

Country extension - .uk, .cg, in, es, etc

Page 20: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

IP – DNS نمونه

128.16.11.103 ezrin.cs.ucl.ac.uk 128.139.23.52 dell-chem-lab2.agri.huji.ac.il 130.216.129.3 ivan.rupenthal.phmcy.auckland.ac.nz 138.47.102.171 tcad10.engr.LaTech.edu 138.37.56.83 Bio-083.bio.qmul.ac.uk 138.48.25.221 biocell-11.biocell.fundp.ac.be 69.138.67.42 pcp08332133pcs.kirkav01.md.comcast.net

Page 21: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

بعضي کشورها متفاوت هستند• France navier.xtec.polytechnique.fr • Netherlands bmb09.chem.vu.nl • Norway p01052.hig.no • Finland iodine.abo.fi

Page 22: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

تعداد آي پي کشورهادامنه نام کشور تعداد آي

پيUs USA 1,503,565,182

Cn China 204,898,752

Jp Japan 171,443,529

Uk United Kingdom

119,619,056

ir Iran 2,026,743

maxmind.comمنبع:

Page 23: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Date and Time Field

ساعت و زمان دانلود•

Page 24: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Request

اطالعات زير را ثبت ميکند• file name directory extension

يک صفحه شامل تعدادي فايل درخواست شده •است

Page 25: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

مثالها

/homehealthcareguide/Chickenpox.htm/output/full2.php?id=13881/images/hphysicspol.gif/images/flwp.gif/content/vol28/issue13/images/small/gkd40002.gif/cgi/content/full/32/11/e92/search/search.php?

keyword=how+many+people+speaks+english&type=or&go=go

Page 26: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

توزيع تقريبي

Ext File % of log lines.html HTML 30%.Gifs .JPG Graphics 64%.CSS Style sheets 4%.pl, .js etc. Other 2%

Page 27: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

status

يک کد سه رقمي که سرور در مورد درخواست •ثبت مي کند

• 2xx - Client's request was successfully

• 3xx - Further action need

• 4xx - Client Error

• 5xx - Server Error

Page 28: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

رايج ترين ها

• OK 200• No Response 204 • Bad request 400• Unauthorized 401 • PaymentRequired 402 • Forbidden 403 • Not found 404 • Internal Error 500 • Service temporarily overloaded 502

Page 29: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

200

301

302

304

404

503

100806040200

18

79

نمونه

Page 30: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

کدهايي که معموال بررسي مي شوند

• 200 OK

• 304 Not Modified

ديگر موارد که ارزش بررسي دارد• 403 Forbidden – attempted access to

pages requiring authorization

Page 31: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

user_agent

• Identity of Web browser and platform used by the visitor to your site

• ("Mozilla/4.05 [en] (WinNT; I)"

Page 32: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

referrer آدرس اينترنتي که کاربر را به سايت متصل مي کند

www.google.com/search?hl=en&lr=&q=agnes+b.+%2B++store+locations&btnG=Search"  

search.yahoo.com/search?p=royal+albert+hall+london&toggle=1&ei=UTF-8&pstart=1&fr=FP-tab-web-t&b=231"

www.e-poker-777.com/texas-hold-em-online.html

Page 33: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

OUP menusPubMedSearch engineOther

50

40

30

20

10

0

26

10

42

22

Referrer مثال

Page 34: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Cookies

مي HTTPکوکيها اطالعاتي هستند که سرور •تواند به همراه منبع درخواست شده به ماشين

کاربر ارسال کند

مرورگر کاربر ممکن است اين اطالعات را •� هنگام ارسال درخواستهاي ذخيره کند و متعاقبا

پس HTTPبعدي اطالعات آن را به سرور بفرستد

Page 35: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

متريک هاي پايه• Hits vs Page views• Use by DNS name, type and country• Time online• Pages viewed over time, by hour, by day• Pages viewed• Referrer • Searches

Page 36: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Hits vs Page views

الگ مشاهده صفحه را ثبت نمي کند. آنچه •ثبت مي شود فايلهايي است که توسط

کامپيوتر کاربر دانلود شده اند. به اينها هيت مي گويند

الگ تعداد زيادي خطوط مربوط به فايلهاي •مرتبط با تصاوير، سي اس اس و غيره

است که بخشهاي يک صفحه وب را تشکيل مي دهند

خطوط مربوط به تصاوير و سي اس اس و •برنامه ها و غيره بايد کنار گذاشته شوند و

آنچه مي ماند نمايانگر مشاهده صفحه است

Page 37: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Hits to Page views

Hits

Less graphic files etc. - 60 to 70%

Incl. Only 200/304 files

Exclude robots

======

Page views

Pages about 20% of original “hits” file

Page 38: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

1.7%

7.6%

50.1%

29.9%

2.2%

3.6%

2.3%

2.7%

Other

W Europe

US

UK

N-America

E Europe

Australia/Oceania

Asia

DNS – کشور

Page 39: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

.6%

.4%

28.9%

37.3%

32.8%

Non profit

Government

Net provider

Commercial

Academic DNS – نوع سازمان

Page 40: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

16000

14000

12000

10000

8000

6000

4000

2000

0

تاريخ استفاده

Page 41: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Sunday

Friday

Thursday

Wednesday

Tuesday

Monday

Sunday

20

15

10

5

0

9

14

16171716

10

روز استفاده

Page 42: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Menus

Search

Unclassified

Research

Health lifestyle exercise

Child Health

General

Pharmacy

Health

News

49

4.3

3.3

3.1

3.1

3.0

2.7

2.6

2.5

2.3

صفحات مشاهده شده بر اساس موضوع و نوع

Name %

Page 43: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

ArtcleAbstractContentIssue

60

50

40

30

20

10

0

26

49

17

8

صفحات مشاهده شده، دسته بندي بر اساس نوع محتوا

Page 44: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

29.06.200222.06.200215.06.200208.06.200201.06.2002

14000

12000

10000

8000

6000

4000

2000

0

Employee Relations

Int Jrnl of Public

Sector Management

استفاده از دو مجله امرالد

Page 45: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

متوسط زمان مشاهده يک صفحه بر حسب ثانيه

• Articles 111

• Abstract 35

• All 24

Page 46: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

RegisteredNot registered

100

90

80

70

60

50

40

30

20

10

0

Referrer

External link

OUP menus

Pubmed

Search engine

Other

2217

4025

25

40

1115

Referrer across user type

Page 47: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

چند کلمه زياد جستجو شدهhistoryWorldenglishAncientphilosophyromanvictorianwomenfind

Page 48: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

مشکالت متريکهاشناسايي کاربران مشکل است•شمارش کاربران دقيق نيست•شمارش صفحات منتقل شده دقيق •

نيستمحاسبه طول زمان مشاهده •

صفحه دقيق نيستاطالعات دي ان اس دقيق نيست•عنوان صفحه و مسير صفحه•معماري وب سايت تأثير دارد•

Page 49: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

شناسايي کاربران مشکل است

• Proxy IP numbers

• Floating IP numbers

• Sharing computers

• IP numbers are not a user metric

Page 50: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Proxy IP Numbers

• Proxy IP – a group of computers are routed through a single IP address

روي دقت و صحت تخمين تعداد کاربر تأثير •دارد و تعداد را کم نشان مي دهد

Page 51: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Floating IP Numbers

آي پي شناور: تعداد زيادي کاربر تعداد معدودي •شماره آي پي را با هم شريک مي شوند

باعث تخمين بيش از اندازه تعداد کاربران مي •شود چرا که يک کاربر ممکن است با چند آي

پي به يک سايت رجوع کند.

Page 52: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

کامپيوترهاي مشترک )مثل سايت دانشگاه(

باز کردن چند مرورگر يا چند پنجره•استفاده مشترک از يک رايانه•

Page 53: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

آي پي ها کاربران نيستند

شماره هاي آي پي نمايانگر اتصال هستند نه •کاربر

شماره هاي آي پي تخمين خوبي از کاربران •نيستند

Page 54: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

استفاده مکانيکيروباتها برنامه هايي هستند که صفحات وب •

را نمايه و مانيتور مي کنند• � در فعاليت سايت را مي 40 تا 30تقريبا

توان به روباتها نسبت داد

•RSS automatic feeds صفحات به صورت :خودکار خوانده و روزآمد مي شود و اين باعث تخمين بيش از اندازه و غير واقعي

استفاده مي شود

Page 55: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

روباتها چه هستند� موتورهاي جستجو• عموما Indy)دستگاه هاي ايميل جمع کن •

Library) براي کنترل نقض کپي رايت•براي پيدا کردن سرقت علمي و ادبي •

(SlySearch) و موارد ديگر )تحقيق....(•

Page 56: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

2005200420032002

100

90

80

70

60

50

40

30

20

10

0

Robot

Yes

No

2042

80

58

9898

استفاده روباتها

Page 57: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

چطور روباتها را شناسايي کنيم؟

• Declared robots (they report to robots.txt)• Robots with DNS name (e.g. googlebot)• List of undeclared robots

– robotstxt.org publishes a list or robots

• Identifying a robot through browser detail– E.g. inktomisearch used by Yahoo has the word

slurp in its browser details recorded in log file

• Through their behavioural traits

Page 58: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Cachingمرورگرها صفحات پيشتر بازديد شده را از •

حافظه رايانه خود مي خوانند ونه از سروراين باعث مي شود ميزان مشاهده صفحات •

کمتر از حد واقعي به نظر برسد•Fieber (1998) 55 تا 35 تخمين زده که بين

درصد بازديد صفحات از حافظه کش خوانده مي شوند

Page 59: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Repeat delivery of the page

When two requests are made for one and the same article within the same session

• Repeat delivery – PDF, HTML

• Repeat delivery by the server

• Overestimates use.

Page 60: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

128.32.173.xxx 10-MAR-2003 13:55:34.00 full 31 4 e15 128.32.173.xxx 10-MAR-2003 13:56:06.00 reprint 31 4 e15 128.32.173.xxx 10-MAR-2003 13:56:09.00 reprint 31 4 e15 128.32.173.xxx 10-MAR-2003 13:56:10.00 reprint 31 4 e15

Page 61: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

محاسبه طول زمان مشاهده صفحه دقيق نيست

بر اساس زمان ميان درخواست دو صفحه •متوالي محاسبه مي شود

صفحه آخر معموال محاسبه نمي شود •)امکانش نيست(

اگر صفحه اي کش شده باشد يا چند •مرورگر باز باشد رو اين متريک تأثير دارد

Page 62: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

DNS اطالعات دي ان اس دقيقنيست

کاربران مجبور نيستند در کشوري که در آن •قرار دارند ثبت شوند يا نوع ثبت آنها لزوما

دقيق نيست که يک سازمان Btinternet.comمثل شرکت •

انگليسي فراهم کننده شبکه و واقع در بريتانياست اما در آمريکا به عنوان يک کمپاني

تجاري ثبت شده است

Page 63: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

عنوان صفحه و مسير صفحه

به طراحان سايت بستگي دارد. اسم •صفحه و دايرکتوري مي تواند معني

خاصي نداشته باشدکش يا حافظه درک ما را از تحليل •

مسير محدود مي کند

Page 64: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

معماري سايتسه الگو

• Multiple page-to-screen: a number of information pages are stored on a single download.

• Page-to-screen unity. each download is a single information page.

• Divided page-to-screen: users’ view a number of downloads to view a single information page.

Page 65: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

2معماري سايت

معماري سايت روي آمار استفاده تأثير دارد•مقايسه سايت ها مشکل است مگر اينکه •

داراي معماري مشابه باشند و نحوه سنجش به خوبي تعريف شده باشد

Page 66: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

ويژگيهاي يک متريک خوب

تکرار پذيري دقت متريک مقايسه پذيري

Use Poor OK Limited

User Poor OK Limited

DNS Poor OK OK

Time OK OK OK

File name OK OK Poor

Page 67: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

قابليت هاي الگمثل تلويزيون مدار بسته – مانيتورينگ •

مداومگردآوري خودکار آنچه که کاربر واقعا انجام •

مي دهد نه آنچه که مي گويد انجام مي دهدنيازي به نمونه گيري نيست و کل جامعه را •

بررسي مي کند نه نمونه راتعداد بسيار باال در نتيجه اعتبار زياد•مي تواند به همراه پرسشنامه و تحقيق •

کيفي به کار رود

Page 68: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

متريک هاي پيشرفته Sessionsتخمين نشستها • siteتخمين ميزان نفوذ در سايت•

penetration يعني دسته بندي کاربران بر اساس اينکه در هر نشست چند صفحه

مشاهده کرده اندکاربران تکراري يا رجوع کنندگان •

(returnees تخمين تعداد دفعات رجوع يک )کاربر به سايت

تحليل خرد: تحليل استفاده يک يا چند آي پي •يا يک گروه خاص

Page 69: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Sessions نشستهاالگها ابتدا و انتهاي يک نشست را

معموال ثبت نمي کننداگر طول نشست را کوتاه بگيريد

ممکن است به خطا چند نشست را يکي فرض کنيد

اگرطول نشست را بلند بگيريد ممکن است يک نشست را به چند نشست

خرد کنيد

Page 70: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

محاسبه دقيق نشست: مشکلي که هنوز حل نشده

• Sessionization or session heuristics or session identification– Proactive approaches– Reactive approaches

Page 71: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Proactive approaches

• Using cookies– Users can turn off cookies

• Using session identification mechanism– (time out, broken connection..)

Page 72: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Reactive approaches

• Time oriented heuristics– E.g. after 15 minutes of inactivity

• Navigation oriented heuristics– Certain type of navigation

• The most common: cut-off time

Page 73: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

تخمين نفوذ در سايت

گروه بندي تعداد صفحات مشاهده شده در يک •نشست

آنها که صفحات کمتري در يک نشست •مشاهده مي کنند نفوذ کمتري داشته اند

دقيقا درست نيست چرا که موتورهاي جستجو •شما را دقيقا به صفحه اي مي برند که احتياج

داريد

Page 74: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

LibrarySearch engineOther

100

90

80

70

60

50

40

30

20

10

0

Requests in session

Over 21

11 to 20

4 to 10

1 to 3

7

105

40

16

27

42

82

64

Requests in a session by referrer

Page 75: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

visitsتعداد بازديدها

يک کاربر هر چند وقت يک بار به سايت بر •ميگردد

شاخصي از وفاداري کاربر به سايت است•

متکي بر شناسايي کاربر است•

Page 76: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

11 Mar - 31 Mar18 Feb - 10 Mar1 Jan - 17 Feb

30

20

10

0

User type

Returnee period 2

Returnee period 1

New user

6

10

5

9

24

تعدا بازديدها طي سه دوره

Page 77: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

ProxyOther

100

90

80

70

60

50

40

30

20

10

0

Number of visits

6 or more

3 to 5

Twice

Once

447

16

10

10

11

30

72

نوع کاربر بر حسب تعداد بازديد

Page 78: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

site stickinessچسبندگي سايت

ميزان زمان سپري شده روي يک سايت در يک •دوره مشخص

گاهي برحسب تعداد بازديد است )رجوع •کنندگان(

گاهي بر حسب ميزان زمان سپري شده در •سايت در هر نشست

استbouncingيک مفهموم متضاد آن •

Page 79: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Micro Analysisتحليل خرد

تحليل استفاده توسط يک يا دو شماره آي پي•تحليل استفاده توسط يک زيرگروه•تحليل استفاد توسط يک زيرشبکه•

Page 80: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Session Date and how connected

Pages viewed Time page delivered

Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+95) 

15-OCT-2001

pregnancyandparenthood 13:01:39

Mozilla/4.0+(compatible;+MSIE+5.01;+Windows+95)

22-OCT-2001

indexsearchcoughsmedicinecablisttitlesbycategorsearchindexhomehealthcareguideresearch

10:20:5410:21:5310:22:0210:22:3610:23:0910:26:2510:29:2910:29:5410:32:31

Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+95)

07-DEC-2001

IndexPrescriptiondrugsguideemc_framesetsearchresult

15:42:1315:43:3315:43:5215:47:10

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+.NET+CLR+1.0.3705)

www.google.co.uk 20-MAY-2002

news_9.06.00 14:26:53

Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0)

www.google.co.uk 09-JUL-2002

TravelhealthFitfortrav_frameset

12:15:5912:16:14

Page 81: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

freeneteasynetdemonclaranetbtinternetAOL

%100

90

80

70

60

50

40

30

20

10

0

VISITS

Over 15

6 to 15

2 to 5

once

7

11

333518

119

6765

80

8991

79

Visits across net provider

Page 82: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

DNS Subnetwork analysis

• Explores the labels given to a network of computers

• chemc245.chem.ucl.ac.uk

• Guestemate name: chemistry, chemical engineering or no meaning

Page 83: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

15.4%

3.5%

45.0%

12.8%

5.4%

2.1%

11.6%

4.2%

Other

Sociology and Social

Psychology and Psych

Neurology and Neurop

Medical Specialties

Language and Literat

Internal Medicine

General Medicine

Psychology subnet viewing

Page 84: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

اضافه کردن پرسشنامه به الگ

الگ حاوي آي پي و کوکي است•

پرسشنامه نيز مي تواند آي پي و کوکي را ثبت •کند

اين رو را مي توان به هم پيوند داد•

Page 85: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

MaleFemale

100

90

80

70

60

50

40

30

20

10

0

No. of visits

over 15

6 to 15

2 to 5

Once

2025

15

17

23

24

42

34

بازديد بر اساس جنسيت

Page 86: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

نحوه دسترسي در مقابل نظر کاربر در مورد اينکه“تحقيق در يک حوزه جديد سخت است”

Journal issueSearchGateway

100

90

80

70

60

50

40

30

20

10

0

New area research

Strongly agree

Agree

Neither agree nor

disagree

Disagree

Strongly disagree

9416

36

22

36

23

11

17

27

60

25

45

Page 87: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

رفتارگرايي

تمرکز روي آنچه که مشاهده گر ميتواند ببيند•پرداختن به سئواالتي نظير •

• who (actors), • what (behaviors)• when (temporal)• where (contexts)• why (cognitive)

Page 88: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

تمرکز اصلي الگ در رفتارگرايي

چه رفتاري بروز کرده است•الگ به ما کمک مي کند سئوال درستي در •

تحقيق از کاربر بپرسيم: مثال کيوسک بهداشت انگليس

Page 89: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

نتيجهالگها براي ثبت تراکنشها روي سرور ابداع •

شدند و نه به عنوان ابزار تحليل رفتار کاربران

تنها تعداد معدودي متغير ثبت مي شود مثل •آي پي زمان تاريخ ...

اين متغيرهاي خيلي دقيق و نيستند، •محاسبه ميزان استفاده پيچيده است،

رباتها، حافظه کش، آي پي ها، معماري سايت و موارد ديگر از دقت متريک ها مي

کاهند

Page 90: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

نتيجه

الگها مثل تلويزيون مدار بسته وقايع •حقيقي را با هزينه کم و حجم باال ثبت مي

کنند و نمي توان آنها را ناديده گرفتجزئيات ثبت شده در الگها بسيار چشمگير •

هستندالگ را مي توان با داده هاي ديگر غني کرد•الگها سئواالت مهمي طرح مي کنند و •

پيش فرضها را به چالش مي گيرند

Page 91: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

•SurfStats Log Analyzer•webtrends•www.IndexTools.com (estimates Bounce rate)•www.DeepMetrix.com•Deep Log Analyzer•AlterWind Log Analyzer Professional•Geo Log Analyzer•Azure Web Log•FastStats Analyzer Free•Web Log Storming•WebLog Expert 3.5•Nihuo Web Log Analyzer•Web Log Explorer•10-Strike Log-Analyzer 1.31•AlterWind LogAnalyzer 1.3•eWebLog Analyzer 2.03•Web Log Suite•ClickTracks Analyzer

Page 92: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Web Log Explorer Log Analyzer

Page 93: اصول و مباني تحليل لاگ يا  فايل هاي گزارش وب

Deep Log Analyzer