اصول و مباني تحليل لاگ يا فايل هاي گزارش وب
description
Transcript of اصول و مباني تحليل لاگ يا فايل هاي گزارش وب
اصول و مباني تحليل الگ يا
فايل هاي گزارش وب
حميد رضا جمالياستاديار دانشگاه تربيت معلم تهران
رئيس پژوهشکده علم سنجي و تحليل اطالعات ايرانداک انجمن کتابداری و اطالع رسانی ایران28/3/88
برنامه کارگاه
ابزارهاي تحليل الگ•نمونه ها و قالب هاي الگ•اجزاء تشکيل دهنده •متريک هاي پايه•مشکالت متريکها•متريکهاي پيشرفته•نتيجه•
پيشينه
تمرکز روي ارزيابي کارکرد 70-60دهه •سيستمها
ظهور فهرستهاي آنالين 80 تا اواسط 70دهه •با تاکيد بر استفاده و نيز استفاده کننده
، افزاي تنوع در کاربرد تحليل الگ80دهه • به بعد، تحليل وب الگ90دهه •
مفاهيم(: رايانه اي که يک درخواست از آن ارسال clientکاربر )
مي شود
(: درخواست رايانه يک کاربر براي requestدرخواست )اطالعات
(: رايانه اي که اطالعات را ارسال مي serverسرور )کند
(: يک server transaction logsالگهاي تراکنشي سرور )رکورد از فايلهاي ارسال شده به کاربر توسط سرور
در پاسخ به درخواست رسيده
ابزارهاي تحليل الگ
خودتان يک برنامه بنويسيد• spss يک نرم افزار آماري استفاده کنيد•يکي از نرم افزارهاي تجاري تحليل الگ را •
استفاده کنيد
فرمت يا قالب الگ
فرمت معمولي يا رايج•
فرمت معمولي بسط يافته•
فرمت ترکيبي•
فرمت تغيير يافته•
فيلدهاي فرمت معمولي
• Remote hostname.
• Date
• Request
• Status
• Bytes
نمونه فرمت معمولي
129.22.7.22 - - [30/May/2005:23:30:00 -0700] "GET /cgi/content/full/30/3/667 HTTP/1.1" 200 144369
فرمت معمولي بسط يافته
همان فيلدهاي فرمت معمولي بعالوه موارد زير
Referrer - URL which linked user to site
User agent fields – visitor’s browser
نمونه فرمت معمولي بسط يافته
129.22.7.22 - - [31/May/2004:00:06:39 -0400] "GET /cgi-bin/sciserv.pl?collection=journals&journal=02663538&issue=v61i0006&article=889_tdpogerdp&form=pdf&file=file.pdf HTTP/1.1" 302 5 "Mozilla/4.0 )compatible; MSIE 6.0; Windows 98; .NET CLR 1.1.4322(" "-"
فيلدهاي فرمت ترکيبي
فيلدهاي فرمت معمولي بعالوه موارد زير
referral fieldUser agent fieldcookie field
نمونه فرمت ترکيبي
• 216.37.138.189 - - [19/May/2005:23:52:14 -0700] "GET /content/vol31/issue12/ HTTP/1.0" 200 35221 "http://www.e-poker-777.com/texas-hold-em-online.html" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; iOpus-I-M)" Qo2JHqtCeZkAAG-MQmI;edmob107j1.JS1
فرمت تغيير يافته يا کاستيومايزد
133.1.155.60 143915 c4aaba66-7c6f-11d7-bb4a-8a0c593caa77 fc0f2bc6-b9e5-11d9-975c-8a0c5905aa77143915 05/01/05 02:09:01 C000011799 298788827 Main_Home_Page 1 y Subject_id 1
Intouchکيوسک
H 03-Nov-2003 Mon 15:48:39 0000 Female 1 under 15D 03-Nov-2003 Mon 15:48:40 0001 1###########################001#XXXD 03-Nov-2003 Mon 15:48:41 0002 #2##########################002#XXXD 03-Nov-2003 Mon 15:48:42 0003 #2-j########################003#XXXT 03-Nov-2003 Mon 15:48:45 0006E 03-Nov-2003 Mon 15:50:48 0129
کيوسک وزارت بهداشت انگليس
2001-07-02 08:28:31 GET /images/moredown.gif 304 2794
2001-07-02 08:28:31 GET /images/print.gif 304 24942001-07-02 08:28:34 GET /images/moredown.gif 304
29842001-07-02 08:28:34 GET
/data/CorneliadeLangesyndrome.xml 304 29942001-07-02 08:28:34 GET /data/caf/c72.htm 304 160
تلويزيون ديجيتال
194.117.134.147 - - [19/Jul/2001:01:02:51 +0000] 'GET http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation2.html HTTP/1.1' 200 0 'http://62.30.31.74/IllnessandTreatment/IT02ac02AppendicectomyOperation.html' 'Mozilla/3.0 (Liberate DTV 1.)' '0050942188C9'
Remote Hostname Internet protocol (IP) Number
شماره آي پي: آدرسي که کامپيوترها را روي اينترنت •به هم متصل مي کند
گروه عدد که با نقطه از هم جدا شده 4متشکل از •اند
( مي توان Reverse DNS lookupبا استفاده از )•اطالعات بيشتري به دست آورد
گاهي آدرس زير شبکه را هم مي توان شناسايي کرد•
Reverse Domain Name Server Lookup
دي ان اس: يک سرويس ثبت و کسب شماره آي پي•• Reverse DNS lookup converts the IP number
into the DNS name this gives:
Name
Organisation Type
Academic, Commercial, Net provider
Country details
DNS Convention
• US آمريکا .com, .edu, .net, .org, .arp
No country extension
• Rest بقيه دنيا .co, .ac, .net, .org,
Country extension - .uk, .cg, in, es, etc
IP – DNS نمونه
128.16.11.103 ezrin.cs.ucl.ac.uk 128.139.23.52 dell-chem-lab2.agri.huji.ac.il 130.216.129.3 ivan.rupenthal.phmcy.auckland.ac.nz 138.47.102.171 tcad10.engr.LaTech.edu 138.37.56.83 Bio-083.bio.qmul.ac.uk 138.48.25.221 biocell-11.biocell.fundp.ac.be 69.138.67.42 pcp08332133pcs.kirkav01.md.comcast.net
بعضي کشورها متفاوت هستند• France navier.xtec.polytechnique.fr • Netherlands bmb09.chem.vu.nl • Norway p01052.hig.no • Finland iodine.abo.fi
تعداد آي پي کشورهادامنه نام کشور تعداد آي
پيUs USA 1,503,565,182
Cn China 204,898,752
Jp Japan 171,443,529
Uk United Kingdom
119,619,056
ir Iran 2,026,743
maxmind.comمنبع:
Date and Time Field
ساعت و زمان دانلود•
Request
اطالعات زير را ثبت ميکند• file name directory extension
يک صفحه شامل تعدادي فايل درخواست شده •است
مثالها
/homehealthcareguide/Chickenpox.htm/output/full2.php?id=13881/images/hphysicspol.gif/images/flwp.gif/content/vol28/issue13/images/small/gkd40002.gif/cgi/content/full/32/11/e92/search/search.php?
keyword=how+many+people+speaks+english&type=or&go=go
توزيع تقريبي
Ext File % of log lines.html HTML 30%.Gifs .JPG Graphics 64%.CSS Style sheets 4%.pl, .js etc. Other 2%
status
يک کد سه رقمي که سرور در مورد درخواست •ثبت مي کند
• 2xx - Client's request was successfully
• 3xx - Further action need
• 4xx - Client Error
• 5xx - Server Error
رايج ترين ها
• OK 200• No Response 204 • Bad request 400• Unauthorized 401 • PaymentRequired 402 • Forbidden 403 • Not found 404 • Internal Error 500 • Service temporarily overloaded 502
200
301
302
304
404
503
100806040200
18
79
نمونه
کدهايي که معموال بررسي مي شوند
• 200 OK
• 304 Not Modified
ديگر موارد که ارزش بررسي دارد• 403 Forbidden – attempted access to
pages requiring authorization
user_agent
• Identity of Web browser and platform used by the visitor to your site
• ("Mozilla/4.05 [en] (WinNT; I)"
referrer آدرس اينترنتي که کاربر را به سايت متصل مي کند
www.google.com/search?hl=en&lr=&q=agnes+b.+%2B++store+locations&btnG=Search"
search.yahoo.com/search?p=royal+albert+hall+london&toggle=1&ei=UTF-8&pstart=1&fr=FP-tab-web-t&b=231"
www.e-poker-777.com/texas-hold-em-online.html
OUP menusPubMedSearch engineOther
50
40
30
20
10
0
26
10
42
22
Referrer مثال
Cookies
مي HTTPکوکيها اطالعاتي هستند که سرور •تواند به همراه منبع درخواست شده به ماشين
کاربر ارسال کند
مرورگر کاربر ممکن است اين اطالعات را •� هنگام ارسال درخواستهاي ذخيره کند و متعاقبا
پس HTTPبعدي اطالعات آن را به سرور بفرستد
متريک هاي پايه• Hits vs Page views• Use by DNS name, type and country• Time online• Pages viewed over time, by hour, by day• Pages viewed• Referrer • Searches
Hits vs Page views
الگ مشاهده صفحه را ثبت نمي کند. آنچه •ثبت مي شود فايلهايي است که توسط
کامپيوتر کاربر دانلود شده اند. به اينها هيت مي گويند
الگ تعداد زيادي خطوط مربوط به فايلهاي •مرتبط با تصاوير، سي اس اس و غيره
است که بخشهاي يک صفحه وب را تشکيل مي دهند
خطوط مربوط به تصاوير و سي اس اس و •برنامه ها و غيره بايد کنار گذاشته شوند و
آنچه مي ماند نمايانگر مشاهده صفحه است
Hits to Page views
Hits
Less graphic files etc. - 60 to 70%
Incl. Only 200/304 files
Exclude robots
======
Page views
Pages about 20% of original “hits” file
1.7%
7.6%
50.1%
29.9%
2.2%
3.6%
2.3%
2.7%
Other
W Europe
US
UK
N-America
E Europe
Australia/Oceania
Asia
DNS – کشور
.6%
.4%
28.9%
37.3%
32.8%
Non profit
Government
Net provider
Commercial
Academic DNS – نوع سازمان
16000
14000
12000
10000
8000
6000
4000
2000
0
تاريخ استفاده
Sunday
Friday
Thursday
Wednesday
Tuesday
Monday
Sunday
20
15
10
5
0
9
14
16171716
10
روز استفاده
Menus
Search
Unclassified
Research
Health lifestyle exercise
Child Health
General
Pharmacy
Health
News
49
4.3
3.3
3.1
3.1
3.0
2.7
2.6
2.5
2.3
صفحات مشاهده شده بر اساس موضوع و نوع
Name %
ArtcleAbstractContentIssue
60
50
40
30
20
10
0
26
49
17
8
صفحات مشاهده شده، دسته بندي بر اساس نوع محتوا
29.06.200222.06.200215.06.200208.06.200201.06.2002
14000
12000
10000
8000
6000
4000
2000
0
Employee Relations
Int Jrnl of Public
Sector Management
استفاده از دو مجله امرالد
متوسط زمان مشاهده يک صفحه بر حسب ثانيه
• Articles 111
• Abstract 35
• All 24
RegisteredNot registered
100
90
80
70
60
50
40
30
20
10
0
Referrer
External link
OUP menus
Pubmed
Search engine
Other
2217
4025
25
40
1115
Referrer across user type
چند کلمه زياد جستجو شدهhistoryWorldenglishAncientphilosophyromanvictorianwomenfind
مشکالت متريکهاشناسايي کاربران مشکل است•شمارش کاربران دقيق نيست•شمارش صفحات منتقل شده دقيق •
نيستمحاسبه طول زمان مشاهده •
صفحه دقيق نيستاطالعات دي ان اس دقيق نيست•عنوان صفحه و مسير صفحه•معماري وب سايت تأثير دارد•
شناسايي کاربران مشکل است
• Proxy IP numbers
• Floating IP numbers
• Sharing computers
• IP numbers are not a user metric
Proxy IP Numbers
• Proxy IP – a group of computers are routed through a single IP address
روي دقت و صحت تخمين تعداد کاربر تأثير •دارد و تعداد را کم نشان مي دهد
Floating IP Numbers
آي پي شناور: تعداد زيادي کاربر تعداد معدودي •شماره آي پي را با هم شريک مي شوند
باعث تخمين بيش از اندازه تعداد کاربران مي •شود چرا که يک کاربر ممکن است با چند آي
پي به يک سايت رجوع کند.
کامپيوترهاي مشترک )مثل سايت دانشگاه(
باز کردن چند مرورگر يا چند پنجره•استفاده مشترک از يک رايانه•
آي پي ها کاربران نيستند
شماره هاي آي پي نمايانگر اتصال هستند نه •کاربر
شماره هاي آي پي تخمين خوبي از کاربران •نيستند
استفاده مکانيکيروباتها برنامه هايي هستند که صفحات وب •
را نمايه و مانيتور مي کنند• � در فعاليت سايت را مي 40 تا 30تقريبا
توان به روباتها نسبت داد
•RSS automatic feeds صفحات به صورت :خودکار خوانده و روزآمد مي شود و اين باعث تخمين بيش از اندازه و غير واقعي
استفاده مي شود
روباتها چه هستند� موتورهاي جستجو• عموما Indy)دستگاه هاي ايميل جمع کن •
Library) براي کنترل نقض کپي رايت•براي پيدا کردن سرقت علمي و ادبي •
(SlySearch) و موارد ديگر )تحقيق....(•
2005200420032002
100
90
80
70
60
50
40
30
20
10
0
Robot
Yes
No
2042
80
58
9898
استفاده روباتها
چطور روباتها را شناسايي کنيم؟
• Declared robots (they report to robots.txt)• Robots with DNS name (e.g. googlebot)• List of undeclared robots
– robotstxt.org publishes a list or robots
• Identifying a robot through browser detail– E.g. inktomisearch used by Yahoo has the word
slurp in its browser details recorded in log file
• Through their behavioural traits
Cachingمرورگرها صفحات پيشتر بازديد شده را از •
حافظه رايانه خود مي خوانند ونه از سروراين باعث مي شود ميزان مشاهده صفحات •
کمتر از حد واقعي به نظر برسد•Fieber (1998) 55 تا 35 تخمين زده که بين
درصد بازديد صفحات از حافظه کش خوانده مي شوند
Repeat delivery of the page
When two requests are made for one and the same article within the same session
• Repeat delivery – PDF, HTML
• Repeat delivery by the server
• Overestimates use.
128.32.173.xxx 10-MAR-2003 13:55:34.00 full 31 4 e15 128.32.173.xxx 10-MAR-2003 13:56:06.00 reprint 31 4 e15 128.32.173.xxx 10-MAR-2003 13:56:09.00 reprint 31 4 e15 128.32.173.xxx 10-MAR-2003 13:56:10.00 reprint 31 4 e15
محاسبه طول زمان مشاهده صفحه دقيق نيست
بر اساس زمان ميان درخواست دو صفحه •متوالي محاسبه مي شود
صفحه آخر معموال محاسبه نمي شود •)امکانش نيست(
اگر صفحه اي کش شده باشد يا چند •مرورگر باز باشد رو اين متريک تأثير دارد
DNS اطالعات دي ان اس دقيقنيست
کاربران مجبور نيستند در کشوري که در آن •قرار دارند ثبت شوند يا نوع ثبت آنها لزوما
دقيق نيست که يک سازمان Btinternet.comمثل شرکت •
انگليسي فراهم کننده شبکه و واقع در بريتانياست اما در آمريکا به عنوان يک کمپاني
تجاري ثبت شده است
عنوان صفحه و مسير صفحه
به طراحان سايت بستگي دارد. اسم •صفحه و دايرکتوري مي تواند معني
خاصي نداشته باشدکش يا حافظه درک ما را از تحليل •
مسير محدود مي کند
معماري سايتسه الگو
• Multiple page-to-screen: a number of information pages are stored on a single download.
• Page-to-screen unity. each download is a single information page.
• Divided page-to-screen: users’ view a number of downloads to view a single information page.
2معماري سايت
معماري سايت روي آمار استفاده تأثير دارد•مقايسه سايت ها مشکل است مگر اينکه •
داراي معماري مشابه باشند و نحوه سنجش به خوبي تعريف شده باشد
ويژگيهاي يک متريک خوب
تکرار پذيري دقت متريک مقايسه پذيري
Use Poor OK Limited
User Poor OK Limited
DNS Poor OK OK
Time OK OK OK
File name OK OK Poor
قابليت هاي الگمثل تلويزيون مدار بسته – مانيتورينگ •
مداومگردآوري خودکار آنچه که کاربر واقعا انجام •
مي دهد نه آنچه که مي گويد انجام مي دهدنيازي به نمونه گيري نيست و کل جامعه را •
بررسي مي کند نه نمونه راتعداد بسيار باال در نتيجه اعتبار زياد•مي تواند به همراه پرسشنامه و تحقيق •
کيفي به کار رود
متريک هاي پيشرفته Sessionsتخمين نشستها • siteتخمين ميزان نفوذ در سايت•
penetration يعني دسته بندي کاربران بر اساس اينکه در هر نشست چند صفحه
مشاهده کرده اندکاربران تکراري يا رجوع کنندگان •
(returnees تخمين تعداد دفعات رجوع يک )کاربر به سايت
تحليل خرد: تحليل استفاده يک يا چند آي پي •يا يک گروه خاص
Sessions نشستهاالگها ابتدا و انتهاي يک نشست را
معموال ثبت نمي کننداگر طول نشست را کوتاه بگيريد
ممکن است به خطا چند نشست را يکي فرض کنيد
اگرطول نشست را بلند بگيريد ممکن است يک نشست را به چند نشست
خرد کنيد
محاسبه دقيق نشست: مشکلي که هنوز حل نشده
• Sessionization or session heuristics or session identification– Proactive approaches– Reactive approaches
Proactive approaches
• Using cookies– Users can turn off cookies
• Using session identification mechanism– (time out, broken connection..)
Reactive approaches
• Time oriented heuristics– E.g. after 15 minutes of inactivity
• Navigation oriented heuristics– Certain type of navigation
• The most common: cut-off time
تخمين نفوذ در سايت
گروه بندي تعداد صفحات مشاهده شده در يک •نشست
آنها که صفحات کمتري در يک نشست •مشاهده مي کنند نفوذ کمتري داشته اند
دقيقا درست نيست چرا که موتورهاي جستجو •شما را دقيقا به صفحه اي مي برند که احتياج
داريد
LibrarySearch engineOther
100
90
80
70
60
50
40
30
20
10
0
Requests in session
Over 21
11 to 20
4 to 10
1 to 3
7
105
40
16
27
42
82
64
Requests in a session by referrer
visitsتعداد بازديدها
يک کاربر هر چند وقت يک بار به سايت بر •ميگردد
شاخصي از وفاداري کاربر به سايت است•
متکي بر شناسايي کاربر است•
11 Mar - 31 Mar18 Feb - 10 Mar1 Jan - 17 Feb
30
20
10
0
User type
Returnee period 2
Returnee period 1
New user
6
10
5
9
24
تعدا بازديدها طي سه دوره
ProxyOther
100
90
80
70
60
50
40
30
20
10
0
Number of visits
6 or more
3 to 5
Twice
Once
447
16
10
10
11
30
72
نوع کاربر بر حسب تعداد بازديد
site stickinessچسبندگي سايت
ميزان زمان سپري شده روي يک سايت در يک •دوره مشخص
گاهي برحسب تعداد بازديد است )رجوع •کنندگان(
گاهي بر حسب ميزان زمان سپري شده در •سايت در هر نشست
استbouncingيک مفهموم متضاد آن •
Micro Analysisتحليل خرد
تحليل استفاده توسط يک يا دو شماره آي پي•تحليل استفاده توسط يک زيرگروه•تحليل استفاد توسط يک زيرشبکه•
Session Date and how connected
Pages viewed Time page delivered
Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+95)
15-OCT-2001
pregnancyandparenthood 13:01:39
Mozilla/4.0+(compatible;+MSIE+5.01;+Windows+95)
22-OCT-2001
indexsearchcoughsmedicinecablisttitlesbycategorsearchindexhomehealthcareguideresearch
10:20:5410:21:5310:22:0210:22:3610:23:0910:26:2510:29:2910:29:5410:32:31
Mozilla/4.0+(compatible;+MSIE+4.01;+Windows+95)
07-DEC-2001
IndexPrescriptiondrugsguideemc_framesetsearchresult
15:42:1315:43:3315:43:5215:47:10
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+.NET+CLR+1.0.3705)
www.google.co.uk 20-MAY-2002
news_9.06.00 14:26:53
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0)
www.google.co.uk 09-JUL-2002
TravelhealthFitfortrav_frameset
12:15:5912:16:14
freeneteasynetdemonclaranetbtinternetAOL
%100
90
80
70
60
50
40
30
20
10
0
VISITS
Over 15
6 to 15
2 to 5
once
7
11
333518
119
6765
80
8991
79
Visits across net provider
DNS Subnetwork analysis
• Explores the labels given to a network of computers
• chemc245.chem.ucl.ac.uk
• Guestemate name: chemistry, chemical engineering or no meaning
15.4%
3.5%
45.0%
12.8%
5.4%
2.1%
11.6%
4.2%
Other
Sociology and Social
Psychology and Psych
Neurology and Neurop
Medical Specialties
Language and Literat
Internal Medicine
General Medicine
Psychology subnet viewing
اضافه کردن پرسشنامه به الگ
الگ حاوي آي پي و کوکي است•
پرسشنامه نيز مي تواند آي پي و کوکي را ثبت •کند
اين رو را مي توان به هم پيوند داد•
MaleFemale
100
90
80
70
60
50
40
30
20
10
0
No. of visits
over 15
6 to 15
2 to 5
Once
2025
15
17
23
24
42
34
بازديد بر اساس جنسيت
نحوه دسترسي در مقابل نظر کاربر در مورد اينکه“تحقيق در يک حوزه جديد سخت است”
Journal issueSearchGateway
100
90
80
70
60
50
40
30
20
10
0
New area research
Strongly agree
Agree
Neither agree nor
disagree
Disagree
Strongly disagree
9416
36
22
36
23
11
17
27
60
25
45
رفتارگرايي
تمرکز روي آنچه که مشاهده گر ميتواند ببيند•پرداختن به سئواالتي نظير •
• who (actors), • what (behaviors)• when (temporal)• where (contexts)• why (cognitive)
تمرکز اصلي الگ در رفتارگرايي
چه رفتاري بروز کرده است•الگ به ما کمک مي کند سئوال درستي در •
تحقيق از کاربر بپرسيم: مثال کيوسک بهداشت انگليس
نتيجهالگها براي ثبت تراکنشها روي سرور ابداع •
شدند و نه به عنوان ابزار تحليل رفتار کاربران
تنها تعداد معدودي متغير ثبت مي شود مثل •آي پي زمان تاريخ ...
اين متغيرهاي خيلي دقيق و نيستند، •محاسبه ميزان استفاده پيچيده است،
رباتها، حافظه کش، آي پي ها، معماري سايت و موارد ديگر از دقت متريک ها مي
کاهند
نتيجه
الگها مثل تلويزيون مدار بسته وقايع •حقيقي را با هزينه کم و حجم باال ثبت مي
کنند و نمي توان آنها را ناديده گرفتجزئيات ثبت شده در الگها بسيار چشمگير •
هستندالگ را مي توان با داده هاي ديگر غني کرد•الگها سئواالت مهمي طرح مي کنند و •
پيش فرضها را به چالش مي گيرند
•SurfStats Log Analyzer•webtrends•www.IndexTools.com (estimates Bounce rate)•www.DeepMetrix.com•Deep Log Analyzer•AlterWind Log Analyzer Professional•Geo Log Analyzer•Azure Web Log•FastStats Analyzer Free•Web Log Storming•WebLog Expert 3.5•Nihuo Web Log Analyzer•Web Log Explorer•10-Strike Log-Analyzer 1.31•AlterWind LogAnalyzer 1.3•eWebLog Analyzer 2.03•Web Log Suite•ClickTracks Analyzer
Web Log Explorer Log Analyzer
Deep Log Analyzer