Post on 18-Jan-2017
الگوریتم های رتبه بندی سایت
امیرحسین باب الحکمیسروش صالحی
Amir.Babolhakami@gmail.com
فهرست
3 .................................................................................................................... مقدمه
( ..................................................................................... Web Rankingرتبه بندی سایت )5
Page Ranking
Algorithm ......................................................................................... 7
Ant Colony
Algorithm ........................................................................................... 10
الگوریتم
ترکیبی ......................................................................................................
..12
Page Ranking Developed
Algorithm ........................................................................ 15
HITS
Algorithm ................................................................................................
.... 17
iRank
Algorithm ................................................................................................
... 22
BlogRank
Algorithm ..............................................................................................
25
Reference ............................................................................................................ 30
2/30
مقدمهدلیل نیاز به رتبه بندی سایت
حجم زياد اطالعاتناهمگني و غيرساختار يافته بودن اطالعاترشد نمايي، پويايي زیاد
بخش رتبه بندي يكي از مهمترين قسمت هاي موتورجستجو مي باشد .
3/30
مقدمه
"فرآيندي است كه كيفيت يك صفحه توسط موتور جستجو رتبه بندي "تخمين زده مي شود.
مزیت های رتبه بندی سایت ها جلوگیری ازWeb Spamکاهش فضای جستجو
4/30
(Web Rankingرتبه بندی سایت )
انواع روش های رتبه بندی سایت ها مبتنی بر محتوا)استفاده شده در بازيابي اطالعات
سنتي(TF-IDF )در مدل برداری( BM25)در مدل احتمال(
5/30
(Web Rankingرتبه بندی سایت )
)مبتنی بر ساختار)استفاده شده در وب فعلي Page Ranking Algorithm
Page Ranking Developed Algorithm
Ant Colony Algorithm
الگوریتم ترکیبی
HITS Algorithm
6/30
Page Ranking Algorithm
جز اولین الگوریتم های رتبه بندی صفحات وب توسط سایتgoogleاستفاده می شود ویژگی های الگوریتم
اهمیت به صفحات اشاره شده به صفحه و تعداد لینک های خارج شده ازصفحات
اهمیت به صفحه های ارجاع داده شدهکه صفحات با ازجاع بیشتر داری اهمیت بیشتری
7/30
Page Ranking Algorithm
که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می u: رتبه صفحه •باشد.
: احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند.•احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند. :••: Page Rank.صفحه می باشد : درجه خروجی صفحه است.•مجموعه گره هایی است که یک لینک ورودی به صفحه دارند. :•نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای گراف •
وب به تنظیم می شود.
که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می u: رتبه صفحه •باشد.
: احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند.•احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند. :••: Page Rank.صفحه می باشد : درجه خروجی صفحه است.•مجموعه گره هایی است که یک لینک ورودی به صفحه دارند. :•نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای گراف •
وب به تنظیم می شود.
8/30
Page Ranking Algorithm
مزایا در مقابل Spamمبارزه می کند .یک صفحه مهم است اگر صفحات نقطه گذاری شده به آن مهم باشد مقادیر الگوریتم رتبه بندی صفحه از تمام صفحات محاسبه می شود
و ترجیحا در زمان جستجو بدون ارتباط ذخیره شود
معایبجستجو مستقل باشد بین صفحاتی که در مجموع توانایی دارند و صفحاتی که بر روی عنوان
جستجو مع�تبر است وجه تمایز قائل نمی شود9/30
Ant Colony Algorithm
راه حلی چند عامله برای مسائل بهینه سازی
این الگوریتم براساس مطالعه و مشاهده روی مورچگانارائه گردید
10/30
Ant Colony Algorithm
𝜏𝑖) +1(=)1− (.𝑡 𝜌 𝜏𝑖𝑗) (+ Δ𝑡 𝜏 𝑖𝑗) (𝑡 𝜏𝑖𝑗 میزان فرومون بین گره های i و jرا نشان می دهد 𝜌( 0< ≤1 میزان تبخیر فرمون است𝜌)Δ𝜏𝑖𝑗 مقدار فرومونی است که مورچه K ام بر روی یال
هایی که مالقات کرده است می ریزد.
11/30
الگوریتم ترکیبی
الهام گرفتن از دو الگوریتمPageRank و اجتماع مورچگان
این الگوریتم تلفیقی ازکاربرد وب کاوی و ساختار وب کاویاست
12/30
الگوریتم ترکیبی
فایل ثبت وب سرور
پیش پردازش فایل ثبت
استخراج ویژگ�ی های
کاربران
سازی بردار
ساخت پروفایل کاربران
پروفایل کاربران
استفاده از اجتماع مورچگان
بندی رتبهصفحات
13/30
الگوریتم ترکیبی
رتبه صفحه : u که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می باشد.
.احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند :: .احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند: PageRank.صفحه می باشد .درجه خروجی صفحه است :: .مجموعه گره هایی است که یک لینک ورودی به صفحه دارند مقدار فرومون قرار گرفته بر روی صفحه: u.است نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای
گراف وب به تنظیم می شود.14/30
Page Ranking Developed Algorithm
الگ�ویتم توسعه یافته الگوریتم Weighted PageRankالگوریتم PageRank.است
نحوه رتبه دهی
اهمیت به لینک های ورودی و خروجی
امتیاز رتبه بندی مبنی بر محبوبیت صفحات توزیع شده
15/30
Page Ranking Developed Algorithm
مدل های مختلف برای این الگوریتم موجود است که بعضی ازآن ها را بیان می کنیم:
مبتنی بر شبکه های عصبی
مبتنی بر زنجیره مارکوف
مبتنی بر بازدید لینک ها
مبتنی بر فاکتور زمان16/30
HITS Algorithm
قبل از اجرای الگوریتمHITSچه اتفاقی می افتد؟ ( استخراج مرتبط ترین صفحاتRoot Set)
استخراج صفحاتی که به مجموعهRoot لینک داده و یا پیوند زده (Base Rootشده است )
17/30
HITS Algorithm
به هر صفحه یک امتیازHub و یک امتیاز Authorityداده می شود Authorityتعداد لینک های وارد شده به سایت هستند :Hubتعداد لینک های خارج شده از سایت هستند :
یکAuthority خوب توسط مجموعه ای مناسب از Hub اشاره شده است وبلعکس.
:حال نیاز به تشکیل گرافی با ویژگی زیر داریم 1 ,
0 , 𝐿𝑖𝑗
18/30
HITS Algorithm
حال مقادیرAuthority و Hub به صورت زیر محاسبه می شود:
مقادیر اولیهHub و Authority است.1 برابر
19/30
HITS Algorithm
مزیتHITS:توانایی رتبه بندی صفحات برطبق موضوع جستجو دارد توانایی بیشتر در فراهم کردن صفحات مربوط بهHub و
Authority.را دارد
معایب الگوریتمHITS:.در زمان جستجو ناکارآمد است.ارزیابی زمان جستجو کند و تدریجی است
20/30
بالگصفحاترتبه بندی iRankBlogRank
21/30
iRank Algorithm
برپایه الگوریتمPageRank
ساختار ضمنی و غیرصریح گراف فضای بالگ را در رتبهدهی صفحات اطالعات موجود در تاثیر می دهیم
بر پایه ویژگی زمان در فضای وبالگ
وزن دهی یال های گراف براساس فاصله زمانی پیونددادن است
22/30
iRank Algorithm
برابر فاصله زمانی که دو وبالگ به یک مطلب یا URL.اشاره می کنتد
هر چه فاصله زمانی فرآیند لینک دادن کمتر باشد، امتیاز پیوند بیشتراست)چرا؟(
محاسبه مقادیر پیوندها، اگر بالگbj به ni، URL متفاوت اشاره کرده باشد
مجموع وزن یال های خارج شده از یک بالگ برابر یک خواهد بود
بعد از تولید این گراف، الگوریتمPageRank23/30 روی این گراف اعمال می شود
BlogRank Algorithm
یکی از جدی ترین الگوریتم ها در زمینه رتبه دهی بالک
ارائه شد2006در سال
نسخه تعمیم یافتهPageRankمی باشد
24/30
BlogRank Algorithm نحوه محاسبهBlogRankیک صفحه
B(A): BlogRank بالگ Aاست B(Ui) نیز BlogRank برای بالک Ui است که به بالگ Aپیوند دارد d ضریب تعدیل استفاده شده در الگوریتم PageRankاست FN(Un→A) مقدار احتمال انتخاب بالگ A توسط کاربر بعد از مشاهده بالگ n
می باشد. است.Aاین مقدار، نشان دهنده تصور کاربر از مطلوبیت بالگ
25/30
BlogRank Algorithm
چه زمانیBlogRank مشابه PageRankمی باشد؟ اگرZبالگی با Tپیوند خروجی باشد
N تعداد مجموع خروجی ها از بالگ z باشد
برای حرکت کاربر از یک صفحه بالگ به پیوندهای خروجی نباید احتمالیکسان داد.
26/30
BlogRank Algorithm
را دارای اهمیت می داند ک�ه:j بالگ هایی نظیر )FN)Uz→jبرای محاسبه ( مشترک باشد.Category متع�لق به دسته )zهمراه با بالگ 1( دارای تعداد پیوند های یکسان به سایت های مختلف zهمراه با بالگ 2(
باشد.
27/30
BlogRank Algorithm
L تعداد پیوندها از بالگ jاست T تعداد دسته هایی است که j و z.هر دو به آنها تعلق دارندU تع�داد کاربرانی است که پست مشترک به j و zفرستاده اند N نیز تعداد پیوندهای مشترک به سایت های مختلف در بالگ های jو z می
باشدwT، wU و wN ضرایبی برای ،T،N و Uهستند
بعد از وزن دهی به بالگ ها، الگوریتمPageRankبدست می آید
28/30
Reference
1( Page, L., Brin, S., Motwani, R., Winograd, T., "The PageRank Citation Ranking:Bringing Order to the Web", Technical Report. Stanford InfoLab, 1999
2( Xing, W., Ghorbani, A., "Weighted PageRank Algorithm", Proceedings of the Second Annual Conference on Communication Networks and Services Research )CNSR’04(, IEEE, pp. 305- 314, 2004.
3( Dorigo, M., Maniezzo, V., Colorni, A., "Ant System:Optimization by a Colony of Cooperating Agent", IEEE, vol.26, pp.29-41,1996.
4( Marc Najork, Hugo Zaragoza,Michael Taylor, “HITS on the web: How dose it Compare”?
5( Ko Fujimmura, Takafunmi Inoue and Masayuki Sugisaki. The EigenRumor algorithm for ranking blogs. In Workshop on the Weblogging Ecosystem, 2005.
29/30
سخن آخر
Question?
30/30