A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin,...

29
A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi
  • date post

    22-Dec-2015
  • Category

    Documents

  • view

    226
  • download

    4

Transcript of A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin,...

Page 1: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon1

Internet Resources Discovery (IRD)

Search Engines Types

Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

Page 2: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon2

Search Engines Types

בהקשר כאן נעסוק במידע מועיל ומעניין אודות •כיצד הם מנועי החיפוש, כלי עבודה שלהם, ו

עובדים?חשוב להבין את מנועי החיפוש ואת הבדלים בין •

הסוגים השונים, יתרונות וחסרונות של כל סוג, והיעוד הטוב ביותר של כל אחד.

נסביר כאן בקצרה על סוגי מנועי החיפוש •הבסיסיים שקיימים באינטרנט, יתרונות וחסרונות

של כל סוג, כיצד הם עובדים, וכיצד מתבצעת שיטת האינדוקס/מיפתוח של כל אחד מהם.

Page 3: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon3

Types of Basic Search Engines

ניתן לחלק את מנועי החיפוש לשני סוגים •עיקריים:

אינדקסים )אספנים( ומדריכים.החלוקה היא ע”פ עקרונות ומנגנוני הכנסת •

האתרים השונים למנועים.מספר האתרים במפתח של מדריך קטן בהרבה •

ממספר האתרים באינדקסים, וגם קצב העדכון שלהם קטן יותר.

ההבדל מצטמצם בשנים האחרונות לאחר •שאינדקסים הכניסו קטגוריות חיפוש שונות, כולל

מדריכים, על מנת להקל על החיפוש, ולהיפך.

Page 4: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon4

Basic-SE (BSE)

General-SE (GSE)

General(GD)

Specialty(SD)

Specialty-SE (SSE)

Directory (Catalog, Guide, Subject gateway) Browse Oriented

Index (Crawler, Robot)

Search Oriented

Page 5: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon5

Indices (1)

מנוע האינדקס מפעיל תוכנת רובוט, הסורק •אתרים ברשת באופן שטחי תוך מעבר מאתר

לאתר ע”פ הקישורים שבו.אם הרובוט מצא אתר חדש הוא מעתיק את •

התוכן אל השרת של המנוע.המנוע ממפתח את המידע שנאסף ושומר את •

כל המילים שבתוכן ומידע-על נוסף )תאריך “הורדה”, כותרת, תמצות וכו’( במסד הנתונים

שלו.

Page 6: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon6

הרובוט מכניס את הקישורים שבאתר ל”תור” •ומשם נלקחים האתרים הבאים ל”ביקור”.

GUIהמנוע מקבל שאילתות דרך יישום •ומחפש אותן באינדקס שבנה.

האתרים שנמצאו מתאימים מסודרים •באמצעות מנגנון מיוחד לפי מידת שייכותם

לנושא. למשתמש מוחזרת רשימת תוצאות.•

Indices (2)

Page 7: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon7

יתרונות:•מכסה מספר אתרים רב יחסית.1.ניתן לחפש בכל הטקסט, חיפוש ע”פ 2.

מילות מפתח.מהודר אוטומטית.3.קצב עדכון מהיר יחסית.4.

Indices (3)

Page 8: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon8

חסרונות:איכות כוללת נמוכה יחסית של המאגר.1.חוסר “במגע אנושי” - אין סיווג ותמצות 2.

אנושי של האתרים.

Indices (4)

Page 9: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon9

What differentiates between Indices?

נושא המנוע )כללי או ייעודי(.–מנגנון החיפוש והדרוג.–גודל המאגר.–, קבוצות דיון, WWWהאתרים שהאספן סורק )–

FTP.)'וכו סריקת כל האתר או רק אתרים עם מספר –

עדכון גבוה.עכניסות רב וקצב המידע שנשמר )רק תחילת המאמר, כל –

המאמר(. )טקסט, קבצי קול, תמונות, להמידע שמטופ–

קישורים וכו'(.

Page 10: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon10

Details of Web Crawling

לפני שמנוע חיפוש יכול ליידע היכן הדף שחיפשת נמצא, הוא חייב •

למצוא אותו קודם לכן. למציאת מידע בביליוני דפי אינטרנט שקיימים, מנוע החיפוש "מעסיק" תוכנת רובוט מיוחדת שנקראת

כדי לבנות רשימת מילים שנמצאת באתר Crawlers)זוחלים )אינטרנט.

Web)כשהזוחלים בונים רשימה כזו התהליך נקרא זחילה•Crawling ) בכדי לבנות ולתחזק רשימה מועילה של מילים .

הזוחלים חייבים להסתכל בכמות גדולה של דפי אינטרנט.

איך מתחיל הזוחל את חיפושו באינטרנט? בד"כ מתחילים בנקודה •שמשתמשת בהמון שרתים ודפים מאוד פופולאריים. הזוחל מתחיל

באתר פופולארי, מאנדקס את המילים לכל דף, ועוקב אחר כל קישור באתר וכך הוא מתחיל להתפשט באינטרנט.

Page 11: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon11

How a Web Crawler works? (1)

הזוחל מחפש אחרי דפי אינטרנט ע"מ לבנות אינדקס.•מתחיל באיסוף מעני אינטרנט ומורידים את דפי האינטרנט.•מוציא ושומר את כל הקישורים מדפים אלו )בהם יחפש •

מאוחר יותר(.כל המילים מדף זה נשלפות, מאוחסנות במסד נתונים •

ומשויכות לדף החיפוש מאוחר יותר.מידע נוסף שנשמר עבור כל דף:•

זמן הורדת הדף–זמן העדכון האחרון של הדף –תקציר מילים–כותרת לדף–

הקישורים נשמרים לחיפוש מאוחר יותר ועל כל אחד מהם •מתבצע תהליך זהה.

Page 12: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon12

How a Web Crawler works? (2)

Page 13: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon13

How a Web Crawler works? (3)

Page 14: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon14

Operation of a Web Crawler (1)

בדוק את הדף הבא להורדה - המערכת שומרת בתור מענים •של דפים להורדה.

בדוק האם הדף "ראוי" להורדה – בדיקה זאת נעשית ע"פ •כללים כדי לקבוע האם הדף ראוי להורדה או לא, וכן בדיקה האם יש הוראות המונעות לכלול את הדף הנוכחי )לעתים יש

בעלי אתרים שלא מעוניינים להיכלל במנועי חיפוש(.הורד את כל הדף.•הוצא את כל המילים מהדף, שמור אותם במסד נתונים •

כמשויכים לדף הנוכחי ושמור את המילים בצורה שניתן יהיה לחפש ביטוי בתוכן זה ולא רק מילות מפתח.

הוצא את כל קישורים, מעני אינטרנט וכן מענים לדפים אחרים •באתר - אלה מוצאים ונכנסים לתור להורדה מאוחר יותר.

אופציונאלי - סנן את התוכן למבוגרים/שפות וכדומה.•שמור מידע-על לדף זה כולל תאריך אחרון של עדכון דף זה •

כך שהמערכת תדע מתי לבצע בדיקה מחודשת לדף.

Page 15: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon15

Operation of a Web Crawler (2)

Page 16: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon16

Directories (1)

( הוא סוג אחר של מנוע חיפוש.Directoryמדריך )•המידע שבו מסודר לפי נושאים וקטגוריות כאשר •

המשתמש מבצע חיפוש בקטגוריות שמוגדרות בו מראש.

מדריך ממפתח אתרים, המסודרים לפי נושאים •במבנה עץ מדרגי, כל נושא מחולק לתת-נושאים

וכך הלאה.המידע שנצבר ומאורגן במדריך הוא ע"י אנשים •

המפעילים את המדריך עם עזרה מבעלי האתרים שמעוניינים להופיע בו.

Page 17: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon17

Directories (2)

Page 18: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon18

Directories (3)

מדריך ממפתח אתרים, המסודרים לפי •נושאים במבנה עץ מדרגי, כל נושא מחולק

לתת-נושאים וכך הלאה.רוב המדריכים הם כלליים ומקיפים את •

הנושאים העיקריים באינטרנט, אך ישנם מדריכים ייעודיים המתמקדים בתחום מסוים.

מדריכים מסוננים - מדריכים הבודקים, •מעריכים ונותנים ציון לכל אתר המוכנס

לקטלוג - ע”י בני אדם.מדריכים שונים זה מזה במבנה העץ, בצורת •

הקטלוג וכו'.

Page 19: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon19

עיתונים, כתבי עת •וחדשות

בריאות ורפואה•פנאי, תחביבים •

וספורטמדינות בעולם•מדעים מדויקים•מדעי החברה•תרבויות ודתות•

אמנות ומדעי הרוח•מסחר וכלכלה•חינוך, אוניברסיטאות ובתי •

ספרמחשבים ואינטרנט•בידור: סרטים, טלוויזיה, •

מוסיקה וכו’פוליטיקה וממשל•

ברוב המדריכים ניתן למצוא את הנושאים הבאים:

Directories (4)

Page 20: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon20

יתרונות:. איכות כוללת טובה יחסית של 1

המאגר.. ניתן לבצע חיפוש ע”י מושגים 2

רוחביים.-Humanly. מהודר אנושית )3

compiled.)

Directories (5)

Page 21: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon21

חסרונות:. מכסה מס’ קטן יחסית של אתרים1. סיווג ושיוך האתרים במבנה המדרגי 2

הוא אישי ושונה מאדם לאדם.. דורש משאבי אנוש רבים.3. קצב עדכון איטי יחסית.4

Directories (6)

Page 22: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon22

Meta-Search Engines (1)

מנועים טפילים, השותלים את •במנועים אחרים, מחרוזת החיפוש

מקבלים מהם את הקישוריםהמתאימים למחרוזת החיפוש

ומחזירים רשימה ממוזגת וממוינת של האתרים למשתמש.

מפעילים מספר מנועי חיפוש •בסיסיים במקביל.

Page 23: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon23

יתרונות:. טווח רחב יותר של תשובות.1. מספקים מנשק משתמש אחיד עבור שאילתות 2

במנועים שונים.בסיסי רב יותר ממנוע חיפוש(( Coverage. כיסוי 3

יחיד.

חסרונות:. קבלת יותר תוצאות לא רלוונטיות, דבר הגורם 1

לקושי במציאת התשובות הרלוונטיות ברשימה.. מספר אפשרויות החיפוש המיוחדות נמוך - 2

המכנה המשותף לכלל המנועים.

Meta-Search Engines (2)

Page 24: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon24

Local/Global Crawlers

צורות: גלובאלי ומקומי. זוחלים מקומיים 2בד"כ עובדים ב-•מוגדרים כך שלא יחפשו "רחוק" מדי מהמקום שהם מחפשים.

לעיתים הם משרתים מנועי חיפוש המיועדים לחיפוש באתר מסוים או באזור מסוים.

זוחלים גלובאליים מוגדרים לחיפוש בכל האינטרנט ומנסים •לאסוף כמות מידע גדולה ככל האפשר ולבצע אינדוקס על

המידע. לצורך כך דרושים משאבים פיסיים "ענקים". בנוסף יש שימוש באלגוריתמים "חכמים" מאוד לחיפוש.

זוחלים בד"כ מופעלים באופן אוטומטי ועם קצת מאוד הנדסת •אנוש ולכן תוצאות החיפוש טובים עבור חיפוש חופשי מסוים

אבל לא עבור מידע נפוץ, לדוגמא: אם תחפש כדורסל במנוע חיפוש מסוג אינדקס תקבל אלפי תוצאות מפוזרות לעומת זה

את תחפש במדריך תגיע לקטגוריה שלמה העוסקת בנושא.

Page 25: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon25

Limitations of Crawlers (1)

מטרתו של מנוע החיפוש היא לחפש באזור מסוים או בכל •האינטרנט. למצוא נתיב שממנו יוכל להמשיך לכל האינטרנט )או לכמות גדולה מאוד של דפים( החכמה היא למצוא נתיב

"חכם" כך שלא נצטרך לחזור שוב לאותו נתיב ולא נגיע מהר למבוי סתום.

למנועי החיפוש יש בעיות נוספות. הם מתחילים בנקודה מסוימת •ומעוניינים לאסוף מידע גדול ככל האפשר אבל לעיתים ישנם קישורים שבורים, קישורים חסרים, פערים, ובעיות תקשורת.

חשוב לזכור שמידע רב לא מאונדקס ע"י המנועים מסיבות •שונות. חלקם מכיוון שהמערכת מוצאת את הדף לא ראוי

וחלקם ממענים/אתרים שלא נשלחו למערכת לאינדוקס ולכן ישנו מידע שלא יוצג לעולם ע"י מנוע החיפוש.

Page 26: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon26

Limitations of Crawlers (2)

התהליך של הורדת הדפים ואינדוקס התוכן הוא מאוד קשה. •אם המערכת הייתה צריכה להוריד כל דף בנפרד )דף בכל פעם(, כיסוי כל האינטרנט היה לוקח שנים. ישנם "צווארי בקבוק" - איטיות התקשורת, ולכן המערכת מורידה אלפי

דפים באותו זמן ומעבדת אותם.תהליך האינדוקס של הדפים ושמירת התוכן לחיפוש חייב •

להיות מהיר והשמירה של המידע חייבת להיות בצורה כזו כך שהחיפוש העתידי )חיפוש המשתמש במנוע החיפוש( לא יארך זמן רב. לא נרחיב בנושא אבל ברור שמושקעת המון מחשבה בפיתוח של אלגוריתמים מתאימים לתהליך השמירה והחיפוש.

המידע באידקסים מעודכן כל זמן מסוים )בד"כ חודש(. זה לא •ממש יעיל מכיוון שישנו מידע שהמשתמש מעוניין בו והוא עדיין

לא עודכן ולכן מבחינת המשתמש הוא לא קיים.

Page 27: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon27

Limitations of Directories

הסדר שנקבע במדריך הוא אנושי ולעיתים מובן בצורה שונה •לאנשים שונים. לדוגמא: חיפוש של דייג יכול להיות בקטגוריה

של ספורט או בקטגוריה של תחביבים, לכל אדם זה מובן בצורה שונה. מדריכים משקיעים המון בארגון ונוחות למשתמש

אבל לא תמיד זה מצליח.מדריכים נותנים לך לחפש בארכיון שלהם ממש כמו •

באינדקסים אבל החיפוש מתבצע רק על כותרות האתר ובמידע-על ולא בתוכן האתר עצמו.

המטרה במדריך היא לחפש את סוג המידע ולא את תוכן •המידע )נקודה שחשוב לזכור(.

מדריכים מאוד יעילים למציאת מידע נפוץ אבל הם לא יכולים •לארגן את כל המידע בצורה מסוימת כך שיהיה קל למצוא

אותו.

Page 28: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon28

Maintenance Aspects

אינדקסים מתוחזקים ברובם אוטומטית והתערבות אנושית נעשית •למציאת שגיאות והסרתם. חיפוש דפים ועיבודם נעשה רק אם צריך

להסיר מידע לא מתאים.

מדריכים זקוקים להרבה יותר אחזקה. מדריכים מתוחזקים בד"כ ע"י •אנשים עם עזרה מגולשי האתר ומבעלי האתרים. מי שמוסיף את

האתרים למדריכים הם אנשים. אם המדריך מתוחזק טוב, האתרים מתווספים מהר והעדכונים מתבצעים מהר. ככל שהמדריך גדל,

מלאכה זו נעשית קשה ויקרה.

מכיוון שמנועי החיפוש מאוד מורכבים ומחוברים אליהם מספר עצום •של משתמשים בו-זמנית, ברור מדוע החברות שמפעילות את המנועים

לא משנות הרבה את צורת העבודה שלהם. אם האתר לא יספק את השרות זמן מסוים, המשתמש יעבור להשתמש במנוע אחר.

Page 29: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

A. Frank-T.Sharon29

Bibliography

• http://www.searchenginewatch.com

• http://www.searchtools.com

• http://www.allsearchengines.com/

• http://www.notess.com/search/

• http://www.searchengineworld.com/

• http://extremesearcher.com/

• http://www.lookoff.com/