1 / 72

מנועי חיפוש

מנועי חיפוש. דודיק בן שימול אילן שוורץ אמיל מועמר סטניסלב גנס ארתור גולדמן דוד בן לולו. תוכן המצגת. רקע כללי עקרונות וטרמינולוגיה מידול של התחום אפליקציות סיכום לקחים ומסקנות מקורות ספרותיים ודיון. רקע כללי. מנוע חיפוש - מערכת אחזור מידע המאתרת מידע דיגיטלי.

awena
Download Presentation

מנועי חיפוש

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. מנועי חיפוש דודיק בן שימול אילן שוורץ אמילמועמר סטניסלב גנס ארתור גולדמן דוד בן לולו

  2. תוכן המצגת • רקע כללי עקרונות וטרמינולוגיה • מידול של התחום • אפליקציות • סיכום לקחים ומסקנות • מקורות ספרותיים ודיון

  3. רקע כללי • מנוע חיפוש - מערכת אחזור מידע המאתרת מידע דיגיטלי. • צורת החיפוש הנפוצה היא מנועי חיפוש אינטרנטיים • תפקידי מנוע החיפוש: • הצגת מידע למשתמש. • צמצום זמן איתור מידע. • מתגבר על "הצפת המידע" במדיה הדיגיטלית (בעיקר ברשת האינטרנט).

  4. עקרונות • קלט –עיבוד - פלט • לרוב פורמט הקלט הינו • תווים – בעיקר ברשת האינטרנט ובמערכות חיפוש קבצים • תמונות/אודיו – במערכות זיהוי ייעודיות (פרצופים/טביעות אצבעות/קול) • לאחר קליטת המידע ועיבודו (ע"פ אלגוריתם ייעודי), תציג לנו המערכת את הפלט שזוהה כמתאים לקלט שהזנו.

  5. עקרונות • עקרון הפעולה הבסיסי של מנוע חיפוש הוא שהמשתמש ממלא שאילתא המבקשת את המידע הנחוץ לו.(תווים,תמונות,אודיו ) • השרת מקבל את השאילתא ומפעיל יישום לביצוע הפעולה, תוך הפעלת אלגוריתמים שנועדו לסנן ולדרג את התוצאות כך שיהיו רק בנושא שהלקוח מחפש. • לסיום פעולתו מציג השרת את התשובה בפני המשתמש, בדרך כלל ברשימה.

  6. טרמינולוגיה • מנוע חיפוש מודרני יורכב בדרך כלל משלשה חלקים: • עכביש - רכיב שמאתר את הקבצים, הנמצאים במחשב האישי או במרחב האינטרנט ומחלץ את תוכנם . • מנוע אינדקס - רכיב שמפרק את תכני המסמכים ויוצר מהם אינדקס לפי מילים . • מנוע איחזור - רכיב שמקבל שאילתא מהמשתמש, מאתר את התוצאות, ומאחזר קטעי מידע למשתמש. • מנועי החיפוש נבדלים ומשתנים אחד מהשני בכל אחד מהרכיבים הללו.

  7. טרמינולוגיה • גמישות לשונית– יכולתו של מנגנון החיפוש להתגבר על בעיות הקשורות בשפה טבעית, כגון כתיב מלא וכתיב חסר, יחיד ורבים, טעויות כתיב קלות וכדומה. • קובץ ROBOT –קובץ טקסט שמכיל פרוטוקולים שמכוונים את עכבישי החיפוש. הקובץ ימליץ לעכביש על חלקים באתר, ויימנע כניסה מחלקים אחרים. • מנוע על meta-search engine -מנגנון שלוקח שאילתה ממשתמש קצה , שולח אותה במקביל למספר מנועי חיפוש ומחזיר תוצאות מכל אחד ממנועי החיפוש.

  8. מידול התחום

  9. תהליך מידול התחום

  10. נקודות דמיון בין אפליקציות בתחום • לכל האפליקציות מטרה משותפת, שהיא חיפוש ואחזור מידע. • אפליקציות בתחום חולקות טרמינולוגיה משותפת. • תהליך וסדר פעולות של ביצוע חיפוש הוא דומה לכל האפליקציות. • עבודה עם משתמש אנושי (לא מכונה). • התחום מחייב ממשק משתמש דומה לכל האפליקציות (כולל, בהכרח, שדה קלט).

  11. נקודות שוני בין אפליקציות בתחום נקודות השוני העקריות הן: • בסיס נתונים סטטי/דינמי(שימוש בעכביש מול עדכון על ידי מנהל מעכרת). • סוגי אלגוריתם. • דרך הצגת הנתונים. • עבודה עם פרטי חיפוש שונים (URL, קבצי טקסט, תמונות ועוד). • אפשרויות הרחבת החיפוש. • גישה חופשית של משתמש ארעי אל המערכת מול משתמש שחייב רשות גישה.

  12. גבולות התחום על פי נקודות הדימיון ושוני נוכל להגדיר גבולות תחום ברורים כאשר צריך לשמור על הדגשים הבאים: • ייעוד עיקרי של אפליקציה הוא חיפוש פריט ושליפתו מבסיס נתונים • אפליקציה חייבת בשימוש של אלגוריתם חיפוש ייעודי

  13. Adom Class Diagram

  14. Adom – Item Hierarchy

  15. Adom – DB Class Diagram

  16. Adom – Use Case

  17. Adom - Perform Search Sequence

  18. ישויות שחייבות להופיע

  19. קשרים שחייבים להופיע

  20. יתרונות וחסרונות של התחום • יתרונות • רוב האפליקציות מתועדות היטב. • התחום רחב ואין בעיה של מחסור באפליקציות. • התחום פופלארי ולכן יש ספרות רבה עליו. • חסרונות • קשה לקבוע את גבולות התחום (Cross-domain). • חלקים רבים במידול דרשו ידע מעמיק בתחומים אחרים (אלגוריתמיקה, מבנה נתונים, אחזור מידע וכו'). • קיים דמיון רב בין מרבית האפליקציות.

  21. “The Find” Search Engine

  22. The Find Search Engine • מנוע חיפוש משרות ב-506 לוחות דרושים של מעסיקים וחברות השמה השייך לקטגוריית מנועי Metasearch. סוג של מנוע חיפוש אשר מחפש במנועי חיפוש של לוחות דרושים על ידי הרצת אותה שאילתה במקביל בכל אתר. במקום לחפש באופן עצמאי בלוחות הדרושים, אתר זה עושה את העבודה ומהווה סוג של תחנה אחת למחפשי עבודה ובכך המשתמש מקבל מידע יותר מדוייק ויותר מסודר על משרב רצויה.האתר עובד לפי זה שהוא מחפש באתרים מאנדקסים של לוחות דרושים ידועים .

  23. The Find Search Engine • דרישות פונקציונליות ראשיות: • ביצוע חיפוש משרות • הוספת אתר לאוסף האתרים ה"מאונדקסים" של המנוע חיפוש. • מציאה והצגה מילות המפתח השימושיות ביותר.

  24. The Find – Class Diagram

  25. The Find – Use Case

  26. The Find – Sequence Diagram

  27. הבדלים בהקשר האפלקציה בתחום

  28. במה שונה האפלקציה ? • יכולת הרצת שאילתה במקביל במספר גדול של אתרים. • יכולת הצגת מילות חיפוש נפוצות. • התמקדות החיפוש בתחום מסויים.

  29. במה דומה האפלקציה? • ביצוע חיפוש ושימוש באחזור מידע. • הצגת דף תוצאות כולל סיכום קצר לכל תוצאה. • ממשק בסיסי ולא מסובך.

  30. מנוע החיפוש הנפוץ ביותר ברשת. מלבד חיפוש של דפי אינטרנט, גוגל מאפשר לחפש ברשת גם תמונות, מזג האוויר, ציטוטי מניות, לפתור ביטויים מתמטיים( google calculator), לבצע המרות של מטבעות, לתרגם דפי אינטרנט ועוד. •  גוגל חייבת את הצלחתה, לאלגוריתם הדירוג שלה, PageRank. עד הגעתה של גוגל מנועי חיפוש דירגו אתרים לפי כמות מילות החיפוש המופיעות בדף האינטרנט. • מהירות החיפוש, גוגל שמה זאת למטרה עליונה. כאשר מחפשים שאילתה בגוגל, תמיד מופיע לצד מספר תוצאות החיפוש גם כמה זמן ארך החיפוש. כיום זמן חיפוש ממוצע בגוגל אורך 0.25 שנייה. כל שינוי שגוגל מבצעת למנוע החיפוש שלה, נמדד ראשית בכמות הזמן שלקחה עיבוד שאילתה.

  31. PageRank מבטא את התפיסה החדשנית של גוגל בנוגע לדירוגם של דפי אינטרנט. • האלגוריתם מחשב עבור כל דף אינטרנט את מידת החשיבות שלו ומציג אותו בדירוג תוצאות החיפוש בהתאם. דירוג של דף נקבע על פי כמות הדפים המקשרים אליו וחשיבותם של הדפים המקשרים. כלומר, אם דפים רבים מקשרים אל דף מסוים, האלגוריתם קובע את מידת החשיבות של דפים אלה ומדרג את הדף על פי מידת חשיבותם. הדירוג מתבצע על סקאלה לוגריתמית עם ערכים בין 1 ל-10 ומושפע מגורמים נוספים כגון כמות הכניסות לדף והופעה של מילים רלוונטיות נוספות. • נכון לכיום ישנם יותר מ 200 אינדיקאטורים אותם בודק PageRank עבור כל דף.

  32. Use-case Diagram

  33. Class Diagram

  34. Sequence Diagram: crawling the web

  35. תמונת מסך של התוכנה

  36. תרשים USE CASE

  37. תרשים Class Diagram

  38. תרשים ביצוע חיפוש

  39. Quinturavs Domain

  40. Quintura Vs Domain login Verify user autorisation Search Web Search Desktop Show new visual semantic map New word from semantic web Query in query field

  41. Quintura Vs Domain Search and matching module

  42. Bing Search Engine • מנועי החיפוש הקיימים עושים עבודה יפה בתחום הניווט ברשת וחיפוש אינפורמציה אבל הם לא ממש מסייעים לגולשים לעשות שימוש יעיל במידע שאספו. • כל הקונספט שעל פיו תוכנן מנוע בינג נעשה סביב המחשבה על איך באמת אנשים היו רוצים להפיק את המקסימום בתהליך איסוף האינפורמציה. • מייצג גישה חדשה שתאפשר לאנשים לעשות שימוש יעיל במידע שאספו במטרה לקבל החלטות חכמות.

  43. Bing Search Engine • בשלב איתור הקבצים, בינג בונה את מאגר המידע שלו באופן אוטומטי, באמצעות סריקה של האינטרנט על ידי רובוט (Spider ). • בשלב האינדקס-בינג יוצר אינדקס מפורט, ואף שומר התכנים בשלמותם פעם נוספת אצלו (cach). • בשלב אחזור המידע, בינג מאחזר תצוגה של מספר שורות לכל תוצאה שהוא מוצא.

  44. Bing Search Engine

  45. Bing Search Engine-Class Diagram HtmlDocument Word File Preferences User Query Spider Catalog CrawlerManeger ResultFile

  46. Bing Search Engine-Class Diagram

  47. Bing Search Engine-Class Diagram

More Related