slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
מנועי חיפוש PowerPoint Presentation
Download Presentation
מנועי חיפוש

Loading in 2 Seconds...

play fullscreen
1 / 72

מנועי חיפוש - PowerPoint PPT Presentation


  • 184 Views
  • Uploaded on

מנועי חיפוש. דודיק בן שימול אילן שוורץ אמיל מועמר סטניסלב גנס ארתור גולדמן דוד בן לולו. תוכן המצגת. רקע כללי עקרונות וטרמינולוגיה מידול של התחום אפליקציות סיכום לקחים ומסקנות מקורות ספרותיים ודיון. רקע כללי. מנוע חיפוש - מערכת אחזור מידע המאתרת מידע דיגיטלי.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'מנועי חיפוש' - awena


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

מנועי חיפוש

דודיק בן שימול

אילן שוורץ

אמילמועמר

סטניסלב גנס

ארתור גולדמן

דוד בן לולו

slide2
תוכן המצגת
  • רקע כללי עקרונות וטרמינולוגיה
  • מידול של התחום
  • אפליקציות
  • סיכום לקחים ומסקנות
  • מקורות ספרותיים ודיון
slide3
רקע כללי
  • מנוע חיפוש - מערכת אחזור מידע המאתרת מידע דיגיטלי.
  • צורת החיפוש הנפוצה היא מנועי חיפוש אינטרנטיים
  • תפקידי מנוע החיפוש:
  • הצגת מידע למשתמש.
  • צמצום זמן איתור מידע.
  • מתגבר על "הצפת המידע" במדיה הדיגיטלית (בעיקר ברשת האינטרנט).
slide4
עקרונות
  • קלט –עיבוד - פלט
  • לרוב פורמט הקלט הינו
    • תווים – בעיקר ברשת האינטרנט ובמערכות חיפוש קבצים
    • תמונות/אודיו – במערכות זיהוי ייעודיות (פרצופים/טביעות אצבעות/קול)
  • לאחר קליטת המידע ועיבודו (ע"פ אלגוריתם ייעודי), תציג לנו המערכת את הפלט שזוהה כמתאים לקלט שהזנו.
slide5
עקרונות
  • עקרון הפעולה הבסיסי של מנוע חיפוש הוא שהמשתמש ממלא שאילתא המבקשת את המידע הנחוץ לו.(תווים,תמונות,אודיו )
  • השרת מקבל את השאילתא ומפעיל יישום לביצוע הפעולה, תוך הפעלת אלגוריתמים שנועדו לסנן ולדרג את התוצאות כך שיהיו רק בנושא שהלקוח מחפש.
  • לסיום פעולתו מציג השרת את התשובה בפני המשתמש, בדרך כלל ברשימה.
slide6
טרמינולוגיה
  • מנוע חיפוש מודרני יורכב בדרך כלל משלשה חלקים:
  • עכביש - רכיב שמאתר את הקבצים, הנמצאים במחשב האישי או במרחב האינטרנט ומחלץ את תוכנם .
  • מנוע אינדקס - רכיב שמפרק את תכני המסמכים ויוצר מהם אינדקס לפי מילים .
  • מנוע איחזור - רכיב שמקבל שאילתא מהמשתמש, מאתר את התוצאות, ומאחזר קטעי מידע למשתמש.
  • מנועי החיפוש נבדלים ומשתנים אחד מהשני בכל אחד מהרכיבים הללו.
slide7
טרמינולוגיה
  • גמישות לשונית– יכולתו של מנגנון החיפוש להתגבר על בעיות הקשורות בשפה טבעית, כגון כתיב מלא וכתיב חסר, יחיד ורבים, טעויות כתיב קלות וכדומה.
  • קובץ ROBOT –קובץ טקסט שמכיל פרוטוקולים שמכוונים את עכבישי החיפוש. הקובץ ימליץ לעכביש על חלקים באתר, ויימנע כניסה מחלקים אחרים.
  • מנוע על meta-search engine -מנגנון שלוקח שאילתה ממשתמש קצה , שולח אותה במקביל למספר מנועי חיפוש ומחזיר תוצאות מכל אחד ממנועי החיפוש.
slide10
נקודות דמיון בין אפליקציות בתחום
  • לכל האפליקציות מטרה משותפת, שהיא חיפוש ואחזור מידע.
  • אפליקציות בתחום חולקות טרמינולוגיה משותפת.
  • תהליך וסדר פעולות של ביצוע חיפוש הוא דומה לכל האפליקציות.
  • עבודה עם משתמש אנושי (לא מכונה).
  • התחום מחייב ממשק משתמש דומה לכל האפליקציות (כולל, בהכרח, שדה קלט).
slide11
נקודות שוני בין אפליקציות בתחום

נקודות השוני העקריות הן:

  • בסיס נתונים סטטי/דינמי(שימוש בעכביש מול עדכון על ידי מנהל מעכרת).
  • סוגי אלגוריתם.
  • דרך הצגת הנתונים.
  • עבודה עם פרטי חיפוש שונים (URL, קבצי טקסט, תמונות ועוד).
  • אפשרויות הרחבת החיפוש.
  • גישה חופשית של משתמש ארעי אל המערכת מול משתמש שחייב רשות גישה.
slide12
גבולות התחום

על פי נקודות הדימיון ושוני נוכל להגדיר גבולות תחום ברורים כאשר

צריך לשמור על הדגשים הבאים:

  • ייעוד עיקרי של אפליקציה הוא חיפוש פריט ושליפתו מבסיס נתונים
  • אפליקציה חייבת בשימוש של אלגוריתם חיפוש ייעודי
slide20
יתרונות וחסרונות של התחום
  • יתרונות
    • רוב האפליקציות מתועדות היטב.
    • התחום רחב ואין בעיה של מחסור באפליקציות.
    • התחום פופלארי ולכן יש ספרות רבה עליו.
  • חסרונות
    • קשה לקבוע את גבולות התחום (Cross-domain).
    • חלקים רבים במידול דרשו ידע מעמיק בתחומים אחרים (אלגוריתמיקה, מבנה נתונים, אחזור מידע וכו').
    • קיים דמיון רב בין מרבית האפליקציות.
the find search engine1
The Find Search Engine
  • מנוע חיפוש משרות ב-506 לוחות דרושים של מעסיקים וחברות השמה השייך לקטגוריית מנועי Metasearch. סוג של מנוע חיפוש אשר מחפש במנועי חיפוש של לוחות דרושים על ידי הרצת אותה שאילתה במקביל בכל אתר. במקום לחפש באופן עצמאי בלוחות הדרושים, אתר זה עושה את העבודה ומהווה סוג של תחנה אחת למחפשי עבודה ובכך המשתמש מקבל מידע יותר מדוייק ויותר מסודר על משרב רצויה.האתר עובד לפי זה שהוא מחפש באתרים מאנדקסים של לוחות דרושים ידועים .
the find search engine2
The Find Search Engine
  • דרישות פונקציונליות ראשיות:
  • ביצוע חיפוש משרות
  • הוספת אתר לאוסף האתרים ה"מאונדקסים" של המנוע חיפוש.
  • מציאה והצגה מילות המפתח השימושיות ביותר.
slide28
במה שונה האפלקציה ?
  • יכולת הרצת שאילתה במקביל במספר גדול של אתרים.
  • יכולת הצגת מילות חיפוש נפוצות.
  • התמקדות החיפוש בתחום מסויים.
slide29
במה דומה האפלקציה?
  • ביצוע חיפוש ושימוש באחזור מידע.
  • הצגת דף תוצאות כולל סיכום קצר לכל תוצאה.
  • ממשק בסיסי ולא מסובך.
slide30

מנוע החיפוש הנפוץ ביותר ברשת. מלבד חיפוש של דפי אינטרנט, גוגל מאפשר לחפש ברשת גם תמונות, מזג האוויר, ציטוטי מניות, לפתור ביטויים מתמטיים( google calculator), לבצע המרות של מטבעות, לתרגם דפי אינטרנט ועוד.

  •  גוגל חייבת את הצלחתה, לאלגוריתם הדירוג שלה, PageRank. עד הגעתה של גוגל מנועי חיפוש דירגו אתרים לפי כמות מילות החיפוש המופיעות בדף האינטרנט.
  • מהירות החיפוש, גוגל שמה זאת למטרה עליונה. כאשר מחפשים שאילתה בגוגל, תמיד מופיע לצד מספר תוצאות החיפוש גם כמה זמן ארך החיפוש. כיום זמן חיפוש ממוצע בגוגל אורך 0.25 שנייה. כל שינוי שגוגל מבצעת למנוע החיפוש שלה, נמדד ראשית בכמות הזמן שלקחה עיבוד שאילתה.
slide31

PageRank מבטא את התפיסה החדשנית של גוגל בנוגע לדירוגם של דפי אינטרנט.

  • האלגוריתם מחשב עבור כל דף אינטרנט את מידת החשיבות שלו ומציג אותו בדירוג תוצאות החיפוש בהתאם. דירוג של דף נקבע על פי כמות הדפים המקשרים אליו וחשיבותם של הדפים המקשרים. כלומר, אם דפים רבים מקשרים אל דף מסוים, האלגוריתם קובע את מידת החשיבות של דפים אלה ומדרג את הדף על פי מידת חשיבותם. הדירוג מתבצע על סקאלה לוגריתמית עם ערכים בין 1 ל-10 ומושפע מגורמים נוספים כגון כמות הכניסות לדף והופעה של מילים רלוונטיות נוספות.
  • נכון לכיום ישנם יותר מ 200 אינדיקאטורים אותם בודק PageRank עבור כל דף.
quintura vs domain1
Quintura Vs Domain

login

Verify user autorisation

Search Web

Search Desktop

Show new visual semantic map

New word from semantic web

Query in query field

slide43

Quintura Vs Domain

Search and matching module

bing search engine
Bing Search Engine
  • מנועי החיפוש הקיימים עושים עבודה יפה בתחום הניווט ברשת וחיפוש אינפורמציה אבל הם לא ממש מסייעים לגולשים לעשות שימוש יעיל במידע שאספו.
  • כל הקונספט שעל פיו תוכנן מנוע בינג נעשה סביב המחשבה על איך באמת אנשים היו רוצים להפיק את המקסימום בתהליך איסוף האינפורמציה.
  • מייצג גישה חדשה שתאפשר לאנשים לעשות שימוש יעיל במידע שאספו במטרה לקבל החלטות חכמות.
bing search engine1
Bing Search Engine
  • בשלב איתור הקבצים, בינג בונה את מאגר המידע שלו באופן אוטומטי, באמצעות סריקה של האינטרנט על ידי רובוט (Spider ).
  • בשלב האינדקס-בינג יוצר אינדקס מפורט, ואף שומר התכנים בשלמותם פעם נוספת אצלו (cach).
  • בשלב אחזור המידע, בינג מאחזר תצוגה של מספר שורות לכל תוצאה שהוא מוצא.
bing search engine class diagram
Bing Search Engine-Class Diagram

HtmlDocument

Word

File

Preferences

User

Query

Spider

Catalog

CrawlerManeger

ResultFile

slide56
חיפוש שולחני (מבית מיקרוסופט)

כלי חיפוש מבית מיקרוסופט אשר משתמש בקובץ אינדקס ראשי על מנת לחפש קבצים במחשב אישי / רשת מחשבים.

התוכנה מותקנת אוטומטית במערכות ההפעלה החדשות של מיקרוסופט וניתנת להתקנה בישנות.

תהליך העבודה של התוכנית הוא יצירת קובץ אינדקס המאגד מידע מכל קבצי המחשב, ומאשר לבצע חיפוש מיידי בקבצים.

אחד היתרונות העיקריים בתוכנה הוא הוספת מאגר האאוטלוק לאינדקס, כך ניתן לחפש מיילים במהירות ויעילות ללא צורך לפתוח את התוכנה.

בנוסף, אם המחשב מחובר לרשת מקומית, כדוגמת MS EXCHANGE אז ניתן לבצע חיפוש גם במחשבים המשותפים לרשת.

slide57
המשך . . .

בתור משתמש, ניתנת לנו האפשרות להגדיר את אופן האינדוקס, מאיזה תיקייה לאנדקס, איזה סוג קבצים להכיל, מיקום האינדקס.

היתרון הוא מהירות החיפוש.

החסרון במידה וקיימת רשת מחשבים, והגדרנו מנוע אחזור המחפש בה, קיימת אפשרות שהמנוע יאנדקס קבצים הנחשבים פרטיים וישתף אותם עם שאר האנשים, לכן מגדיר המנוע צריך לשים לב לתיקיות שהוא בוחר לכלול מכל מחשב.

slide59
תמונת מסך של התוכנה

בחירת סוג קבצים

בחירת מקום קבצים מהם נבצע אינדקס

בחירת מיקום קובץ אינדקס

desktop search vs domain1
Desktop Search Vs DOMAIN

Preview item

Search Web

SelectData

Search Desktop

Index

Config + Extensions/Include

verifinger megamatcher sdk 6 2
VeriFinger MegaMatcher SDK 6.2

זו היא מערכת זהוי טביעות אצבעות. התכנה יודעת לעבוד בין היתר עם הקבצים של מאגרי נתונים של AFIS, הנמצאים בשמוש משטרתי בארצות שונות. הכלי מבוסס על השוואה דקטילוסקופית, הנהוגה בעולם מאז סוף מאה XIX. המערכת המעניקה אפשרות ליצור בסיס נתונים אלקטרוני ולערוך בו חיפוש לשם השוואת טביעות האצבע.

slide67

Interface

Admin

Interface

Interface

USER

Query

Query

ResultSet

Search Algorithm

DB

Item

Item

slide69
מסקנות ולקחים
  • שיתוף פעולה מלא בין חברי הקבוצה חיוני לצורך הבנת התחום ומידולו למרות גודל הקבוצה שלנו השתדלנו להתגבר על זה.
  • ניסיון קודם עם UML סייע במידול.
  • יש צורך לסקור יותר מ – 6 אפליקציות כדי להבין את התחום, למדלו ולזהות Variation Points.
  • היה צורך לחזור ולבצע קריאה חוזרת של המידולים / ספרות של האפליקציות מספר פעמים כדי לזהות את ה – Variation Points.
  • אנו חושבים שהתחום שבחרנו היה מתאים לעבודה במסגרת הקורס כיוון שהיקפו מתאים למסגרת הזמן והגדרתו וגבולותיו ברורים באופן יחסי.
slide70
מקורות ספרותיים

The Anatomy of a Large-Scale Hypertextual Web Search Engine, Sergey Brin and Lawrence Page, Computer

Science Department, Stanford University, Stanford, CA 94305.

Activity Based Metadata for Semantic Desktop Search, Paul AlexandruChirita, Rita Gavriloaie, StefaniaGhita, Wolfgang Nejdl and RalucaPaiu, source http://www.springerlink.com/content/q3yrwa5e1vklj33v/

The anatomy of a large-scale hypertextual Web search engine Sergey Brin and Lawrence Page, Computer Science Department, Stanford University, Stanford, CA 94305, USA

במאמר זה מציגים הכותבים אב טיפוס למנוע חיפוש אינטרנטי היפרטקסטואלי  גדול טווח עבור גוגל.

Optimizing search engines using clickthrough data

Thorsten Joachim Cornell University, Ithaca, NY  

מציגים שיטה לאופטימיזציה לאיחזור איכותי ממנועי חיפוש באמצעות הקלקה על מידע.

Google’s pagerank and beyond: The science of search engine rankings Amy N. Langville, Carl D. Meyer and Pablo FernÁndez

מאמר שמתאר חלק מהאלגוריתם החיפוש של גוגל וההיסטוריה של יצירתו.

Analysis of a very large web search engine query log

Craig Silverstein

Google Inc., 2400 Bayshore, Mountain View, CA

ניתוח של מנוע חיפוש altavistaשבוחן  מיליארד בקשות חיפוש בחודש וחצי.

slide71
מקורות ספרותיים

URL:

Google Vs Yahoo Vs MSN Comparing search algorithms - http://www.seobook.com/relevancy/

Microsoft Windows Desktop Search –

http://www.microsoft.com/windows/products/winfamily/desktopsearch/technicalresources/indexing.mspx

http://support.microsoft.com/kb/940157/he

http://search-engines.web-guide.co.il/compare_se_parameters.php

www.agri.huji.ac.il/library/chosing_engines_1109.doc

http://www.ynet.co.il/articles/0,7340,L-3200423,00.html

http://www.nrg.co.il/online/16/ART1/951/001.html

http://www.ynet.co.il/articles/0,7340,L-3195786,00.html

http://www.webmaster.org.il/article.asp?id=26

http://www.omerperchik.com/blog/

http://en.wikipedia.org/wiki/Enterprise_search

http://en.wikipedia.org/wiki/List_of_search_engines