1 / 14

איחזור מידע אלגוריתמי חיפוש PageRank

איחזור מידע אלגוריתמי חיפוש PageRank. ד"ר אבי רוזנפלד. שלבים למנוע חיפוש. בניית המאגר מידע ( Web crawler ) בניית האנדקסים (לאנדקס Index ) ניקיון המידע מכפילות, STEMMING בניית התשובה עיבוד השאלתה (הורדת STOP WORDS ) דירוג תוצאות ( PAGERANK ) ניתוח התוצאות

kimball
Download Presentation

איחזור מידע אלגוריתמי חיפוש PageRank

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. איחזור מידעאלגוריתמי חיפוש PageRank ד"ר אבי רוזנפלד

  2. שלבים למנוע חיפוש • בניית המאגר מידע (Web crawler) • בניית האנדקסים (לאנדקס Index) • ניקיון המידע מכפילות, STEMMING • בניית התשובה • עיבוד השאלתה (הורדת STOP WORDS) • דירוג תוצאות (PAGERANK) • ניתוח התוצאות • FALSE POSITIVE / FALSE NEGATIVE • Recall / Precision

  3. Indexing Process

  4. Web Crawler / זחלן רשת • Identifies and acquires documents for search engine • http://en.wikipedia.org/wiki/Web_crawler • זחלן רשת הוא סוג של בוט או תוכנה שסורקת באופן אוטומטי ושיטתי את הWWW. • מדיניות של בחירה אשר מגדירה איזה עמוד להוריד. • מדיניות של ביקור חוזר אשר מגדירה מתי לבדוק שינויים בדפים. • מדיניות נימוס אשר מגדירה איך להימנע מעומס יתר של אתרים ולגרום להפלה של השרת. • מדיניות של הקבלה אשר מגדירה איך לתאם בין הזחלנים השונים.

  5. ניתוח התוכן • בהיסתוריה אתיקה (לפני GOOGLE) היה שימוש בתוכן כולל ניתוח האתר • תגי META • זמן הטעינה • אחרי GOOGLE יש ניתוח של מבנה הרשת

  6. The History of PageRank PageRank was developed by Larry Page (hence the name Page-Rank) and Sergey Brin. It is first as part of a research project about a new kind of search engine. That project started in 1995 and led to a functional prototype in 1998. Shortly after, Page and Brin founded Google. 16 billion…

  7. PageRank • PageRank is a link analysis algorithm which assigns a numerical weighting to each Web page, with the purpose of "measuring" relative importance. • Based on the hyperlinks map • An excellent way to prioritize the results of web keyword searches

  8. Link Structure of the Web • 150 million web pages  1.7 billion links • Backlinks and Forward links: • A and B are C’s backlinks • C is A and B’s forward link Intuitively, a webpage is important if it has a lot of backlinks. What if a webpage has only one link off www.yahoo.com?

  9. Simplified PageRank algorithm • Assume four web pages: A, B,C and D. Let each page would begin with an estimated PageRank of 0.25. • L(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: C A D B C A D B

  10. בפועל זה בדרך כלל יותר קשה לחשב... • פה C הוא חשוב בגלל שיש לו קישור שנכנס מB, חשוב בגלל שיש קישורים שנכנסים לו מכמה אתרים. • יש PageRank מצטבר אבל בתוספת שולית (damping factor), d. • נניח שיש פה d=0.85 אז הPR של A =

  11. אפשר לראות את המדד PAGERANK

  12. קידום אתרים במנועי חיפושSearch Engine Optimization (SEO) • בגלל שPAGERANK היה ידועה, היו אנשים שקידמו אתרים(למה אבי רוזנפלד – אני – ראשון?) • בניית קישורים מלאכותיים • Building, Link Farming • יצירת אתרי זבל– בלוגים, מיילים וכדומה לאתר • סתם הוספת תוכן בתגי META

  13. השוואת האתרים של מכון לב ובר-אילן http://checkpagerank.net/ מכון לב - PageRank = 6/10 • Backlinks information provided by Majestic SEO בר-אילן - PageRank = 7/10

  14. גוגל "פנדה" • לא רק על בסיס PAGERANK המקורי • לא פורסם • שוקל ותק הקישור • שוקל מקור הקישור • שוקל היעד של הקישור • בניית שיטות של למידת מכונה לתת משקל לקישורים • PageRank is now one of 200 ranking factors that Google uses to determine a page’s popularity.  • http://www.accuracast.com/articles/optimisation/jagger/ (העדכון Jagger מ2005)

More Related