1 / 10

Web Crawler

Web Crawler. Ayşegül Leyla İlhan 08260048.

harry
Download Presentation

Web Crawler

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web Crawler Ayşegül Leyla İlhan 08260048

  2. Web crawler , otomatik biçimde yada düzenli tarzda,worldwide web sisteminden oluşturulmuş bir bilgisayar programıdır.Bir çok site,özel arama motorlarında,veri güncelliğini sağlamakta web crawlerı kullanırlar.web Crawlerlar çoğunlukla,ziyaret edilen sayfaların kopyasını oluşturarak sonraki adımlardabir arama motorundaki aramaların indekslerini indirerek daha hızlı arama sağlayabilmek için kullanılır.

  3. Crawlerlar aynı zamanda web sitelerinin otomatik bakımı, link kontrolü yada html kodlarını onaylamak için kullanılabilir.Ayrıca,web sayfalarındaki bilgilerden bir türe özgü örneklerin toplanılmasında kullanılabilinir,örneğin emailadreslerinin toplanılması.

  4. Web crawler e karıncalar,otomatik indeksciler,web örümcekleri,web robotları da denir • Bir web örümceği sadece doğrudan bağlantı verilen sayfaları görebilir • Daima anahtar kelimeleri gözetler ve web sitelerini, tarama ya da gezinme adı verilen bir süreçle dolaşır.

  5. Aynı zamanda arama motorlarının bir web sitesini düzenli olarak gezen ve bilgi toplayan bilgisayar programıdır ve arama motoru örümceği de denilmektedir. • Herkes web gezginlerini dolaylı olarak da olsa kullanır. • Arama motorları da web de istediklerini bulmak için crawlerları kullanırlar

  6. *özel amaçlı bir web sitesi oluşturmak istersek • *firmamızın telif hakkı için arama yapmak istersek • * sitelerin yapı ve içeriğinin değişimini görmek için siteleri izlemek istersek. • web sayfalarındaki bilgilerden bir türe özgü örneklerin toplanılmasını istersek,örneğin e mail adreslerinin toplanılması.

  7. Web Crawler Nasıl Çalışır Bir spider ya da türkçesiyle örümceğin çalışma mantığını şu şekilde özetleyebiliriz: Programımız bir web sitesine girer. Web sitesinde, o an gezilen sayfadaki linkleri kontrol eder ve link bulursa bu linkleri daha sonra ziyaret etmek üzere hafızasına kaydeder. Sonra sırasıyla linkler taranarak, web sitesinde hiç link kalmayıncaya kadar bu işleme devam edilir. mesela bir web sayfasını gezerken sayfada link olup olmadığını anlamak için bir düzenli ifade (regularexpression)yada programlama dillerinin özel sınıflarını kullanabiliriz.

  8. web tarayıcı yazılımları virüsler gibi internetteki farklı bilgisayarlar arasında hareket etmezler. • web crawlerlar tek bir makine üzerinde bulunurlar.web crawlerlar sadece linklere tıklandığında belgeler için internetteki değer bilgisayarlara http isteği gönderirler. • Tarayıcılar genellikle birden fazla aynı kaynak taramasını engellemek amacıyla URL normalleştirmeyi gerçekleştirirler. Ayrıca URL canonicalization denilen süreç , URL normalleştirme, değiştirme ve sürekli bir biçimde olacak şekilde URL’nin standartlaştırıldığı bir süreçtir.URLleriküçük harfe dönüştürme de dahil olmak üzere yapılabilen çeşitli normalleştirme türleri vardır. • Bir web crawlerin iyibirtaramastratejisiolmalıveaynızamandaiyiderecede optimize edilmişbirmimariye de sahipolmalıdır.

More Related