Webcrawler

Aus Geometa Lab OST
Zur Navigation springen Zur Suche springen
Webcrawler
Programm, das durch rekursives Anfordern von Dokumenten, die auf Hyperlinks innerhalb dieser Dokumente basieren, automatisch das Web (bzw. ein Dateiverzeichnis-Baum) durchläuft.

Siehe auch GeometaBot.

Definitionen:

  • Bevorzugter Begriff: Webcrawler.
  • Überbegriff: Crawler
  • Synonyme: Spider, Web-Bot (Bot), Robot, Page Locator, Wanderer...

Typen von Crawlern:

  • Webcrawler, z.B. GoogleBot
  • Desktop Crawler, z.B. Copernikus, Google Desktop, oder svizzer
  • Spezial-Crawler, z.B. zur Verbesserung oder als Antispam-Tool für Wikipedia

Hinweise:

  • Geometa.info setzt einen Webcrawler ein namens GeometaBot, der u.a. auch nach Diensten und Geo-Metadaten sucht (über Harvesting Protokolle).
  • Es gab eine Diplomarbeit an der HSR mit Publikation zum Thema "'Versus' - Comparing Methods for Near-Uniform URL Sampling", http://versus.integis.ch/
  • For crawlers, the web is a graph!