SEO-Glossar

Previous - 1 - 2 - 3 - Next

21. Suchmaschine

Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Internet-Suchmaschinen haben ihren Ursprung in Information-Retrieval-Systemen. Sie erstellen einen Schlüsselwort-Index für die Dokumentbasis, um Suchanfragen über Schlüsselwörter mit einer nach Relevanz geordneten Trefferliste zu beantworten. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden. Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind: * Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen über Dokumente), * Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie * Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form. In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.

22. TLD

Siehe auch Top Level Domain. Jeder Name einer Domain im Internet besteht aus einer Folge von durch Punkte getrennten Zeichen. Die Bezeichnung Top-Level-Domain (vom englischen top level domain, übersetzt Bereich oberster Ebene; Abkürzung TLD) bezeichnet dabei den letzten Namen dieser Folge und stellt die höchste Ebene der Namensauflösung dar. Ist der vollständige Domain-Name eines Rechners bzw. einer Website beispielsweise de.wikipedia.org, so entspricht das rechte Glied (org) der Top-Level-Domain dieses Namens. Im so genannten Domain Name System (DNS) werden die kompletten Namen und damit auch die TLDs referenziert und aufgelöst, also einer eindeutigen IP-Adresse zugeordnet. Die Registrierungsstelle legt dabei einen Datenbank-Eintrag über den Inhaber an, der Whois-Abfragen über das gleichnamige Protokoll, ähnlich einem Telefonbuch, ermöglicht. TLDs werden von der IANA in zwei Hauptgruppen und einen Sonderfall unterteilt: - allgemeine TLDs: generic TLDs (gTLDs), unterteilt in sponsored TLDs (sTLDs) und unsponsored TLDs (uTLDs) - länderspezifische TLDs: country-code TLDs oder ccTLDs - die Infrastruktur-TLD (iTLD) .arpa (Sonderfall) und das (jedoch nie in Gebrauch gewesene) .root Nicht mehr in Gebrauch sind die Sonderfälle .bitnet und .uucp. Länderspezifische TLD-Bezeichner bestehen dabei immer aus zwei Buchstaben, allgemeine TLD-Bezeichner bestehen aus drei oder mehr Buchstaben.

23. Top Level Domain

Siehe auch TLD. Jeder Name einer Domain im Internet besteht aus einer Folge von durch Punkte getrennten Zeichen. Die Bezeichnung Top-Level-Domain (vom englischen top level domain, übersetzt Bereich oberster Ebene; Abkürzung TLD) bezeichnet dabei den letzten Namen dieser Folge und stellt die höchste Ebene der Namensauflösung dar. Ist der vollständige Domain-Name eines Rechners bzw. einer Website beispielsweise de.wikipedia.org, so entspricht das rechte Glied (org) der Top-Level-Domain dieses Namens. Im so genannten Domain Name System (DNS) werden die kompletten Namen und damit auch die TLDs referenziert und aufgelöst, also einer eindeutigen IP-Adresse zugeordnet. Die Registrierungsstelle legt dabei einen Datenbank-Eintrag über den Inhaber an, der Whois-Abfragen über das gleichnamige Protokoll, ähnlich einem Telefonbuch, ermöglicht. TLDs werden von der IANA in zwei Hauptgruppen und einen Sonderfall unterteilt: - allgemeine TLDs: generic TLDs (gTLDs), unterteilt in sponsored TLDs (sTLDs) und unsponsored TLDs (uTLDs) - länderspezifische TLDs: country-code TLDs oder ccTLDs - die Infrastruktur-TLD (iTLD) .arpa (Sonderfall) und das (jedoch nie in Gebrauch gewesene) .root Nicht mehr in Gebrauch sind die Sonderfälle .bitnet und .uucp. Länderspezifische TLD-Bezeichner bestehen dabei immer aus zwei Buchstaben, allgemeine TLD-Bezeichner bestehen aus drei oder mehr Buchstaben.

24. Webcrawler

Ein Webcrawler (auch Spider oder Robot, kurz Bot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind beispielsweise das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder anderer Informationen. Der Begriff bürgerte sich durch die gleichnamige Suchmaschine WebCrawler ein, welche 1994 die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex war. Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs hinzugefügt. Auf diese Weise können theoretisch alle erreichbaren Seiten des WWW gefunden werden. In der Praxis wird jedoch oft eine Auswahl getroffen, der Prozess irgendwann beendet und von vorne begonnen. Webcrawler sind eine spezielle Art von Bots und werden auch als Spider bezeichnet, da sie sich wie diese in einem Netz fortbewegen. Thematisch fokussierte Webcrawler werden als focused crawlers bzw. fokussierte Web Crawler bezeichnet. Zentraler Unterschied zu universellen Crawlern ist dabei, dass der fokussierte Crawler über Hintergrundwissen und somit über eine Art künstliche Intelligenz verfügt. Die Fokussierung der Web-Suche wird einerseits durch die Klassifizierung einer Webseite an sich und die Klassifizierung der einzelnen Hyperlinks realisiert. Dadurch findet der fokussierte Crawler den besten Weg durch das Web und indiziert nur (für ein Thema bzw. Domäne) relevante Bereiche des Webs. Hürden bei der praktischen Umsetzung derartiger Web Crawler sind - neben den auch für universelle Web Crawler auftretenden Problemen Spam, ständige Veränderung des Webs, Deep Web und Ranking-Manipulation - vor allem nicht-verlinkte Teilbereiche und das Training der Klassifizierer. Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen. Dabei werden verschiedene Ranking-Algorithmen eingesetzt. Webcrawler werden auch zur Datenschürfung (data mining) und zur Untersuchung des Internets (Webometrie) eingesetzt und müssen nicht zwangsläufig auf das WWW beschränkt sein. Ein Großteil des gesamten Internets wird von Webcrawlern und damit auch von öffentlichen Suchmaschinen nicht erfasst, da viele Inhalte nicht über einfache Links, sondern beispielsweise nur über Suchmasken und zugangsbeschränkte Portale erreichbar sind. Man spricht bei diesen Bereichen auch vom „Deep Web“. Mit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indizieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält.

Previous - 1 - 2 - 3 - Next