WWW-Suchmaschinen

© Nicol Hermann

Das Internet ist als Informationsquelle nahezu unerschöpflich. Durch die immer weiter zunehmende Fülle an angebotener Information wird es aber immer schwieriger, die gewünschte Information gezielt herauszufiltern.
Eine Hilfestellung, um trotzdem an die gewünschte Information heranzukommen, bieten WWW-Suchmaschinen (search engines).
Diese suchen über Suchworte nach entsprechenden Seiten im gesamten Internet oder in themenbeschrängten Teilbereichen davon (Kataloge). Um hierbei die größtmögliche Effizienz zu erzielen, sollte man sich die Zeit nehmen, die von Suchmaschine zu Suchmachine leicht differierenden Suchoptionen durchzulesen. Dies gilt im besonderen bei der Verkettung von Suchworten. Das gängigste hier verwendete Verfahren ist die Kombination mehrerer Suchbegriffe durch sogenannte boolesche Operatoren. Verläßlicher ist in vielen Fällen aber die Methode bestimmten Suchbegriffen ein '+' voranzustellen, bzw. mit einem vorangestellten '-' bestimmte begriffe auszuschließen. Neben diesen pauschalen Möglichkeiten bieten die Recherchehelfer noch individuelle Besonderheiten auf die z.T. bereits in der nachfolgenden Tabelle hingewiesen wird.

Folgende Typen von Suchmaschinen werden unterschieden

(Volltext-) Suchmaschine

Suchdienst der ein Suchangebot automatisiert erstellt. Eine Volltextsuchmaschine besteht im wesentlichen aus drei Teilen: Aus Datensammlern, einem Indizierungs- sowie Abfrageprogramm. Die Datensammler, sogenannte Robots, besuchen rund um die Uhr Websites. Dazu setzen die Suchmaschinen zum Teil mehrere Hundert davon ein. Als Startpunkt erhält ein Robot URL´s (Uniform Resource Locator) die sich bereits im Index der Suchmaschine befinden, oder Webadressen, die bei dieser angemeldet wurden. Über deren Linkverknüpfungen geht die Suchmaschine weiter. Auf diese Weise baut die Suchmaschine zum einen ihren Datenbestand um neue Adressen aus, zum anderen überprüft sie regelmäßig die Existenz und Aktualität bereits erfasster Links. Duch die große Zahl der täglich hinzukommenden Websites ist die Aktualisierungsgeschwindigkeit der Indizies von Suchmaschinen allerdings nicht sehr hoch. Die verlässlichsten der Suchhelfer, beispielsweise AltaVista, aktualisieren ihren Index einmal im Monat, HotBot kann hierfür bis zu zwei Monaten benötigen.
Welche Seiten vom Robot in das Verzeichnis der Suchmaschine aufgenommen wird, variiert von Suchmaschine zu Suchmaschine. So verfolgen beispielsweise Exicte und Lycos Links nicht, die sich hinter Image Maps verbergen, Inktoni und GO unterstützen keine Frames. Darüber hinaus haben die Administratoren der Seiten aber auch die Möglichkeit, durch die Datei robots.txt, die Indizierung Ihrer Seite zu steuern bzw. zu verhindern.
Die von den Robots ermittelten Daten verarbeitet der Indizierer weiter. In Abhängigkeit von den in den Seiten enthaltenen Wörtern baut er einen Volltextindex auf. Die Priorisierung (ranking), also die Einstufung im Index in Bezug zu bestimmten Suchbegriffen, der indizierten Seiten, hängt von verschiedenen Faktoren ab. Eine wichtige Rolle spielt, wie häufig und an welcher Stelle (z.B. in der URL, im Titel, in Überschriften, in normalen Absätzen oder in den sogenannten Meta-Tags) der Suchbegriff im Dokument vorkommt. Meta-Tags sind spezielle Auszeichnungen für Daten innerhalb des HTML-Dokumentes die nur im Quelltext der Seite erkennbar sind. Vom Browser werden Sie nicht dargestellt. Neben Informationen zum Autor der Webseite können Meta-Tags auch Schlüsselbegriffe enthalten, die den Inhalt der Seiten beschreiben. Weiterführende Informationen zu den Meta-Tags finden Sie beispielsweise bei Selfhtml.
Darüber hinaus gehen die Suchmaschinen immer mehr dazu über, externe Informationen in das Ranking mit einzubeziehen. So betreibt beispielsweise der Suchdienst Go neben der Volltextsuchmaschine einen redaktionell erstellten Katalog. Ist eine Site darin enthalten, so verbessert es auch das Ranking in der Suchmaschine.
Ein weiteres Kriterium zur Verfeinerung des Rankings, das immer mehr Suchmaschinen (z.B. Google, AltaVista, Excite, Go und Inktomi) mit berücksichtigen, sind externe Links. Je mehr andere Webangebote auf eine Site verweisen, desto besser wird diese bewertet. Damit berücksichtigt die Suchmaschine gewissermaßen eine Vorbewertung durch die Internet-Gemeinde. Bewertet wird hier neben der Anzahl auch die nach bestimmten Kriterien festgelegte Wichtigkeit der verweisenden Seiten.
Einzelne Suchmaschinen z.B. Hotbot, setzen auch das Benutzerverhalten zur Bewertung des Rankings ein. Hierzu wird ein Redirect-Verfahren angewendet, dass zunächst die angewählte Seite an die Suchmaschine zurückmeldet, bevor dann auf die eigentliche Seite gesprungen wird. Verweise, die von Besuchern öfter angeklickt werden und auf denen sie länger verweilen, werden besser bewertet.

Deutschsprachige

Paperball http://www.paperball.de, durchsucht deutschsprachige Zeitungen
  Fireball http://www.fireball.de, Die Spezialität von Fireball ist die Feldsuche. Diese kann über den dargestellten Teil einer HTML-Seite und deren Quelltexte durchführen werden. Z.B. images:gates, link: <webserver> oder url:internet and domain:com
  Crawler http://www.crawler.de
  Hotlist http://www.hotlist.de

Englischsprachige

Hotbot http://www.hotbot.com, HotBot unterscheidet eine beeindruckende Vielfalt an Suchoptionen die insbesondere für Programmierer und Designer interessant sind. Meta-Suchbegriffe wie feature:, depth:, scriptlanguage:, within: lassen detailierte Suchen zu.
  Altavista http://www.altavista.digital.com, mit 150 Millionen indizierter Sites derzeit größte Suchmaschine. Mit der Funktion anchor: " <suchstring>" lassen sich Texte von Hyperlinks untersuchen. Die Suchbegriffe können wie gewohnt eingegeben werden. Eine Zusatz-Option bietet der Begriff host. Mit ihm läßt sich die Suche auf einen bestimmten Rechner einschrängen. So bewirkt die Angabe host:www.microsoft.com eine Begrenzung der Suche auf den Rechner von Microsoft.
  NorthernLight http://www.northernLight.com
  Google http://www.google.com
  All the Web, All the Time Fast Search & Transfer http://www.alltheweb.com, Nach Angaben der Betreiber mit ca. 200 Mio. erfassen Web Pages die derzeit weltgrößte Internet-Suchmaschine.
 
Katalog

Redaktionell, nach formalen oder inhaltlichen Maßstäben erstelltes Suchangebot, Vorteil: redaktionelle Bearbeitung, Nachteil: Kataloge können mit der Dynamik des Internet nicht mithalten so daß das Informationsangebot nur einen Bruchteil der im Internet angebotenen Informationen erfaßt.
Bewertungen von Seiten finden in der Regel nicht statt, so dass alle Verweise innerhalb einer Verzeichniskategorie typischerweise gleichwertig und alphabethisch sortiert sind.

Deutschsprachig

Yahoo! Deutschland http://www.yahoo.de
  Dino-Online http://www-dino-online.de, 151.000 redaktionell bearbeitete Quellen im Katalog, Branchenverzeichnis Regionales Verzeichnis
  Karlsruher Virtueller Katalog http://kvk.uni-karlsruhe.de
  web.de Nachrichten. Suche im IRC
  www.allesklar.de Länder-, Städte-, Regionen-Verzeichnis

Englischsprachig

Yahoo! http://www.yahoo.com
  Open Directory Project http://www.dmoz.org, Katalog, der von ca. 12.000 freiwilligen Surfern gepflegt wird. Er enthält derzeit ca. 600.000 Sites in knapp 100.000 Kategorien. Der deutschsprachige Teil des internationalen Angebotes ist noch recht dünn gesät.
  Excite http://www.excite.com, Suche nach Ländern möglich
 
Meta-Suchmachinen/Meta-Crawler

Suchmaschinen der nächsten Generation. Metasuchmaschinen bieten die Möglichkeit, parallel in mehreren Katalogen und Volltextsuchmaschinen zu suchen. Dabei leiten Metacrawler Anfragen an verschiedene Recherchehelfer weiter, sammeln deren Ergebnisse und bereiten sie in einer einheitlichen Weise auf. Ganz allgemeine müssen Meta-Suchmaschinen folgende 7 Kriterien erfüllen:

  1. Parallele Suche

  2. Ergebnis-Merging.
    Die Ergebnisse müssen zusammengeführt und in einem einheitlichen Format dargestellt werden

  3. Doubletten-Eliminierung.
    Doppelte Fundstellen müssen erkannt und gekennzeichnet werden

  4. Mindestens AND- und OR Operatoren.
    Für logische Operatoren müssen mindestens die Operatoren AND und OR zur Verfügung stehen

  5. Kein Informationsverlust

  6. Search Engine Hiding

  7. Vollständige Suche

Beispiele für solche Meta-Suchmaschinen sind:

Deutschsprachig

MetaGer (Rechenzentrum Niedersachsen) http://meta.rrzn.uni-hannover.de
Über Optionsschaltflächen lassen sich die verschiedenen deutschsprachigen Suchmaschinen anwählen.
  apollo7 www.apollo7.de
  suchen.com  
  SavvySearch www.savvysearch.com

Englischsprachig

Computer Science Department (University of Washington) http://www.metacrawler.com. Beschränkung der Suchergebnisse auf bestimmte Kontinente/Regionen möglich.
  Highway61 (Virtual Mirror) http://www.highway61.com, Dupletten Eliminierung
 
Suchmaschinen - Übersicht

Übersichten über (fast) alle Suchmaschinen findet man an mehreren Stellen im Internet. So bieten Yahoo (unter: Computers_and_Internet / Internet / World_Wide_Web / Searching_the_Web / Search_Engines), Beaucoup (Verzeichnis von derzeit ca. 2500 Suchmaschinen), Suchbuch (Zugang zu über 300 Suchmaschinen), das deutschsprachige Yabba! und viele andere Anbieter eine solche Zusammenstellung.
Ein Verzeichnis deutscher Suchmaschinen findet sich bei Klug Suchen. Unverzichtbaren und umfangreiche Hintergrundinformationen zu den wichtigsten Suchmaschinen liefert Search Watch Engine unter der Adresse www.searchenginewatch.com/, oder die Suchfibel unter der Adresse der www.suchfibel.de. Letztere bietet beispielsweise Vergleichstabellen der Features für Sucher und Webmaster, sowie des Bediensyntax.

Neben den oben erwähnten Suchmaschinen, die versuchen, die gesamte Themenvielfalt der Angebot im Internet abzudecken, gibt es auch Anbieter, die sich auf bestimmte Themenbereiche beschränken. Die nachfolgende Tabelle faßt Suchmaschinen zusammen, die sich auf geographische Sachverhalte spezialisiert haben.

 
Fachspezifische Geographie Suchmaschinen
Geographie Literatur-Datenbank (deutschsprachig)
GeoIndex - Geo-Environmental Search Engines

Suchmaschinen gibt es darüber hinaus nicht nur für den World Wide Web Teil des Internet, sondern auch für das Usenet, dem IRC und den ftp-Servern. Während Suchmaschinen des Usenet, mit diesem Begriff wird die Gesamtheit der News-Gruppen bezeichnet, Beiträge in den unzähligen Newsgroups suchen, durchforsten die Vertreter des IRC (Internet Relay Chat) die Eintrage in den verschiedenen Channels.
Bereits ein Klassiker unter den Usenet-Suchmaschinen ist DejaNews, das nach einer Namensänderung nun unter deja.com zu erreichen ist und mit einer komfortablen Schlagwortsuche die riesige Wissensbasis von unzähligen Newsgroups abdeckt. Ergänzt wird deja.com durch www.remarQ.com das im Unterschied zum erstgenannten auch noch die binären Attachementdateien des usenet mitliefert.
Der wichtigste Vertreter der IRC Suchmaschinen ist Liszt
Auch für die ftp-Server (File Transfer Protokol), auf denen Dateien zum download angeboten werden, existieren Suchmaschinen. Einer dieser Vertreter ist FTP Search der unter der Adresse http://ftpsearch.ntnu.no/ftpsearch zu erreichen ist.

In der folgenden Tabelle erhält man beim Druck auf den entsprechenden Link die Suchergebnisse der deutschsprachigen Suchmaschinen auf die Stichworte Erdkundeunterricht und Computer

Aladin.de
Crawler.de
Dino.de (nur Erdkundeunterricht)

Literatur


Nicol Hermann