Sitemap
Eine Sitemap ist eine vollständige und hierarchisch strukturierte Auflistung aller Einzelseiten einer Webpräsenz. Neben der als Navigationshilfe und für die direkte Betrachtung durch menschliche Nutzer gedachten Sitemaps gibt es das Sitemaps-Protokoll, das in UTF-8-codierten XML-Dateien die Struktur einer Webseite für Suchmaschinen zugänglich machen soll.
Inhaltsverzeichnis
Suchmaschinen
Sitemaps ermöglichen es Suchmaschinen einen schnellen Abgleich zwischen bereits indexierten und vorhandenen Seiten vorzunehmen. Über Zusatzinformationen können weitere Prioritäts- und Aktualisierungskriterien an Suchmaschinen übermittelt werden [1].
Insbesondere bei großen, häufig aktualisierten oder nur schwach intern verlinkten Webseiten können Sitemaps die Auffindbarkeit neuer Inhalte verbessern. Dabei dienen Sitemaps lediglich als Hinweisstruktur; Suchmaschinen entscheiden weiterhin eigenständig darüber, welche Inhalte tatsächlich gecrawlt oder indexiert werden.
Im Allgemeinen ist es sinnvoll, Sitemaps für Suchmaschinen bereitzustellen, da die übliche CMS-Software entsprechende Funktionen bereits unterstützt. Für kleine oder einfache Projekte ist ein Bot jedoch meist auch ohne Sitemap-Unterstützung in der Lage, die Webseite vollständig zu indexieren.
Zusätzlich können Sitemaps Suchmaschinen dabei helfen, Änderungen an bestehenden Inhalten schneller zu erkennen. Fehlerhafte oder veraltete Einträge, Weiterleitungen oder nicht erreichbare URLs können jedoch die Qualität der Sitemap beeinträchtigen.
Übliche Formate sind:
Sicherheit
Vertraulichkeit
Es kommt öfters vor, dass durch Sitemaps ungewollt vertrauliche Informationen veröffentlicht werden obwohl diese eigentlich nicht öffentlich zugänglich sind.
Beispiele hierfür sind:
- Eingesetzte Software
/admin/angreifbare/software/readme.v.0.0.1.html - Pfade welche Nutzerinformationen enthalten
/privat/max.muster/
Scripte welche die Sitemap automatisiert erstellen sollten daher sorgfältig geprüft werden.
Verfügbarkeit
Die Sitemap sollte nicht bei jedem Aufruf aktualisiert werden, da es bei umfangreichen Projekten viele Ressourcen binden kann. Dadurch vielfache parallele Anfragen ist sonst ein Angreifer in der Position einen hohen Ressourcenverbrauch provozieren und die Verfügbarkeit der Webseite zu gefährden.
Siehe auch
Weblinks
- Wikipedia: Sitemap
- Wikipedia: Sitemaps-Protokoll
- SEOTesting: XML Sitemap Generator
- ↑ sitemaps.org: sitemaps-protokoll