XML/XSL/XPath
Die XML Path Language (XPath) dient dem Adressieren von Knoten in XML-Dokumenten und benutzt hierzu Pfaden ähnliche Ausdrücke.
Inhaltsverzeichnis
- 1 Einfache Adressierung von Elementen und Attributen
- 2 Attributwert-Templates
- 3 Knotentypen, Achsen und Pfade
- 4 Ausführliche und verkürzte Notation
- 5 Adressierung der Dokumentwurzel
- 6 Adressierung mit absoluten Pfadangaben
- 7 Adressierung mit relativen Pfadangaben
- 8 Adressierung von Attributen
- 9 Adressierung mit Wildcards
- 10 Adressierung mit Positionsangabe und Bedingungen
- 11 XPath-Operatoren
- 12 Referenz
Einfache Adressierung von Elementen und Attributen
Zur Adressierung eines Elements wird ein durch /
getrennter Pfad über alle übergeordneten Elemente angegeben. Bei absoluter Adressierung vom Wurzelelement aus wird der Pfad mit einem /
eingeleitet.
Sowohl der Ausdruck /film/regie
als auch einfach regie
adressieren den Elementknoten für die Regie des Films.
Zur Adressierung eines Attributs eines Elements wird dem Pfad auf das betreffende Element der Name des Attributes mittels eines @
angefügt.
Der Ausdruck /film/jahr/@typ
adressiert den Attributknoten "typ" des angegebenen Jahres.
Attributwert-Templates
Wenn Sie in einem XSLT Stylesheet XPath-Ausdrücke finden, die in geschweifte Klammern eingeschlossen sind, handelt es sich um ein so genanntes Attributwert-Template. Folgen Sie dem Link, wenn Sie Informationen dazu suchen.
Knotentypen, Achsen und Pfade
XML-gerechte Dokumente sind wie die Verzeichnis- und Dateistruktur auf einem Datenträger aufgebaut. Dort gibt es ein Wurzelverzeichnis, das Verzeichnisse (Ordner) und Dateien enthalten kann. Jedes untergeordnete Verzeichnis kann wiederum andere Unterverzeichnisse und Dateien enthalten usw. Man spricht dabei auch von Baumstruktur. Auf der Seite Baumstruktur und Knoten einer XML-Datei wird dieses Modell einführend beschrieben.
Ebenso, wie man bei der Dateistruktur auf einem Datenträger von Verzeichnissen oder Ordnern, Dateien und Pfadangaben für Dateien spricht, braucht man für die Adressierung von Bestandteilen eines XML-Dokuments eine geeignete Terminologie. Zu diesem Zweck gibt es in XPath verschiedene Knotentypen, Achsen und Pfade. Die Begriffe, die dabei auftauchen, werden im folgenden vorgestellt. Die Begriffe muten zunächst etwas akademisch an, aber zum Verständnis von XPath sind sie wichtig. Entscheidend sind die englischen Originalbegriffe (kursiv geschrieben).
Knotentypen
Jeder Bestandteil der Baumstruktur einer XML-Datei wird als Knoten bezeichnet. Da es in XML jedoch durchaus namhaft zu machende Bestandteile wie Elemente, Attribute usw. gibt, wird von entsprechenden Knotenypen gesprochen. Die Knotentypen sind nicht unmittelbar Bestandteil der Adressierungs-Syntax von XPath, doch es ist sinnvoll, die Begriffe zu kennen. XPath unterscheidet 7 Knotentypen:
Knotentyp | Bedeutung |
---|---|
Wurzelknoten (root node) |
Dies ist die Wurzel eines XML-Dokuments. Der Wurzelknoten ist selbst kein Element, sondern nur die abstrakte Ursprungswurzel der Baumstruktur des Dokuments. |
Elementknoten (element node) |
Jedes Element (auch das Dokument-Element) stellt aus XPath-Sicht einen Elementknoten dar. Ein Element namens a , bestehend aus dem Anfangs- und End-Tag <a>...</a> , ist beispielsweise ein element node. Untergeordnete Elemente (auch als Kindelemente bezeichnet) sind ebenfalls element nodes, also beispielsweise ein Element namens b , bestehend aus dem Anfangs- und End-Tag <b>...</b> , das innerhalb von <a>...</a> vorkommen kann.
|
Attributknoten (attribute node) |
Jedes Attribut, das zu einem Element gehört, wird als Attributknoten bezeichnet. Ein Attribut b="irgendwas" , das im Anfangs-Tag eines Elements a vorkommt und dann also in der Form <a b="irgendwas"> notiert wird, gilt als attribute node des Elements a . Der Attributknoten besteht also aus dem Attributnamen und dem zugewiesenen Wert.
|
Textknoten (text node) |
Jeder Zeicheninhalt, der keine anderen Knoten mehr enthält, wird als Textknoten bezeichnet. In einer Notation wie <a b="irgendwas">und ein kleiner Text</a> ist der Inhalt des Elements ein text node.
|
Namensraumknoten (namespace node) |
Sowohl Elemente als auch Attribute können Namensraumangaben enthalten, wenn entsprechende Namensräume in eine XML-Datei importiert werden. Ähnlich wie Attributknoten einem Elementknoten zugeordnet sind, sind Namensraumknoten einem Elementknoten oder einem Attributknoten zugeordnet. Bei einer Notation wie <x:a y:b="irgendwas"> sind x und y Namensraumangaben. x ist ein namespace node, der dem Element a zugeordnet ist, und y ein namespace node, der dem Attribut b zugeordnet ist.
|
Verarbeitungsanweisungsknoten (processing instruction node) |
Verarbeitungsanweisungen, die in einem XML-Dokument vorkommen (sie beginnen mit <? und enden mit ?> ), stehen außerhalb des eigentlichen Dokumentbaums. Sie stellen aus XPath-Sicht einen eigenen Knotentyp dar, wobei das Ziel der Verarbeitungsanweisung den Namen des Knoten und der Rest den Inhalt des Knotens bildet. In einer Verarbeitungsanweisung wie <?xml-stylesheet type="text/xsl" href="darstellung.xsl"?> ist der Teil xml-stylesheet der Name des Knotens.
Die XML-Deklaration |
Kommentarknoten (comment node) |
Kommentare, also Inhalte, die in die Zeichenfolgen <!-- und --> eingeschlossen sind, werden als Kommentarknoten bezeichnet. Der Kommentarknoten ist dabei der Inhalt des Kommentars. Bei einem Kommentar wie <!--irgendwas--> ist die Zeichenfolge irgendwas der comment node.
|
Achsen
Die Baumstruktur eines XML-Dokuments ergibt für die einzelnen Knoten, dass diese verschiedene Beziehungen untereinander haben. So gibt es Knoten, die von anderen Knoten abhängen, und solche, die auf einer gemeinsamen Ebene liegen. Dafür hält XPath verschiedene Begriffe bereit, die aus der Verwandtschaftsterminologie stammen und als Achsen (axes) bezeichnet werden. Die englischen Begriffe (in der folgenden Tabelle kursiv dargestellt) werden auch bei der ausführlichen Adressierung verwendet. XPath unterscheidet 13 Achsen:
Pfade
XPath stellt zwei syntaktische Mittel bereit, um den Pfad zu einem oder mehreren Knoten zu notieren:
Notation | Beschreibung | Bedeutung |
---|---|---|
/ einfacher Schrägstrich |
Pfad-Trennzeichen für tatsächliche Namen von Knoten. | In einer Struktur wie <a><b><c>...</c><c>...</c></b></a> lässt sich das c -Element als Pfadangabe in der Form a/b/c darstellen.
|
:: doppelter Doppelpunkt |
Pfad-Trennzeichen für Knotenangaben mit Achsen. | In einer Struktur wie <a><b><c>...</c><c>...</c></b></a> lässt sich das c -Element als Pfadangabe z. B. in der Form a/b/child::c darstellen.
|
Mehr dazu im folgenden Abschnitt.
Ausführliche und verkürzte Notation
Beim Adressieren von Knoten einer XML-Datenstruktur gibt es Ausdrücke wie /child::person/child::augen/attribute::farbe
. Solche Ausdrücke werden als ausführliche Notation bezeichnet, weil sie die vollen Achsenbezeichnungen enthalten. Der Ausdruck /child::person/child::augen/attribute::farbe
kann jedoch ebensogut in der Form /person/augen/@farbe
notiert werden. Dies ist die verkürzte Notation, die auf die Achsenbezeichnung child:: verzichtet und einige andere Einsparungen erlaubt. In den Beispielen weiter unten werden die beiden Notationsvarianten jeweils parallel gezeigt.
Adressierung der Dokumentwurzel
Jedes XML-Dokument hat eine Wurzel, die mit einem einzelnen Schrägstrich /
adressierbar ist.
<xsl:template match="/">
<html><head><title>Beispiel</title></head>
<body>
<xsl:apply-templates />
</body></html>
</xsl:template>
Mit xsl:template
wird ein Template für die XML-Dokumentwurzel definiert. Im match
-Attribut wird die Dokumentwurzel adressiert.
Adressierung mit absoluten Pfadangaben
Knoten eines XML-Dokuments sind mit Hilfe einer absoluten Pfadangabe adressierbar.
<xsl:template match="/child::adresse/child::vorname">
<b><xsl:value-of select="/child::adresse/child::vorname" /></b>
</xsl:template>
<xsl:template match="/adresse/vorname">
<b><xsl:value-of select="/adresse/vorname" /></b>
</xsl:template>
Absolute Pfadangaben beginnen mit einem Schrägstrich /
, der die Dokumentwurzel repräsentiert. Weitere Hierarchie-Ebenen werden durch weitere Schrägstriche markiert. Die Knoten, über die der Pfad läuft, werden wie im ersten Beispiel gezeigt durch ihre Achse und den gewünschten Knotennamen bezeichnet, getrennt durch doppelten Doppelpunkt ::
. Ebenfalls erlaubt und häufiger verwendet ist allerdings die im zweiten Beispiel gezeigte verkürzte Notation ohne Achsenbezeichnungen. Im Beispiel wird mit der xsl:template
-Anweisung ein Template für ein Element namens vorname
definiert, das ein Kindelement des Elements adresse
ist, das wiederum ein Kindelement der Dokumentwurzel ist. Auch im select-Attribut der xsl:value-of
-Anweisung wird diese Syntax verwendet.
Adressierung mit relativen Pfadangaben
Knoten eines XML-Dokuments sind mit Hilfe einer relativen Pfadangabe adressierbar.
<liga>
<liga-eintrag>
<spieler>...</spieler>
<ergebnis>
<punktzahl>...</punktzahl>
</ergebnis>
</liga-eintrag>
</liga>
<xsl:template match="./child::liga-eintrag/child::ergebnis">
<span class="normal"><xsl:value-of select="parent::spieler" /></span>
<span class="betont"><xsl:value-of select="./child::punktzahl" /></span>
</xsl:template>
<xsl:template match="liga-eintrag/ergebnis">
<span class="normal"><xsl:value-of select="../spieler" /></span>
<span class="betont"><xsl:value-of select="punktzahl" /></span>
</xsl:template>
Das Beispiel nimmt eine typische verschachtelte Elementstruktur an. Es nimmt an, dass es für das Element liga
eine Template-Definition gibt, in der mit der xsl:apply-templates
-Anweisung untergeordnete Templates aufgerufen werden. Weiterhin nimmt das Beispiel an, dass für das Element liga-eintrag
keine Template-Definition exisitiert, erst wieder für dessen Kindelement ergebnis
. Um dieses Element aus Sicht des Großvaterelements liga
zu adressieren, ist eine relative Pfadangabe im match-Attribut der xsl:template
-Anweisung nötig. In der ausführlichen Notation lautet diese Pfadangabe ./child::liga-eintrag/child::ergebnis
, in der verkürzten, leichter lesbaren Notation liga-eintrag/ergebnis
. Die Zeichenfolge ./
(Punkt und Schrägstrich) steht für "aktueller Standpunkt". Diese Zeichenfolge kann auch weggelassen werden. Ansonsten besteht die relative Pfadangabe einfach aus der Folge der hierarchie-bestimmenden Knotennamen. Bei der ausführlichen Notation wird dabei stets noch die Achsenbezeichnung child::
benutzt, während bei der verkürzten Notation die bloßen Knotennamen (im Beispiel die Elementnamen liga-eintrag
und ergebnis
) genügen. Trennzeichen für Hierarchie-Ebenen ist der einfache Schrägstrich /
.
Innerhalb der Template-Definition für das Element ergebnis
wird unter anderem HTML-Code für ein anderes Element der Ausgangsdaten, nämlich für das Element spieler
notiert. Dieses Element liegt jedoch auf der gleichen Hierarchie-Ebene wie das aktuelle Element ergebnis
(Geschwisterknoten). Um es aus Sicht von ergebnis
anzusprechen, muss es über den Umweg des gemeinsamen Elternelements adressiert werden. In der ausführlichen Notation steht dafür die Achsenbezeichnung parent::
zur Verfügung, gefolgt vom Namen des anderen Kindknotens. In der verkürzten Notation genügt die Angabe von zwei Punkten, gefolgt von einem Schrägstrich ../
, um den Weg über das Elternelement zu beschreiben.
Für die HTML-Ausgabe des Elements punktzahl
wird ebenfalls eine relative Adressierung verwendet. Da das Element punktzahl
aus Sicht des aktuellen Elements ergebnis
einfach ein Kindelement ist, genügen die Angaben ./child::punktzahl
(ausführliche Notation) bzw. punktzahl
(verkürzte Notation) zur Adressierung.
Adressierung von Attributen
Attribute von Elementen werden in XPath als Attributknoten behandelt und entsprechend adressiert.
<xsl:template match="./child::augen/attribute::farbe">
<tr><td><b><xsl:text>Augenfarbe:</xsl:text></b></td>
<td><xsl:value-of select="." /></td></tr>
</xsl:template>
<xsl:template match="augen/@farbe">
<tr><td><b><xsl:text>Augenfarbe:</xsl:text></b></td>
<td><xsl:value-of select="." /></td></tr>
</xsl:template>
Das Beispiel nimmt an, dass es eine XML-Notation <augen farbe="...">
gibt. Für das Attribut wird ein eigenes Template definiert. Dabei wird im HTML-Ergebnisbaum eine zweispaltige Tabellenzeile erzeugt, in der links das statische Wort Augenfarbe:
steht, während in der rechten Spalte der Wert des Attributs farbe
ausgegeben wird. Das match
-Attribut der Template-Definition wird so adressiert, dass das Template von einem Elternelement von augen
aus – z. B. von person
– aufgerufen werden kann. Der Pfad lautet dann in der ausführlichen Notation ./child::augen/attribute::farbe
und in der verkürzten, gebräuchlicheren Notation augen/@farbe
. Bei der ausführlichen Notation kommen also die Achsenbezeichnungen child::
(für Kindelement child
aus Sicht von person
) und attribute::
für die Auswahl von dessen Attribut farbe
zum Einsatz. In der verkürzten Notation genügt die relative Angabe des Kindelements augen
und der Attributname, angeführt von einem @
.
Adressierung mit Wildcards
Die Adressierung mit Wildcards erlaubt es, mehrere Knoten auf einmal auszuwählen.
<dateicode>
<signature>474946383961</signature>
<screen-descriptor>10000200B30000</screen-descriptor>
<color-map>000000BF000000BF00BFBF00</color-map>
<extension-block>21F90401000000</extension-block>
<!-- usw. -->
</dateicode>
<xsl:template match="dateicode">
<xsl:value-of select="child::*" />
</xsl:template>
<xsl:template match="dateicode">
<xsl:value-of select="*" />
</xsl:template>
Das Beispiel nimmt an, dass mit Hilfe von XML-Elementen der Aufbau einer Binärdatei (im Beispiel: GIF-Format) beschrieben wird. In der Ausgabe sollen die Inhalte aller Kindelemente von dateicode
einfach in einem Rutsch geschrieben werden. In der Template-Definition zu dateicode
wird dies im select
-Attribut der xsl:value-of-Anweisung durch Angabe des Wildcard-Zeichens *
erreicht. In der ausführlichen Notation ist die Achsenbezeichnung child::
angegeben, in der verkürzten Notation kann diese entfallen.
*
wählt nur auf der nächstunteren Hierarchie-Ebene aus. Eine verschärfte Form ist die Zeichenfolge //
. Damit wird auf allen untergeordneten Hierarchie-Ebenen ausgewählt, egal, wie tief sich der Baum noch verzweigt.Adressierung mit Positionsangabe und Bedingungen
Durch absolute und relative Adressierung ist noch nicht jedes beliebige Element ansprechbar. Angenommen, ein Element namens liste hat 25 Kindelemente namens listeneintrag, dann greift eine Adressierung wie liste/listeneintrag nur auf das erste dieser Elemente zu. Solche Probleme lassen sich zwar auch durch xsl:for-each-Schleifen in den Griff bekommen, doch manchmal wird man auch nur ein bestimmtes der Kindelemente ansprechen wollen, und nicht alle der Reihe nach. Die folgenden Beispiele zeigen Adressierungen mit Positionsangaben und Bedingungen, um bestimmte einzelne Elemente zu adressieren. Dabei kommen zum Teil auch XPath-Funktionen zum Einsatz.
Syntax-Bestandteile in eckigen Klammern ([]) gehören ebenfalls zum Inventar der Adressierung mit Positionsangaben und Bedingungen. Solche Bestandteile werden als Prädikate bezeichnet. Viele der folgenden Beispiele verwenden solche Prädikate.
Beispiel | Notation | Erläuterung |
---|---|---|
self::liste |
ausführlich | adressiert das aktuelle Element, jedoch nur dann, wenn es vom Typ liste ist. |
child::listeneintrag[position() = 3] |
ausführlich | adressiert das 3. Kindelement vom Typ listeneintrag mit Hilfe der XPath-Funktion position(). |
listeneintrag[3] |
verkürzt | adressiert das 3. Kindelement vom Typ listeneintrag. |
child::listeneintrag[position() = last()] |
ausführlich | adressiert das letzte Kindelement vom Typ listeneintrag mit Hilfe der XPath-Funktion last(). |
listeneintrag[last()] |
verkürzt | adressiert das letzte Kindelement vom Typ listeneintrag mit Hilfe der XPath-Funktion last(). |
listeneintrag[last()-1] |
verkürzt | adressiert das vorletzte Kindelement vom Typ listeneintrag mit Hilfe der XPath-Funktion last(). |
/buch/kapitel[2]/abschnitt[4]/absatz[17] |
verkürzt | adressiert in einem Buch absolut den 17. Absatz des 4. Abschnitts im 2. Kapitel (entsprechende XML-Elementnamen vorausgesetzt). |
child::augen[attribute::farbe='blau'] |
ausführlich | adressiert das Kindelement augen , jedoch nur dann, wenn es ein Attribut farbe mit dem Wert blau hat.
|
augen[@farbe='blau'] |
verkürzt | |
child::augen[attribute::farbe and attribute::sehstaerke] |
ausführlich | adressiert das Kindelement augen , jedoch nur dann, wenn es sowohl ein Attribut farbe als auch ein Attribut sehstaerke hat (egal mit welchen zugewiesenen Werten).
|
augen[@farbe and @sehstaerke] |
verkürzt | |
/child::*[self::inhaltsverzeichnis or self::stichwortverzeichnis] |
ausführlich | adressiert in einem Buch absolut alle Kindelemente unterhalb der Wurzel, jedoch nur solche, die als Elementnamen inhaltsverzeichnis oder stichwortverzeichnis haben. |
. |
verkürzt | adressiert den aktuellen Knoten. |
.. |
verkürzt | adressiert den Elternknoten des aktuellen Knotens. |
kapitel//absatz |
verkürzt | adressiert alle Elemente vom Typ absatz, die aus Sicht eines aktuellen Knotens unterhalb von Elementen vom Typ kapitel liegen. Die Syntax // wird auch als recursive descent operator bezeichnet. //X bezeichnet das gleiche wie /descendant-or-self::node()/X .
|
buch//kapitel[position() < 5] |
verkürzt | adressiert die ersten vier Kindelemente des Typs kapitel innerhalb eines Elements vom Typ buch .
|
XPath-Operatoren
XPath bietet eine Reihe von Operatoren an, die es erlauben, Werte zu vergleichen, Berechnungen durchzuführen, oder Ausdrücke zu bewerten. Solche Operatoren können in Attributen bestimmter XSLT-Elemente vorkommen. Dort helfen sie, Bedingungen zu formulieren, Elementpositionen zu berechnen und anderes mehr. XPath kennt folgende Operatoren:
Operator | Bedeutung |
---|---|
+ |
Addition |
- |
Subtraktion |
* |
Multiplikation – jedoch nur, wenn vor dem Operator keines der folgenden Zeichen bzw. keine der folgenden Zeichenfolgen steht: @ , :: , ( , [ , ) , ,
|
= |
gleich (Vergleich zweier Werte) |
!= |
ungleich (Vergleich zweier Werte) |
< bzw. < |
kleiner als (Vergleich zweier Werte). Maskierung innerhalb von XSLT erforderlich. |
> bzw. > |
größer als (Vergleich zweier Werte). Maskierung innerhalb von XSLT zu empfehlen. |
<= bzw. <= |
kleiner als oder gleich (Vergleich zweier Werte). Maskierung innerhalb von XSLT erforderlich. |
>= bzw. >= |
größer als oder gleich (Vergleich zweier Werte). Maskierung innerhalb von XSLT zu empfehlen. |
and |
logische Und-Verknüpfung (beide Ausdrücke) |
or |
logische Oder-Verknüpfung (einer von beiden Ausdrücken) |
div |
Fließkommateilung |
mod |
Rest der Fließkommateilung |
Referenz
- XPath 1.0-Spezifikation (inklusive auch der XPath-Funktionen)
- XPath 2.0-Spezifikation