Extensible Markup Language
Die Extensible Markup Language (dt. Erweiterbare Auszeichnungssprache), abgekürzt XML, ist eine Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten im Format einer Textdatei, die sowohl von Menschen als auch von Maschinen lesbar ist. XML wird auch für den plattform- und implementationsunabhängigen Austausch von Daten zwischen Computersystemen eingesetzt, insbesondere über das Internet, und wurde vom World Wide Web Consortium (W3C) am 10. Februar 1998 veröffentlicht. Die aktuelle Fassung ist die fünfte Ausgabe vom 26. November 2008. XML ist eine Metasprache, auf deren Basis durch strukturelle und inhaltliche Einschränkungen anwendungsspezifische Sprachen definiert werden. Diese Einschränkungen werden entweder durch eine Document Type Description (DTD) oder durch ein XML Schema ausgedrückt. Beispiele für XML-Sprachen sind: RSS, MathML, GraphML, XHTML, XAML, Scalable Vector Graphics (SVG), GPX, aber auch das XML-Schema selbst. Die Standardzeichenkodierung eines XML-Dokumentes ist UTF-8. XML-bearbeitende Systeme müssen die Kodierungen UTF-8 und UTF-16 beherrschen. XML-Dokumente, die UTF-8 oder UTF-16 verwenden, können in allen Texteditoren, die diese Kodierungen unterstützen, angezeigt und bearbeitet werden. Wenn das XML-Dokument Binärdaten enthalten soll, müssen diese Daten als Text umkodiert werden. Dazu kann z. B. die Base64-Kodierung verwendet werden.
Wörter
Diese Tabelle zeigt das Beispiel für die Verwendung von Wortlisten zum Extrahieren von Stichwörtern aus dem obigen Text.
Wort | Häufigkeit | Anzahl der Artikel | Relevanz |
---|---|---|---|
xml | 5 | 334 | 0.242 |
utf-8 | 3 | 41 | 0.18 |
utf-16 | 2 | 13 | 0.133 |
kodierungen | 2 | 29 | 0.124 |
extensible | 2 | 75 | 0.113 |