html_entity_decode

(PHP 4 >= 4.3.0, PHP 5)

html_entity_decode — Konvertiert alle benannten HTML-Zeichen in ihre entsprechenden Ursprungszeichen

Beschreibung

string html_entity_decode ( string $string [, int $flags = ENT_COMPAT | ENT_HTML401 [, string $encoding = ini_get("default_charset") ]] )

html_entity_decode() ist das Gegenstück zu htmlentities(), welches alle HTML-Entities innerhalb von string in ihre entsprechenden Ursprungszeichen zurückwandelt.

Genau gesagt dekodiert diese Funktion alle Entities (einschließlich aller numerischen Entities), die a) auf jeden Fall gültig für den gewählten Dokumenttyp sind — d.h. für XML dekodiert diese Funktion keine benannten Entities, die in einer DTD definiert sein könnten — und b) deren Zeichen in der Zeichenkodierung und im gewählten Dokumenttyp erlaubt sind. Alle anderen Entities bleiben wie sie sind.

Parameter-Liste

string

Die Eingabezeichenkette.

flags

Eine Bitmaske von einem oder mehreren der folgenden Flags, die die Behandlung von Anführungszeichen, sowie den zu nutzenden Dokumententyp festlegen. Der Standardwert ist ENT_COMPAT | ENT_HTML401.
Verfügbare flags-Konstanten

Konstantenname Beschreibung

ENT_COMPAT Konvertiert doppelte Anführungszeichen und lässt einfache Anführungszeichen unberührt.

ENT_QUOTES Konvertiert sowohl doppelte als auch einfache Anführungszeichen.

ENT_NOQUOTES Lässt sowohl doppelte als auch einfache Anführungszeichen unberührt.

ENT_HTML401 Behandle Code als HTML 4.01.

ENT_XML1 Behandle Code als XML 1.

ENT_XHTML Behandle Code als XHTML.

ENT_HTML5 Behandle Code als HTML 5.

encoding

**Verfügbare `flags`-Konstanten**
Konstantenname	Beschreibung
`ENT_COMPAT`	Konvertiert doppelte Anführungszeichen und lässt einfache Anführungszeichen unberührt.
`ENT_QUOTES`	Konvertiert sowohl doppelte als auch einfache Anführungszeichen.
`ENT_NOQUOTES`	Lässt sowohl doppelte als auch einfache Anführungszeichen unberührt.
`ENT_HTML401`	Behandle Code als HTML 4.01.
`ENT_XML1`	Behandle Code als XML 1.
`ENT_XHTML`	Behandle Code als XHTML.
`ENT_HTML5`	Behandle Code als HTML 5.

Ein optionaler Parameter, der die Zeichenkodierung für eine Konvertierung definiert.

Wird dieser Parameter ausgelassen, so wird der Standardwert für encoding verwendet, welcher von der verwendeten PHP-Version abhängig ist. In PHP 5.6 und neuer wird die Konfigurationseinstellung default_charset als Standardwert verwendet. PHP 5.4 und 5.5. verwenden UTF-8 als Standardwert. Frühere Versionen verwenden ISO-8859-1.

Obwohl dieser Parameter technisch optional ist wird es stark empfohlen den korrekten Wert für den jeweiligen Programmcode zu spezifizieren, falls sie PHP 5.5 oder früher verwenden, oder falls default_charset für die jeweilige Eingabe inkorrekt sein könnte.

Die folgenden Zeichensätze werden unterstützt:
Unterstützte Zeichensätze

Zeichensatz Alias Beschreibung

ISO-8859-1 ISO8859-1 Westeuropäisch, Latin-1.

ISO-8859-5 ISO8859-5 Wenig verwendeter kyrillischer Zeichensatz (Latin/Cyrillic).

ISO-8859-15 ISO8859-15 Westeuropäisch, Latin-9. Enthält das Euro-Zeichen sowie französische und finnische Buchstaben, die in Latin-1(ISO-8859-1) fehlen.

UTF-8 ASCII-kompatibles Multi-Byte 8-Bit Unicode.

cp866 ibm866, 866 DOS-spezifischer Kyrillischer Zeichensatz.

cp1251 Windows-1251, win-1251, 1251 Windows-spezifischer Kyrillischer Zeichensatz.

cp1252 Windows-1252, 1252 Windows spezifischer Zeichensatz für westeuropäische Sprachen.

KOI8-R koi8-ru, koi8r Russisch.

BIG5 950 Traditionelles Chinesisch, hauptsächlich in Taiwan verwendet.

GB2312 936 Vereinfachtes Chinesisch, nationaler Standard-Zeichensatz.

BIG5-HKSCS Big5 mit Hongkong-spezifischen Erweiterungen; traditionelles Chinesisch.

Shift_JIS SJIS, SJIS-win, cp932, 932 Japanisch

EUC-JP EUCJP, eucJP-win Japanisch

MacRoman Zeichensatz, der von von Mac OS verwendet wurde.

'' Eine leere Zeichenkette aktiviert die Erkennung durch die Kodierung des Skripts (Zend multibyte), default_charset und die aktuelle Sprachumgebung (siehe nl_langinfo() und setlocale()), in dieser Reihenfolge. Nicht empfehlenswert.

**Unterstützte Zeichensätze**
Zeichensatz	Alias	Beschreibung
ISO-8859-1	ISO8859-1	Westeuropäisch, Latin-1.
ISO-8859-5	ISO8859-5	Wenig verwendeter kyrillischer Zeichensatz (Latin/Cyrillic).
ISO-8859-15	ISO8859-15	Westeuropäisch, Latin-9. Enthält das Euro-Zeichen sowie französische und finnische Buchstaben, die in Latin-1(ISO-8859-1) fehlen.
UTF-8		ASCII-kompatibles Multi-Byte 8-Bit Unicode.
cp866	ibm866, 866	DOS-spezifischer Kyrillischer Zeichensatz.
cp1251	Windows-1251, win-1251, 1251	Windows-spezifischer Kyrillischer Zeichensatz.
cp1252	Windows-1252, 1252	Windows spezifischer Zeichensatz für westeuropäische Sprachen.
KOI8-R	koi8-ru, koi8r	Russisch.
BIG5	950	Traditionelles Chinesisch, hauptsächlich in Taiwan verwendet.
GB2312	936	Vereinfachtes Chinesisch, nationaler Standard-Zeichensatz.
BIG5-HKSCS		Big5 mit Hongkong-spezifischen Erweiterungen; traditionelles Chinesisch.
Shift_JIS	SJIS, SJIS-win, cp932, 932	Japanisch
EUC-JP	EUCJP, eucJP-win	Japanisch
MacRoman		Zeichensatz, der von von Mac OS verwendet wurde.
''		Eine leere Zeichenkette aktiviert die Erkennung durch die Kodierung des Skripts (Zend multibyte), default_charset und die aktuelle Sprachumgebung (siehe nl_langinfo() und setlocale()), in dieser Reihenfolge. Nicht empfehlenswert.

Hinweis: Weitere Zeichensätze sind nicht implementiert. Statt dessen wird die Standard-Kodierung verwendet und eine Warnung ausgegeben.

Rückgabewerte

Gibt die dekodierte Zeichenkette zurück.

Changelog

Version Beschreibung

5.6.0 Der Standardwert für den Parameter encoding wurde so angepasst, dass dieser Wert aus der Konfigurationseinstellung default_charset bezogen wird.

5.4.0 Die Standardkodierung wurde von ISO-8859-1 auf UTF-8 geändert.

5.4.0 Die Optionen ENT_HTML401, ENT_XML1, ENT_XHTML und ENT_HTML5 wurden hinzugefügt.

Version	Beschreibung
5.6.0	Der Standardwert für den Parameter `encoding` wurde so angepasst, dass dieser Wert aus der Konfigurationseinstellung default_charset bezogen wird.
5.4.0	Die Standardkodierung wurde von ISO-8859-1 auf UTF-8 geändert.
5.4.0	Die Optionen `ENT_HTML401`, `ENT_XML1`, `ENT_XHTML` und `ENT_HTML5` wurden hinzugefügt.

Beispiele

Beispiel #1 Dekodieren benannter HTML-Zeichen


<?php
$orig = "I'll \"walk\" the <b>dog</b> now";

$a = htmlentities($orig);

$b = html_entity_decode($a);

echo $a; // I'll &quot;walk&quot; the &lt;b&gt;dog&lt;/b&gt; now

echo $b; // I'll "walk" the <b>dog</b> now
?>

Anmerkungen

Hinweis:
Sie wundern sich vielleicht, warum trim(html_entity_decode(' ')); den String nicht zu einem leeren Sting reduziert. Der Grund dafür ist, dass ' ' in der Standard-Kodierung nicht dem Zeichen mit ASCII-Code 32 entspricht (dieses wird von trim() entfernt), sondern dem Zeichen mit ASCII-Code 160 (0xa0).

Siehe auch

htmlentities() - Wandelt alle geeigneten Zeichen in entsprechende HTML-Codes um
htmlspecialchars() - Wandelt Sonderzeichen in HTML-Codes um
get_html_translation_table() - Gibt die Umwandlungs-Tabelle zurück, die von htmlspecialchars und htmlentities verwendet wird
urldecode() - Dekodiert eine URL-kodierte Zeichenkette