Windows-1252 (auch Codepage 1252, cp1252,[1] Westeuropäisch (Western European) oder ANSI) ist eine 8-Bit-Zeichenkodierung, die für das Betriebssystem Microsoft Windows entwickelt wurde. Der Zeichensatz basiert auf ISO 8859-1 (Latin-1), weicht aber im Bereich 8016 – 9F16 von dieser ab; statt der (sehr selten genutzten) C1-Steuerzeichen enthalten diese 32 Positionen hier 27 darstellbare Zeichen, u. a. die in ISO 8859-15 hinzugekommenen und einige für bessere Typografie notwendige Zeichen.[2]
Aktuelle Windows-Versionen unterstützen Unicode, neue Windows-Anwendungen sollten Unicode verwenden und keine 8-Bit-Zeichenkodierungen wie Windows-1252.[3]
Manche Applikationen vermischen die Definitionen von ISO 8859-1 und Windows-1252. Da auch in HTML die zusätzlichen Steuerzeichen aus ISO 8859-1 keine Bedeutung haben, schreibt der HTML5-Standard vor, dass als ISO 8859-1 markierte Texte als Windows-1252 zu interpretieren sind.[4][5] Trotzdem ist Windows-1252 ebenfalls bei der IANA registriert.[1] Im Juli 2022 verwendeten 1,2 % aller Websites die Zeichenkodierung implizit als ISO 8859-1, bei 0,3 % der Websites wurde explizit Windows-1252 verwendet,[6][7] bei jeweils fallender Tendenz. Latin-1 war damit nach UTF-8 (97,7 %) mit diesem Stand die zweithäufigste Kodierung von Websites, Windows-1252 nach Windows-1251 die vierthäufigste. Die Unterschiede zwischen all diesen Kodierungen sowie generell mangelnde Konsequenz bei der Unterstützung verschiedener Zeichensätze sind ein häufiges Interoperabilitätsproblem.
Die farbigen Codepoints stellen Änderungen gegenüber ISO 8859-1 dar: Gelbe Felder sind belegt, grüne sind ungenutzt.
Da Unicode auf ISO 8859-1 und nicht auf Windows-1252 aufbaut, sind zwar die Unicode-Codepoints der nicht farbig unterlegten Zeichen zu den Codewerten in Windows-1252 identisch, die der farbig hinterlegten jedoch nicht:
Unicode-Mapping der zu ISO 8859-1 verschiedenen Zeichen
|
…0 |
…1 |
…2 |
…3 |
…4 |
…5 |
…6 |
…7 |
…8 |
…9 |
…A |
…B |
…C |
…D |
…E |
…F
|
8…
|
€ U+20AC
|
|
‚ U+201A
|
ƒ U+0192
|
„ U+201E
|
… U+2026
|
† U+2020
|
‡ U+2021
|
ˆ U+02C6
|
‰ U+2030
|
Š U+0160
|
‹ U+2039
|
Œ U+0152
|
|
Ž U+017D
|
|
9…
|
|
‘ U+2018
|
’ U+2019
|
“ U+201C
|
” U+201D
|
• U+2022
|
– U+2013
|
— U+2014
|
˜ U+02DC
|
™ U+2122
|
š U+0161
|
› U+203A
|
œ U+0153
|
|
ž U+017E
|
Ÿ U+0178
|
Unterschiede zwischen ISO 8859-1, ISO 8859-15, Windows-1252 und Unicode
Windows-1252 enthält neben den Zeichen aus ISO 8859-1 auch diejenigen Zeichen, welche in ISO 8859-15 hinzugefügt wurden und dort einige weniger oft gebrauchten Zeichen aus ISO 8859-1 ersetzen. Allerdings unterscheidet sich bei diesen Zeichen die Position sowohl zwischen Windows-1252 und ISO 8859-15 als auch zu der Codierung in Unicode. Alle Zeichen, die nicht in einer der beiden ISO-Codierungen auftauchen, belegen dabei die folgenden Positionen.
Unterschiede zwischen ISO 8859-1, ISO 8859-15, Windows-1252 und Unicode (Teil 1)
Zeichen
|
€ |
Š |
š |
Ž |
ž |
Œ |
œ |
Ÿ
|
¤ |
¦ |
¨ |
´ |
¸ |
¼ |
½ |
¾
|
ISO 8859-1
|
– |
– |
– |
– |
– |
– |
– |
–
|
A4 |
A6 |
A8 |
B4 |
B8 |
BC |
BD |
BE
|
ISO 8859-15
|
A4 |
A6 |
A8 |
B4 |
B8 |
BC |
BD |
BE
|
– |
– |
– |
– |
– |
– |
– |
–
|
Windows-1252
|
80 |
8A |
9A |
8E |
9E |
8C |
9C |
9F
|
A4 |
A6 |
A8 |
B4 |
B8 |
BC |
BD |
BE
|
Unicode
|
20AC |
160 |
161 |
17D |
17E |
152 |
153 |
178
|
A4 |
A6 |
A8 |
B4 |
B8 |
BC |
BD |
BE
|
Unterschiede zwischen ISO 8859-1, ISO 8859-15, Windows-1252 und Unicode (Teil 2)
Zeichen
|
‚ |
ƒ |
„ |
… |
† |
‡ |
ˆ |
‰ |
‹ |
‘ |
’ |
“ |
” |
• |
– |
— |
˜ |
™ |
›
|
ISO 8859-1
|
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
–
|
ISO 8859-15
|
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
– |
–
|
Windows-1252
|
82 |
83 |
84 |
85 |
86 |
87 |
88 |
89 |
8B |
91 |
92 |
93 |
94 |
95 |
96 |
97 |
98 |
99 |
9B
|
Unicode
|
201A |
192 |
201E |
2026 |
2020 |
2021 |
2C6 |
2030 |
2039 |
2018 |
2019 |
201C |
201D |
2022 |
2013 |
2014 |
2DC |
2122 |
203A
|
Siehe auch
Einzelnachweise
- ↑ a b Charset name: windows-1252. Internet Assigned Numbers Authority (IANA), abgerufen am 20. Dezember 2020 (englisch).
- ↑ Microsoft Windows Codepage: 1252 (Latin I). Microsoft, archiviert vom Original am 8. Mai 1999; abgerufen am 27. September 2019.
- ↑ Unicode- und Zeichensätze. Microsoft, 13. Juni 2023, abgerufen am 27. Mai 2024.
- ↑ HTML 5.1 Nightly Editor’s Draft 19 February 2013. 8.2.2.2 Character encodings. In: w3.org. World Wide Web Consortium, abgerufen am 19. Februar 2013 (englisch).
- ↑ Encoding. 4.2. Names and labels. In: Living Standard. WHATWG, abgerufen am 20. Dezember 2020 (englisch).
- ↑ Historical trends in the usage statistics of character encodings for websites, July 2022. w3techs.com, 21. Juli 2022, abgerufen am 21. Juli 2022.
- ↑ Frequently Asked Questions. w3techs.com, abgerufen am 21. Juli 2022.