UTF-1은 국제 문자 세트/유니코드를 바이트 스트림으로 변환하는 한 방법이다. 설계 상의 이유로, 디코딩이 문자 중간에 시작하면 재동기화가 불가능하며 바이트 지향 검색 루틴은 이와 함께 신뢰성있게 사용할 수 없다. UTF-1은 또한 제곱이 아닌 수의 나누기를 사용하기 때문에 상당히 느리다. 이러한 문제로 UTF-1은 폭넓게 채택되지 못했으며 UTF-8로 대체되었다.
설계
코드포인트 |
UTF-16BE |
UTF-16LE |
UTF-8 |
UTF-1
|
U+007F |
00 7F |
7F 00 |
7F |
7F
|
U+0080 |
00 80 |
80 00 |
C2 80 |
80
|
U+009F |
00 9F |
9F 00 |
C2 9F |
9F
|
U+00A0 |
00 A0 |
A0 00 |
C2 A0 |
A0 A0
|
U+00BF |
00 BF |
BF 00 |
C2 BF |
A0 BF
|
U+00C0 |
00 C0 |
C0 00 |
C3 80 |
A0 C0
|
U+00FF |
00 FF |
FF 00 |
C3 BF |
A0 FF
|
U+0100 |
01 00 |
00 01 |
C4 80 |
A1 21
|
U+015D |
01 5D |
5D 01 |
C5 9D |
A1 7E
|
U+015E |
01 5E |
5E 01 |
C5 9E |
A1 A0
|
U+01BD |
01 BD |
BD 01 |
C6 BD |
A1 FF
|
U+01BE |
01 BE |
BE 01 |
C6 BE |
A2 21
|
U+07FF |
07 FF |
FF 07 |
DF BF |
AA 72
|
U+0800 |
08 00 |
00 08 |
E0 A0 80 |
AA 73
|
U+0FFF |
0F FF |
FF 0F |
E0 BF BF |
B5 48
|
U+1000 |
10 00 |
00 10 |
E1 80 80 |
B5 49
|
U+4015 |
40 15 |
15 40 |
E4 80 95 |
F5 FF
|
U+4016 |
40 16 |
16 40 |
E4 80 96 |
F6 21 21
|
U+D7FF |
D7 FF |
FF D7 |
ED 9F BF |
F7 2F C3
|
U+E000 |
E0 00 |
00 E0 |
EE 80 80 |
F7 3A 79
|
U+F8FF |
F8 FF |
FF F8 |
EF A3 BF |
F7 5C 3C
|
U+FDD0 |
FD D0 |
D0 FD |
EF B7 90 |
F7 62 BA
|
U+FDEF |
FD EF |
EF FD |
EF B7 AF |
F7 62 D9
|
U+FEFF |
FE FF |
FF FE |
EF BB BF |
F7 64 4C
|
U+FFFD |
FF FD |
FD FF |
EF BF BD |
F7 65 AD
|
U+FFFE |
FF FE |
FE FF |
EF BF BE |
F7 65 AE
|
U+FFFF |
FF FF |
FF FF |
EF BF BF |
F7 65 AF
|
U+10000 |
D8 00 DC 00 |
00 D8 00 DC |
F0 90 80 80 |
F7 65 B0
|
U+38E2D |
D8 A3 DE 2D |
A3 D8 2D DE |
F0 B8 B8 AD |
FB FF FF
|
U+38E2E |
D8 A3 DE 2E |
A3 D8 2E DE |
F0 B8 B8 AE |
FC 21 21 21 21
|
U+FFFFF |
DB BF DF FF |
BF DB FF DF |
F3 BF BF BF |
FC 21 37 B2 7A
|
U+100000 |
DB C0 DC 00 |
C0 DB 00 DC |
F4 80 80 80 |
FC 21 37 B2 7B
|
U+10FFFF |
DB FF DF FF |
FF DB FF DF |
F4 8F BF BF |
FC 21 39 6E 6C
|
U+7FFFFFFF |
오류 |
오류 |
FD BF BF BF BF BF |
FD BC 2B B8 40
|
같이 보기
참고 문헌