java.lang.Character - codehumane

자바의 Character 문서에 Unicode Character Representations 부분이 있음. 간단히 기록.

Unicode Specification

char 데이터 타입은 오리지널 유니코드 명세에 기반했지만, 유니코드는 그 이후로도 계속 변화했고 현재는 16비트 이상으로 표현되는 문자를 허용.
유효한 코드 포인트^{code points} 범위는 현재 U+0000에서 U+10FFFF 까지.
Unicode scalar value라고 부름.
이 중에서 U+0000에서 U+FFFF까지의 문자 집합을 Basic Multilingual Plane(BMP)라고 부름.
그리고 U+FFFF를 넘어가는 코드 포인트의 문자들은 supplementary characters로 부름.
자바 플랫폼은 UTF-16을 char 배열과 String, StringBuffer 클래스에서 사용.
그래서 supplementary characters를 char 값의 짝으로 표현.
About Supplementary Characters에 따르면 이 방식을 surrogate pair라고 부름.
첫 번째 값은 high-surrogates 범위(\uD800-\uDBFF)를 갖고,
두 번째 값은 low-surrogates 범위(\uDC00-\uDFFF)를 가짐.

*참고로, U+나 \u 문자들은 뒤이은 숫자들이 16진수임을 나타냄.

문서 읽다 보면, code point와 code unit 차이가 궁금해짐. 여기 그 차이가 잘 설명되어 있음.

For example, the snowman glyph (☃) is a single code point but 3 UTF-8 code units, and 1 UTF-16 code unit.