유니코드 정규화
위키백과 ― 우리 모두의 백과사전.
유니코드 정규화 알고리즘은 같은 역할을 하는 여러 문자들이 있을 경우, 이를 하나로 통합해 주는 알고리즘이다.
[편집] 정규화하는 문자
- 로마자에 발음 구별 기호(조합 분음 기호: U+0300~U+036F)가 잇따라 붙었을 경우, 이를 한 글자로 처리할 수 있으면 한 글자로 처리하기
- A(U+0041) + ̀ (U+0300) → À(U+00C0)
- e(U+0065) + ̂ (U+0302) + ̣ (U+0323) → ệ(U+1EC7)
- 현대 한글을 첫가끝 코드로 썼을 경우, 이를 현대 한글 글자 마디 영역(U+AC00~U+D7A3)으로 처리하기
- ᄋ(U+110B) + ᅱ(U+1171) → 위(U+C704)
- 하(U+D558) + ᆫ(U+11AB) → 한(U+D55C)
- 한중일 호환용 한자를 한중일 통합 한자로 처리하기
- 樂(U+F914), 樂(U+F95C), 樂(U+F9BF) → 樂(U+6A02)