基本多言語面
出典: フリー百科事典『ウィキペディア(Wikipedia)』
基本多言語面(きほんたげんごめん)は、ISO/IEC 10646の第0群第0面およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。BMP (Basic Multilingual Plane) と略す。
最もよく使う、基本的な文字・記号のほとんどが含まれる。
UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。
目次 |
[編集] 符号化
BMPの符号位置は、UTF-16やUTF-8では、他の面より少ないオクテット(バイト)数で符号化される。
UTF-16では、2オクテットで符号化される(サロゲートペアは必要がないため使われない)。
UTF-8では、3オクテット以下で符号化される。
UTF-32では、他の面と同様、4オクテットで符号化される。
[編集] 歴史
BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016~7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。
一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。
1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。
[編集] 配置領域
BMPは、同種のスクリプトをまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字が無い為、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)
開始 | 終了 | 配置領域名 |
---|---|---|
0000 | 1FFF | 一般スクリプト |
2000 | 2DFF | 記号 |
2E00 | 33FF | CJKの表音文字と記号 |
3400 | 9FFF | CJK統合漢字 |
A000 | A4CF | イ文字 |
AC00 | D743 | ハングル音節 |
D800 | DFFF | (サロゲートペアで使用) |
E000 | F8FF | 私用 |
F900 | FFFD | 互換文字と特殊文字 |
[編集] 収録されている用字系
記号類は省略。
Latin | ラテン文字 |
IPA | IPA |
Greek | ギリシア文字 |
Coptic | コプト文字 |
Cyrillic | キリル文字 |
Armenian | アルメニア文字 |
Hebrew | ヘブライ文字 |
Arabic | アラビア文字 |
Syriac | シリア文字 |
Thaana | ターナ文字 |
Devanagari | デーヴァナーガリー文字 |
Bengali | ベンガル文字 |
Gurmukhi | グルムキ文字 |
Gujarati | グジャラート文字 |
Oriya | オリヤー文字 |
Tamil | タミル文字 |
Telugu | テルグ文字 |
Kannada | カンナダ文字 |
Malayalam | マラヤーラム文字 |
Sinhala | シンハラ文字 |
Thai | タイ文字 |
Lao | ラオス文字 |
Tibetan | チベット文字 |
Myanmar | ビルマ文字 |
Georgian | グルジア文字 |
Ethiopic | エチオピア文字 |
Cherokee | チェロキー文字 |
Unified Canadian Aboriginal Syllabics | 統合カナダ先住民文字 |
Ogham | オガム文字 |
Runic | ルーン文字 |
Tagalog | タガログ文字 |
Hanunoo | ハヌノオ文字 |
Buhid | ブヒッド文字 |
Tagbanwa | タグバンワ文字 |
Khmer | クメール文字 |
Mongolian | モンゴル文字 |
Limbu | リンブ文字 |
Tai Le | タイ・レ文字 |
Braille Patterns | ブライユ点字 |
Hiragana | ひらがな |
Katakana | カタカナ |
Bopomofo | 注音字母 |
CJK Unified Ideographs | CJK統合漢字 |
Yi Syllables | イ文字 |
Hangul Syllables | ハングル |