See also ebooksgratis.com: no banners, no cookies, totally FREE.

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
Privacy Policy Cookie Policy Terms and Conditions
基本多言語面 - Wikipedia

基本多言語面

出典: フリー百科事典『ウィキペディア(Wikipedia)』

基本多言語面(きほんたげんごめん)は、ISO/IEC 10646の第0群第0およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。BMP (Basic Multilingual Plane) と略す。

最もよく使う、基本的な文字・記号のほとんどが含まれる。

UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。

目次

[編集] 符号化

BMPの符号位置は、UTF-16UTF-8では、他の面より少ないオクテットバイト)数で符号化される。

UTF-16では、2オクテットで符号化される(サロゲートペアは必要がないため使われない)。

UTF-8では、3オクテット以下で符号化される。

UTF-32では、他の面と同様、4オクテットで符号化される。

[編集] 歴史

BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016~7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。

一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。

1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。

[編集] 配置領域

BMPは、同種のスクリプトをまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字が無い為、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)

主な配置領域
開始 終了 配置領域名
0000 1FFF 一般スクリプト
2000 2DFF 記号
2E00 33FF CJKの表音文字と記号
3400 9FFF CJK統合漢字
A000 A4CF イ文字
AC00 D743 ハングル音節
D800 DFFF (サロゲートペアで使用)
E000 F8FF 私用
F900 FFFD 互換文字と特殊文字

[編集] 収録されている用字系

記号類は省略。

BMPの主な用字系
Latin ラテン文字
IPA IPA
Greek ギリシア文字
Coptic コプト文字
Cyrillic キリル文字
Armenian アルメニア文字
Hebrew ヘブライ文字
Arabic アラビア文字
Syriac シリア文字
Thaana ターナ文字
Devanagari デーヴァナーガリー文字
Bengali ベンガル文字
Gurmukhi グルムキ文字
Gujarati グジャラート文字
Oriya オリヤー文字
Tamil タミル文字
Telugu テルグ文字
Kannada カンナダ文字
Malayalam マラヤーラム文字
Sinhala シンハラ文字
Thai タイ文字
Lao ラオス文字
Tibetan チベット文字
Myanmar ビルマ文字
Georgian グルジア文字
Ethiopic エチオピア文字
Cherokee チェロキー文字
Unified Canadian Aboriginal Syllabics 統合カナダ先住民文字
Ogham オガム文字
Runic ルーン文字
Tagalog タガログ文字
Hanunoo ハヌノオ文字
Buhid ブヒッド文字
Tagbanwa タグバンワ文字
Khmer クメール文字
Mongolian モンゴル文字
Limbu リンブ文字
Tai Le タイ・レ文字
Braille Patterns ブライユ点字
Hiragana ひらがな
Katakana カタカナ
Bopomofo 注音字母
CJK Unified Ideographs CJK統合漢字
Yi Syllables イ文字
Hangul Syllables ハングル

[編集] 関連項目

他の言語


aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -