プレーンテキスト
出典: フリー百科事典『ウィキペディア(Wikipedia)』
プレーンテキスト (plain text)とは、コンピュータ上で文章を扱うための一般的なファイルフォーマット、または文字列の形式である。厳密にはASCIIのみ、さらに厳密には7bit ASCIIで構成された文書だけを指すが、パソコンが多言語化し様々な文字コードが扱われるた現在では、特定の文字コードに準拠したバイナリファイルだと定義できる。ワードプロセッサで作成した文章とは違い、文字ごとの色や形状、文章に含まれる図などといった情報を含まない。プレーンテキストに対して、文字ごとの色や形状、文章に含まれる図などといった情報を含む文章のことをマルチスタイルテキストと呼ぶ。しかし、マルチスタイルテキストの一部もファイルフォーマットとしてはプレーンテキストのみで構成されているものもある。
プレーンテキストには文字情報以外の情報は一切含まず、テキストデータのみで構成されている。バイナリデータや文字の整形情報を持たない為、最低限の機能しか持たないテキストエディタや表示用のソフトウェアを使う事が出来るため利便性が高い。その反面、格納できる情報が純粋にテキストのみに限定される為、文字の強調や加工や言語情報、フォント情報を持つことが出来ない。これらの情報を格納する場合は、HTMLのような工夫が必要になる。
MS-DOS、Windowsでは、EDLINやメモ帳、UNIXやLinuxの場合はviやEmacs、Mac OSの場合はSimpleText、Mac OS Xの場合はTextEditなどと言ったOSに標準的に付属するソフトウェアで編集することが出来る。
なお、テキストエディタを使うことで、プログラミング言語のソースコードやHTML、XML、TeXといった純粋なテキストのみで構成されているファイルを編集する事も可能である。
[編集] 制御コード・制御情報
先程、プレーンテキストはテキストデータのみで構成されると述べたが、正確には画面に表示される通常の文字の他に、文字としては表示されないが文字表示の制御等を行なう制御コードが含まれる。制御コードの例としては、文字の開始位置を揃える水平タブ (0x09)、垂直タブ (0x0B)、改行、改ページ (0x0C)、EOF(End Of File、ファイル終端マーク:0x1A)、BOM(Byte Order Mark:Unicodeなど、2バイト以上で1文字を構成する文字コードにおいて、エンディアンを判別するための数バイトの情報)などがある。このほか、各種文字コードの制御情報も含まれる。
この制御コードに関して、OS間での互換性の問題が生じる。MS-DOS・Windows、UNIX及びMac OSのプレーンテキストでは、それぞれ異なる改行コードを用いており、これが問題となることが有り得る。参考までに、各OSの改行コードを挙げる。
- MS-DOS, Windows
- CRとLFの2つの制御コードを用いて1つの改行を表わす。タイプライターで、紙を一行分送り出して(改行)からパンチヘッドを行頭に戻す(復帰)と同じようなものだと考えればわかりやすい。
- UNIX
- LF
- Macintosh
- CR(Mac OS XではLFも主流である)
CRとLFは、ASCIIの制御コードであり、CRは「復帰」、LFは「改行」を表わす。また、Unicodeでは改行をU+2028、改段落をU+2029で表している。このほか、Unicodeでは垂直タブ、改ページも改行として扱う。
[編集] 文字コード
詳細は文字コードを参照
アラビア数字やラテン文字 (いわゆる英字) 以外の印字文字や、改行文字を扱う (したがって、たいていの) 場合、文字コードの問題の発生することがある。UNIXやLinuxが拡張UNIXコード (日本語環境ではEUC-JPが多かろう) の文字コードを主に利用するのに対し、MS-DOS/WindowsやMac OSは、Shift_JISコードなどを利用する。また、最近ではUnicodeも利用されるようになってきている。そのために相互のOSにファイルを転送させた場合、期待しているテキストが表示されない文字化けと呼ばれる現象が起きてしまう。これらの改行コード、文字コードの違いに対する問題は、変換ソフトや複数の改行コードや文字コードに対応したテキストエディタなどの利用で補える。
外字フォントを利用している場合も、その文字が含まれるフォントがない場合は期待通りの表示を得られない。