文字のコード確認

使用できるキャラクタセットの欄から、希望の項目をクリックで選択し、 評価文字列入力欄に調べたい文字列を入力して、変換ボタンをクリックすると その下の欄に、対応する16進のコード列が得られます。
またこのとき、下のコード表が、評価文字列の先頭文字が見える位置に変化します。


(キャラクタセットによっては、正しく実行できない場合があります。)





コンピュータで取り扱う文字を管理する用語で、キャラクタセットフォントと呼ばれる用語があります。

コンピュータの中で記憶される文字情報も、物理的には0と1のバイナリ情報で管理されています。
実世界で使う文字に対するバイナリの対応付表を作って、その表に基づいて記憶されます。
(この対応表で決定されるコードは、文字コードとも呼ばれています。)
そしてこの表の規則が(文字コードの取り決め規則が)、たくさん存在して、これが文字符号化方式(CES:character encoding scheme)と呼ばれています。 この文字符号化方式と、この取り決めの対象となる符号化文字集合をまとめたものを符号化表現またはキャラクタセットと呼びます。

例えば、実世界の『学』の文字をコンピュータ内で記憶する場合、
Shift_JISと言うキャラクタセットでは16進数で、『8A 77』の2byteが並ぶバイナリで記憶します。
しかし、同じ『学』の文字が、UTF-16と言うキャラクタセットでは16進数で、『5B 66』の2byteになります。
つまり、記憶した時のキャラクタセットと記憶内容を取り出して使う時のキャラクタセットが同じでないといけないわけです。

同じコンピュータの中では問題が起きにくいのですが、ネットワークなどの場合、
送り側で使うキャラクタセットと、受け取り側で使うキャラクタセットが異なることで、このような問題がよく発生するようです。
この場合、送った文字が異なる文字に変わって見えることになり、『文字化け』と呼ばれます。

なお、UTF-16BEはビッグエンディアン(big endian)を明示したUTF-16です。これは位8ビットの方が先に配置されます。
対して、UTF-166LEはリトルエンディアン(little endian)を明示したUTF-16です。これは位8ビットの方が先に配置されます。
これは、CPUのバイト処理に対する順番の違いが存在した歴史的な背景で存在するのですが、単にUTF-16という場合はエンディアンを明示していません。
そこで、先頭に「バイト順マーク(BOM:Byte Order Mark)」というものを2バイト付与してエンディアンを表現します。 この2バイトでリトルエンディアンかビッグエンディアンかを判断できるようになっています。
このBOMは、Javaなどの文字列の内部管理に使われており、fe ff から始まる文字列はビッグエンディアンで、リトルエンディアンの文字列では先頭がff fe の2バイトが付きます。

7bitのASCIIコード(US-ASCII)は、ISO 646 で、世界中で広く使われています。
日本語の場合は JIS X 208 (JISコード)が使われ、 韓国語は KS C 5601が、 中国語の場合は GB 2312 や台湾での Big-5 が使われます。
ラテン系の文字を持つ西欧諸国では8bitのISO 8859が使われます。


なおフォントは、文字を画面や印刷で表示する場合、どのように表示するかを規定するものです。

例えば、 は同じ文字ですが、フォントが違っています。
ここでは、font-familyを「'MS ゴシック',cursive」と「'MS 明朝',monospace」で指定しています。

また、 \\は同じ文字ですが、フォントが違っています。
ここでは、font-familyを「Courier New」と「MS 明朝」で指定しています。