Hatena Blog Tags

UTF-8

(コンピュータ)
ゆーてぃーえふえいと

Unicode (or UCS) Transformation Format, 8-bit encoding form.
Unicodeでは Unicode Translation Format-8
ISO/IEC 10646では 8-bit UCS Transformation Format
Unicode、ISO/IEC 10646(UCS)のエンコーディング方法のひとつ。
ASCIIの範囲内にある文字は1バイトに、大抵の漢字や仮名は3バイトにエンコーディングする特徴がある。

RFC 2279で、UCS(Unicodeのコード値)からの変換方法が定義されている。

   UCS-4 range (hex.)           UTF-8 octet sequence (binary)
   0000 0000-0000 007F   0xxxxxxx
   0000 0080-0000 07FF   110xxxxx 10xxxxxx
   0000 0800-0000 FFFF   1110xxxx 10xxxxxx 10xxxxxx
   0001 0000-001F FFFF   11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

   c.f. Invalid sequence
   0020 0000-03FF FFFF   111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
   0400 0000-7FFF FFFF   1111110x 10xxxxxx ... 10xxxxxx

詳しくはRFC 3629を参照してください。

IETFにより、STD番号(STD63)が割り振られている。

このタグの解説についてこの解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

関連ブログ