次: , 前: Character Sets, 上: Non-ASCII Characters


32.6 文字とバイト

マルチバイト表現では、各文字は1バイトかそれ以上のバイトを占めます。 各文字集合には、通常は1バイト長か2バイト長の 導入列(introduction sequence)があります (例外:ASCIIの導入列は0バイト長である)。 導入列は、文字集合の任意の文字のバイト列の始まりです。 文字のバイト列の残りの部分は、同じ文字集合内で他の文字とその文字を区別します。 文字集合に依存して、区別するためのバイトは1バイトか2バイトです。 そのようなバイト数を文字集合の次元(dimension)と呼びます。

— 機能: charset-dimension charset

この関数は、文字集合charsetの次元を返す。 現在、次元はつねに1か2である。

文字集合の導入列のバイト長を判定するもっとも簡単な方法はつぎのとおりです。

     (- (char-bytes (make-char charset))
        (charset-dimension charset))