用語集

ASCII

情報交換用米国標準コード。 ASCII は,制御文字とグラフィック文字を含み,7 ビットのバイナリ値で表現される 128 文字を定義している (ISO 646 も参照)。

次の項目も参照: 文字セット (character set), コード化文字セット (coded character set)

C ロケール (C locale)

標準の (省略時の) 言語環境。 この環境は,非国際化アプリケーション用として,ロケールがインストールされていない場合やロケールがアクティブでない場合でも,必ず利用できる。

dense コード (dense code)

本オペレーティング・システムは,dense コードと Unicode の 2 つのタイプのロケールをサポートする。 dense コード・ロケールは,コードポイントを連続で割り当てて空き位置をなくすことによってテーブル・サイズを最小にする,ワイド文字エンコーディングを使用する。 dense コード・ロケールでは,あるロケールの wchar_t 値は,他のロケールで同じ文字を指すとは限らない。 つまり,wchar_t 値はロケールごとに定義される。

次の項目も参照: Unicode

I18N

国際化 (internationalization) を参照

ISO 10646

ISO ユニバーサル文字セット (UCS)。 この文字セットの最初の 65,536 コード位置は基本多言語プレーン (BMP) と呼ばれ,各文字は 16 ビット長である。 ISO 10646 のこの形式は,UCS-2 と呼ばれる。 ISO 10646 には,各文字が 32 ビット長である,UCS-4 と呼ばれる形式もある。

次の項目も参照: Unicode

ISO 646

情報交換用の ISO 7 ビット・コードセット。 ISO 646 の参照バージョンは,ASCII コードセットで定義されているグラフィック文字と同一の,95 個のグラフィック文字を含む。

ISO 6937

公衆通信網,私設通信網,または磁気テープや磁気ディスクなどの交換メディアを使用したテキスト通信用の ISO 7 ビットまたは 8 ビットのコードセット。

ISO8859-*

ISO 8 ビット・シングルバイト・コードセット。 アスタリスク (*) は,関連する ISO 標準のパートを表す番号を示す。 たとえば,ISO8859-1 コードセットは,大半の西ヨーロッパ言語の要件を満たす 191 個のグラフィック文字を定義している ISO 8859 パート 1,ラテン・アルファベット 1 に適合する。

L10N

地域化 (localization) を参照

langinfo データベース (langinfo database)

ロケールの数値,通貨,日付,時刻,およびメッセージに関連する情報の集まり。

UCS

ISO 10646 を参照

Unicode

大半の母国語の文字に対するエンコーディングを定義する規格。 Unicode 標準は,UCS (Universal Character Set) を規定し,多数の文字を定義します。 この中には,ベンダ定義文字用のプライベート用領域も含まれる。 "Unicode" の元の意味は,ISO 10646 規格で定義されている UCS-2 (16 ビット) エンコーディングに限定されたエンコーディング。 現在 Unicode 標準は,UCS-4 (32 ビット) エンコーディングを含み,データ・ファイルを処理するバイト指向のプロトコルで使用する,多数の UTF (Universal Transformation Format) を定義するようになった。

次の項目も参照: コード化文字セット (coded character set), ISO 10646

グラフィック文字 (graphic character)

手書き,印字,あるいは表示する際に,視覚的に表現される制御文字以外の文字。 表意文字ともいいます。

コード化文字セット (coded character set)

文字セットを定義し,そのセット中の各文字とそのビット表現との 1 対 1 の関係を明確に定義する規則の集合。 UNIX システム上では,コードセットという用語が一般的。 MS-DOS および Microsoft Windows システムでは,コード・ページという用語が一般的。

コードセット (code set)

コード化文字セット (coded character set) を参照

コード・ページ (code page)

コード化文字セット (coded character set) を参照

国際化 (internationalization)

プログラムが扱う言語や,文化的データ,文字のエンコード方式についてあらかじめ知らなくても,プログラムの開発が行えるようにする仕組み。 国際化プログラムは,実行時に特定の言語環境に合わせて動作を変更するためのインタフェース群を使用する。 I18N という用語が,国際化 (internationalization) の略語としてよく使用される。

次の項目も参照: ロケール (locale), 地域化 (localization)

照合順序 (collating sequence)

ソート時に文字または文字グループに適用される順序付け規則。

小数点文字 (radix character)

数の整数部と小数部を区切る文字。

処理コード (process code)

プログラム内のデータを操作するために使用されるエンコード方式。

ファイル・コードと対比

制御文字 (control character)

テキストの記録や,処理,転送,解釈に影響する,グラフィック文字以外の文字。

地域 (territory)

一般的に民族や国などの政治的な実体によって定義される,地理的な領域。 地域化で対処しなければならない文化的な相違 (たとえば,地域の通貨や言語) がある。

地域化 (localization)

コンピュータ・システムに,言語や文化固有の情報を組み込むための仕組み。 そのための要件のいくつかは,ロケールによって解決される。 他の要件は,プログラム・メッセージを翻訳し,プリンタ・デバイスとディスプレイ・デバイスに適切なフォントを搭載することにより,また場合によっては,さらに追加ソフトウェアを作成することにより実現される。 L10N という用語が,地域化 (localization) の略語として使用されることがある。

次の項目も参照: 国際化 (internationalization), ロケール (locale)

データ (data)

内部的に生成された情報,ファイルから取り出された情報,ファイルへ書き込んだ情報,プログラムのユーザと通信するためのメッセージ・テキストを指す。

ファイル・コード (file code)

プログラム外のデータに適用されるエンコード方式。

処理コードと対比

符号拡張 (sign extension)

小さなデータ型の値は,大きなデータ型と比較するために変換される場合,残りの上位ビットに最上位ビットが埋め込まれる。 たとえば,s[0] は,値が 0x8e の場合,符号拡張により 0xffffff8e として扱われる。

文化的データ (cultural data)

日付,時刻,数値,金額値などの地域固有の表記。

母国語 (native language)

英語,フランス語,日本語,タイ語などの,コンピュータ・ユーザが話したり書いたりする言語。

マルチバイト文字 (multibyte character)

文字 (character) を参照

メッセージ・カタログ (message catalog)

特定の言語,地域,およびコードセットの組み合わせで使用される,プログラム・メッセージ,コマンド・プロンプト,およびプロンプトへの応答を含む,プログラム・コード外部のファイルまたは記憶領域。

文字 (character)

1 つのグラフィック・シンボルまたは制御コードを表現する,1 つ以上のバイトの並び。 C の char データ型とは異なり,文字は 1 バイトまたは複数バイトの値で表現される。 「マルチバイト文字」という表現は,「文字」という用語と同義である。 つまり両者とも,1 バイト値を含む,任意の長さの文字値を意味する。

次の項目も参照: ワイド文字 (wide character)

文字セット (character set)

テキストの構成,制御,または表現に使用される要素セットのメンバ。

次の項目も参照: ASCII, ISO 10646

文字の列 (character string)

ヌル・バイトで終わる,連続したバイト (ヌル・バイトも含む) の並び。 C プログラミング言語では,文字列は char 型の配列である。 ヌル・バイトは,すべてのビットがゼロ (0) のバイトである。

空の文字列は,1 番目の要素がヌル・バイトの文字列である。

次の項目も参照: 文字 (character), ワイド文字列 (wide-character string)

文字列 (string)

文字の列 (character string) を参照

ユーロ (euro)

EMU (Economic and Monetary Union) に所属するヨーロッパ諸国に導入された新しい通貨。 西暦 2002 年に,EMU に属する国々の通貨は,この新しい通貨と置き換えられます。 ユーロは,等号 (=) と大文字の C で構成される通貨記号を持ち,国際的な通貨ドキュメントでは文字列 EUR で識別されます。

ユニバーサル文字セット (Universal Character Set)

ISO 10646 を参照

ローカル言語 (local language)

母国語 (native language) を参照

ロケール (locale)

母国語 (ローカル言語),文化的データ,およびコードセットの特定の組み合わせをサポートするデータおよび規則の集合。 言語テーブルともいいます。

次の項目も参照: コード化文字セット (coded character set), 文化的データ (cultural data), langinfo データベース (langinfo database), 地域化 (localization)

ワイド文字 (wide character)

拡張実行文字セットのすべてのメンバを格納するのに十分な大きさの整数型。 プログラムの観点からは,ワイド文字は,ヘッダ・ファイル /usr/include/stddef.h (X/Open 仕様に準拠) と /usr/include/stdlib.h (ANSI C 標準に準拠) で定義されている wchar_t 型のオブジェクト。 wchar_t データ型が定義されているファイル位置は標準化組織が決定するが,定義そのものは実装に固有である。 たとえば,1 バイト・コードセットだけをサポートする実装では,wchar_t を 1 バイト値として定義できる。 Tru64 UNIX システムでは,wchar_t は 4 バイト (32 ビット) 値である。

ヌル・ワイド文字は,すべてのビットがゼロ (0) の wchar_t 値。

ワイド文字列 (wide-character string)

ヌル・ワイド文字で終わる,連続したワイド文字 (ヌル・ワイド文字も含む) の並び。 ワイド文字列は,wchar_t 型の配列である。

次の項目も参照: 文字の列 (character string), ワイド文字 (wide character)

ワールドワイド・ポータビリティ・インタフェース (WPI)

シングルバイト・コードセットやマルチバイト・コードセットをサポートする

アプリケーションを作成するときに使用できる関数。 WPI 関数は,C 言語インタフェースと似ているが,ワイド文字を使用する。