情報交換用米国標準コード。 ASCII は,制御文字とグラフィック文字を含み,7 ビットのバイナリ値で表現される 128 文字を定義している (ISO 646 も参照)。
次の項目も参照: 文字セット (character set), コード化文字セット (coded character set)
標準の (省略時の) 言語環境。 この環境は,非国際化アプリケーション用として,ロケールがインストールされていない場合やロケールがアクティブでない場合でも,必ず利用できる。
本オペレーティング・システムは,dense コードと Unicode の 2 つのタイプのロケールをサポートする。 dense コード・ロケールは,コードポイントを連続で割り当てて空き位置をなくすことによってテーブル・サイズを最小にする,ワイド文字エンコーディングを使用する。 dense コード・ロケールでは,あるロケールの wchar_t 値は,他のロケールで同じ文字を指すとは限らない。 つまり,wchar_t 値はロケールごとに定義される。
次の項目も参照: Unicode
ISO ユニバーサル文字セット (UCS)。 この文字セットの最初の 65,536 コード位置は基本多言語プレーン (BMP) と呼ばれ,各文字は 16 ビット長である。 ISO 10646 のこの形式は,UCS-2 と呼ばれる。 ISO 10646 には,各文字が 32 ビット長である,UCS-4 と呼ばれる形式もある。
次の項目も参照: Unicode
情報交換用の ISO 7 ビット・コードセット。 ISO 646 の参照バージョンは,ASCII コードセットで定義されているグラフィック文字と同一の,95 個のグラフィック文字を含む。
公衆通信網,私設通信網,または磁気テープや磁気ディスクなどの交換メディアを使用したテキスト通信用の ISO 7 ビットまたは 8 ビットのコードセット。
ISO 8 ビット・シングルバイト・コードセット。 アスタリスク (*) は,関連する ISO 標準のパートを表す番号を示す。 たとえば,ISO8859-1 コードセットは,大半の西ヨーロッパ言語の要件を満たす 191 個のグラフィック文字を定義している ISO 8859 パート 1,ラテン・アルファベット 1 に適合する。
ロケールの数値,通貨,日付,時刻,およびメッセージに関連する情報の集まり。
ISO 10646 を参照
大半の母国語の文字に対するエンコーディングを定義する規格。 Unicode 標準は,UCS (Universal Character Set) を規定し,多数の文字を定義します。 この中には,ベンダ定義文字用のプライベート用領域も含まれる。 "Unicode" の元の意味は,ISO 10646 規格で定義されている UCS-2 (16 ビット) エンコーディングに限定されたエンコーディング。 現在 Unicode 標準は,UCS-4 (32 ビット) エンコーディングを含み,データ・ファイルを処理するバイト指向のプロトコルで使用する,多数の UTF (Universal Transformation Format) を定義するようになった。
次の項目も参照: コード化文字セット (coded character set), ISO 10646
手書き,印字,あるいは表示する際に,視覚的に表現される制御文字以外の文字。 表意文字ともいいます。
文字セットを定義し,そのセット中の各文字とそのビット表現との 1 対 1 の関係を明確に定義する規則の集合。 UNIX システム上では,コードセットという用語が一般的。 MS-DOS および Microsoft Windows システムでは,コード・ページという用語が一般的。
プログラムが扱う言語や,文化的データ,文字のエンコード方式についてあらかじめ知らなくても,プログラムの開発が行えるようにする仕組み。 国際化プログラムは,実行時に特定の言語環境に合わせて動作を変更するためのインタフェース群を使用する。 I18N という用語が,国際化 (internationalization) の略語としてよく使用される。
次の項目も参照: ロケール (locale), 地域化 (localization)
ソート時に文字または文字グループに適用される順序付け規則。
数の整数部と小数部を区切る文字。
プログラム内のデータを操作するために使用されるエンコード方式。
ファイル・コードと対比
テキストの記録や,処理,転送,解釈に影響する,グラフィック文字以外の文字。
一般的に民族や国などの政治的な実体によって定義される,地理的な領域。 地域化で対処しなければならない文化的な相違 (たとえば,地域の通貨や言語) がある。
コンピュータ・システムに,言語や文化固有の情報を組み込むための仕組み。 そのための要件のいくつかは,ロケールによって解決される。 他の要件は,プログラム・メッセージを翻訳し,プリンタ・デバイスとディスプレイ・デバイスに適切なフォントを搭載することにより,また場合によっては,さらに追加ソフトウェアを作成することにより実現される。 L10N という用語が,地域化 (localization) の略語として使用されることがある。
次の項目も参照: 国際化 (internationalization), ロケール (locale)
内部的に生成された情報,ファイルから取り出された情報,ファイルへ書き込んだ情報,プログラムのユーザと通信するためのメッセージ・テキストを指す。
プログラム外のデータに適用されるエンコード方式。
処理コードと対比
小さなデータ型の値は,大きなデータ型と比較するために変換される場合,残りの上位ビットに最上位ビットが埋め込まれる。
たとえば,s[0]
は,値が 0x8e の場合,符号拡張により 0xffffff8e として扱われる。
日付,時刻,数値,金額値などの地域固有の表記。
英語,フランス語,日本語,タイ語などの,コンピュータ・ユーザが話したり書いたりする言語。
文字 (character) を参照
特定の言語,地域,およびコードセットの組み合わせで使用される,プログラム・メッセージ,コマンド・プロンプト,およびプロンプトへの応答を含む,プログラム・コード外部のファイルまたは記憶領域。
1 つのグラフィック・シンボルまたは制御コードを表現する,1 つ以上のバイトの並び。
C の
char
データ型とは異なり,文字は 1 バイトまたは複数バイトの値で表現される。
「マルチバイト文字」という表現は,「文字」という用語と同義である。
つまり両者とも,1 バイト値を含む,任意の長さの文字値を意味する。
次の項目も参照: ワイド文字 (wide character)
ヌル・バイトで終わる,連続したバイト (ヌル・バイトも含む) の並び。
C プログラミング言語では,文字列は
char
型の配列である。
ヌル・バイトは,すべてのビットがゼロ (0) のバイトである。
空の文字列は,1 番目の要素がヌル・バイトの文字列である。
次の項目も参照: 文字 (character), ワイド文字列 (wide-character string)
EMU (Economic and Monetary Union) に所属するヨーロッパ諸国に導入された新しい通貨。
西暦 2002 年に,EMU に属する国々の通貨は,この新しい通貨と置き換えられます。
ユーロは,等号 (=) と大文字の C で構成される通貨記号を持ち,国際的な通貨ドキュメントでは文字列
EUR
で識別されます。
ISO 10646 を参照
母国語 (ローカル言語),文化的データ,およびコードセットの特定の組み合わせをサポートするデータおよび規則の集合。 言語テーブルともいいます。
次の項目も参照: コード化文字セット (coded character set), 文化的データ (cultural data), langinfo データベース (langinfo database), 地域化 (localization)
拡張実行文字セットのすべてのメンバを格納するのに十分な大きさの整数型。
プログラムの観点からは,ワイド文字は,ヘッダ・ファイル
/usr/include/stddef.h
(X/Open 仕様に準拠) と
/usr/include/stdlib.h
(ANSI C 標準に準拠) で定義されている
wchar_t
型のオブジェクト。
wchar_t
データ型が定義されているファイル位置は標準化組織が決定するが,定義そのものは実装に固有である。
たとえば,1 バイト・コードセットだけをサポートする実装では,wchar_t
を 1 バイト値として定義できる。
Tru64 UNIX システムでは,wchar_t
は 4 バイト (32 ビット) 値である。
ヌル・ワイド文字は,すべてのビットがゼロ (0) の
wchar_t
値。
ヌル・ワイド文字で終わる,連続したワイド文字 (ヌル・ワイド文字も含む) の並び。
ワイド文字列は,wchar_t
型の配列である。
シングルバイト・コードセットやマルチバイト・コードセットをサポートする
アプリケーションを作成するときに使用できる関数。 WPI 関数は,C 言語インタフェースと似ているが,ワイド文字を使用する。