コンピュータが扱う情報の最小単位はご存知の通りbit(2値)です。bitが基礎となり、以下のような上位の単位を構成します。
フォレンジック分野ではコンピュータが処理するレベルの生データ(rawデータ)について把握しておく必要があります。rawデータは16進数表記(0xではじまる)で扱うことが一般的です。
次にファイルフォーマット(ファイル形式)についてです。ファイル形式を大別するとテキストファイルとバイナリファイルに分けられます。テキストファイルは文字コードによって表されるデータ(文字、制御文字)を指し、テキストファイル以外はバイナリファイルとして区別されます。
文字コードの基本はASCIIであり、英数字の表現ではどの環境でもほぼ統一して用いられます。ASCIIで定義されていない文字を表す文字コードは多数存在し、かな、漢字などの日本語だけでもISO-2022-JP, Shift_JIS, EUC-JPなどが存在します。なお、ASCIIは7bitコードであり、8bitコードでは127番までをASCIIコード、128番目からはその他の文字に割り当てて互換性を保っています。
Unicodeは全ての文字を共通で扱うことを目的にした規格であり厳密には文字集合を指します。符号化方式はUTF-8, UTF-16が多く利用されています。文字集合とは簡単に言うと、文字ごとに対応づけられた番号と対応するビット組合せで構成される表のようなイメージです。JIS X 0208, JIS X 0213などがあります。文字符号化方式(CES)は、文字集合を符号化した文字符号化集合を他と組み合わせたり変換する方式です。ISO-2022-JP, EUC-JP, Shift_JISなどがあります。これらはいずれも文字集合はJIS X 0208を使っています。
キャラクタセットとは、オクテットの並びを文字の並びに変換する方式で、文字符号化方式と文字集合をまとめたものです。文字コードとは各文字に割り当てられるバイト表現および文字とバイト表現の対応関係です。実際には文字符号化方式やキャラクタセットのかわりに(混在して)用いられています。
外字とはユーザが独自にフォントを登録できる領域です。コードページとは特定の文字集合を指定するための数字や、その仕組みを指します。