Unicode
文字一つ一つに重複しない記号を割り当て、その記号を集めた集合のこと。
その重複しない記号を「符号」といい、集合のことを「符号化文字集合」という。
例えば「A」に割り当てられた符号はU+0041、「阿」はU+963F。
Unicodeは文字の集合(符号化文字集合)であって、文字コードではないことに注意。
UTF-8
文字を実際にコンピューターで扱うために、ある規則に基づいてUnicodeから変換したもの。この変換されたものがUTF-8という文字コード。
例えば「A」は0x41、「阿」は0xE998BF。
UTF-8の変換方式はUTF-16とは異なるため、変換後の文字コードはUTF-16とは当然異なる。
UTF-16
文字を実際にコンピューターで扱うために、ある規則に基づいてUnicodeから変換したもの。この変換されたものが文字コード。
例えば「A」は0x0041、「阿」は0x963F。
UTF-16の変換方式はUTF-8とは異なるため、変換後の文字コードはUTF-8とは当然異なる。