7月7日（水）1コマ目

7月 07, 2021

今日、やったこと

文字コードのつづき

今日のホワイトボード

先週は

文字のあつまり　＝　文字集合
文字を数値に置き換えるためのルール　＝　文字符号化方式

がポイントでした。

さらに、初期のころに使われていた文字集合と符号化方式が一体化したASCIIやJIS X 0201で実際に符号化してみました。

符号化方式

日本語を含む文字集合(JIS X 0201、JIS X 0208など)に対応した符号化方式として

Shift_JIS（亜種が結構ある）
EUC-JP
ISO-2022-JP
UTF-8

などがあります。

Shift＿JIS

符号化のルールは結構めんどくさいことをやっているので省略。

SJISとも呼ばれ、日本で最も使われている符号化方式（と思う）。

図　Shift_JIS

EUC-JP

UNIXはこちらを利用。

文字集合ごとに符号化方式が異なる。

図　1をEUC-JPで符号化

図　半角カナのイ、ヌを符号化

図　全角カナのイ、ヌを符号化

ISO-2022-JP

Web（とくにメール）で利用。

UTF-8

UNICODEとよく混合されて扱われる。

UNICODEは文字集合（文字のあつまり）。

UTF-8はUNICODE中の文字を符号化するための符号化方式。

「文字コードはUNICODEで・・」は間違った使い方。

「文字コードはUTF-8で・・」が正しい。

なぜ文字化けする？

送信側で利用した文字符号化方式と受信側で利用した文字符号化方式が一致しないため発生。

なお、ASCIIに含まれる数字、アルファベット、記号はどの符号化方式でもASCIIでの符号化方式を継承している。よって、数字、アルファベット、記号は文字化けすることは基本的にない。

結局、全角文字が文字化けすることになる。

次回は

誤差と文字コードのテストします。

基本情報技術者試験の午前問題から誤差と文字コードに関する問題をチェックしてください。

なお、符号化方式を暗記してこいなんてことは要求しません。

このブログを検索

情報数学 2021年度前期(1年)

7月7日（水）1コマ目

今日、やったこと

今日のホワイトボード

先週は

符号化方式

Shift＿JIS

EUC-JP

ISO-2022-JP

UTF-8

なぜ文字化けする？

次回は

コメント

このブログの人気の投稿

5月19日（水）1コマ目

4月22日（木）1コマ目

6月23日（水）1コマ目