misc.log

日常茶飯事とお仕事と

文字種チェックでよく使っている文字

各種プラットフォームをまたがるシステムなどで、ファイル名やファイル内の文字などが文字化けするのはよくあることですが、化けるかどうかのテストをどうするかは悩ましい問題です。

私がよくテストで使っている文字があるので自分用のメモも兼ねて記載しておきます。仕事で関係者に送ったメールを転記したものです。

はしごたか

髙 …… IBM拡張文字/NEC選定IBM拡張文字
Unicode …… 09AD9
UTF-8 …… E9AB99(3バイト)
ShiftJIS …… FBFC(IBM拡張)/ EEE0(NEC選定拡張)

かき…とみせかけて「こけら」

杮…… JIS X 0212
Unicode …… 0676E
UTF-8 …… E69DAE(3バイト)
ShiftJIS …… 4323

登録商標

® …… JIS X 0213 非漢字
Unicode …… 000AE
UTF-8 …… C2AE(2バイト)
ShiftJIS …… 8549

森鴎外の「おう」

鷗 …… JIS X 0213 第3水準
Unicode …… 9DD7
UTF-8 …… E9B797(3バイト)
ShiftJIS …… EFE3

魚の「ほっけ」

𩸽 …… JIS X 0213 第4水準
Unicode ……29E3D
UTF-8 …… F0A9B8BD(4バイト!)
ShiftJIS …… FC6B

UTF-16では2文字分で1文字を表す「サロゲートペア」と呼ばれる種類の文字で、 DBなどで文字コードが合わずに文字化けした際に「??」と2文字に化けたりするので文字化けを含めたテストには最適の文字です。実際、SJIS設定のOracleに突っ込むと2文字に文字化けして、文字数的に膨らんでバグになったことがありました。

白い笑顔(White Smiling Face)

☺ …… Unicode固有(SJISに対応文字無し)
Unicode ……0263A
UTF-8 …… E298BA(3バイト)
ShiftJIS …… N/A




なお、書いてから見つけたのですが、下記のサイトが非常にわかりやすくまとめられていました。こちらの方が参考になりますね(笑)

d.hatena.ne.jp

また、具体的な文字コードは下記のサイトでよく調べています。

www.isthisthingon.org