【C#】ファイルの文字エンコード変換
【変換前】
【変換後】
// // 【ファイルの文字エンコード変換】※Windows7で動作確認済み // 「Shift-JIS -> UTF-8」,「UTF8 -> Shift-JIS」 // (c) 2017 mikan // ※使用にあたっては利用者の自己責任でお願いします。 // using System; using System.IO; using System.Text; namespace EncodeChg { class Program { static void Main(string[] args) { SjisToUtf8(@"d:\debug\in_sjis.txt", @"d:\debug\out_utf8.txt"); Utf8ToSjis(@"d:\debug\in_utf8.txt", @"d:\debug\out_sjis.txt"); } // Shift-JIS -> UTF-8 変換(BOMなし) static int SjisToUtf8(string fname1, string fname2) { // ※既存ファイルへの上書きチェック等は別途行ってください // ファイルをbyte形で全て読み込み FileStream fs1 = new FileStream(fname1, FileMode.Open); byte[] data = new byte[fs1.Length]; fs1.Read(data, 0, data.Length); fs1.Close(); // Shift-JIS -> UTF-8 変換(byte形) Encoding sjisEnc = Encoding.GetEncoding("Shift_JIS"); string sjisstr = sjisEnc.GetString(data); byte[] bytesData = System.Text.Encoding.UTF8.GetBytes(sjisstr); // string型に変換したい場合はこんな感じに // Encoding utf8Enc = Encoding.GetEncoding("UTF-8"); // string utf = utf8Enc.GetString(bytesData); // Console.WriteLine(utf); // 出力ファイルオープン(バイナリ形式) FileStream fs2 = new FileStream(fname2, FileMode.Create); // 書き込み設定(デフォルトはUTF-8) BinaryWriter bw = new BinaryWriter(fs2); // 出力ファイルへ全て書き込み bw.Write(bytesData); bw.Close(); fs2.Close(); return 0; } // UTF8 -> Shift-JIS 変換 static int Utf8ToSjis(string fname1, string fname2) { // ※既存ファイルへの上書きチェック等は別途行ってください // ファイルをbyte形で全て読み込み FileStream fs1 = new FileStream(fname1, FileMode.Open); byte[] data = new byte[fs1.Length]; fs1.Read(data, 0, data.Length); fs1.Close(); // UTF-8 -> Shift-JIS 変換(byte形) Encoding utf8Enc = Encoding.GetEncoding("UTF-8"); string utf8str = utf8Enc.GetString(data); byte[] bytesData = System.Text.Encoding.GetEncoding("Shift_JIS").GetBytes(utf8str); // string型に変換したい場合はこんな感じに // Encoding sjisEnc = Encoding.GetEncoding("Shift-JIS"); // string sjis = sjisEnc.GetString(bytesData); // Console.WriteLine(sjis); // 出力ファイルオープン(バイナリ形式) FileStream fs2 = new FileStream(fname2, FileMode.Create); // 書き込み設定(Shift-JIS) BinaryWriter bw = new BinaryWriter(fs2, System.Text.Encoding.GetEncoding("Shift_JIS")); // 出力ファイルへ全て書き込み bw.Write(bytesData); bw.Close(); fs2.Close(); return 0; } } }
【C#】ファイルの文字エンコード判定
テキストファイルを読んでとある処理をさせていたところ、
UTF-8は問題ないが、Shift-JISで文字化けが発生。
ファイルのエンコードを判断できないか調べてみたが
完璧な判断ロジックは存在しないらしく、
基本的な判断でさえそれなりのロジックが必要なことがわかった。
hnx8氏が公開している「ReadJEnc」という便利なDLLを発見したので
試してみました。※C#で書かれていてソースも公開されています
d.hatena.ne.jp
【実行結果】※ReanEncの結果で、StreamReader()に文字エンコードを指定する
// // 【ファイルの文字エンコード判定】※Windows7で動作確認済み // (c) 2017 mikan // ※使用にあたっては利用者の自己責任でお願いします。 // ※このサンプルは、UTF-8とShift-JISのみ対応 // using System; using System.IO; namespace EncodeCheck { class Program { static void Main(string[] args) { string str; // エンコード取得 foreach (string s in args) { Console.WriteLine("--------------------------------------------------"); Console.WriteLine("ファイル名:{0}", s); str = CodeCheck(s); Console.WriteLine("エンコード:{0}", str); Console.WriteLine("--------------------------------------------------"); fileread(s, str); Console.WriteLine("\n"); } } // ファイル表示 static int fileread(string fname, string encoding) { string ENCODE_STR; if (encoding == "ShiftJIS") { ENCODE_STR = "shift_jis"; } else { ENCODE_STR = "utf-8"; } // ファイルオープン System.IO.StreamReader sr = new System.IO.StreamReader( fname, System.Text.Encoding.GetEncoding(ENCODE_STR)); // 一行ずつ読み込み while (sr.Peek() > -1) { // 上のStreamReader()で文字エンコードを指定していないと // コンソール出力でShift-JISが文字化けする Console.WriteLine(sr.ReadLine()); } sr.Close(); return 0; } // 文字エンコード取得 static string CodeCheck(string fname) { string str = null; // ファイルをbyte形で全て読み込み FileStream fs = new FileStream(fname, FileMode.Open); byte[] data = new byte[fs.Length]; fs.Read(data, 0, data.Length); fs.Close(); // 文字エンコード推定(hnx8氏公開のDLL) var charCode = Hnx8.ReadJEnc.ReadJEnc.JP.GetEncoding(data, data.Length, out str); return charCode.ToString(); } } }