渋すぎるツール! 巨大なCSVファイルの文字コード変換にnkfが便利
csvの文字コード変換を行う際、毎回必要時にテキストエディタでファイルを開いて、文字コードを変えて保存し直すという面倒な手段をとっていた。
今回、変換の自動化の必要に迫られ、phpのfile_get_contents関数やfgetcsv関数を用いて自作をする時間もないという状況の中、nkfという便利なコマンドラインツールに出会ったのでメモを残す。
photo credit: Andrew* via photopin cc
1.nkfとは?
「nkf」というよくわからない名前は「ネットワーク用漢字コード変換フィルタ」から命名されたようである。
マニュアルによると、そもそもは
ネットワークでメールやニュースの読み書きをするために作られた、漢字コードの変換フィルタである。
とのこと。
2.nkfのダウンロードとファイルの設置
(1)以下からダウンロードする。
http://www.vector.co.jp/soft/win95/util/se295331.html
(2)nkf32.dllをwindows/system32フォルダへコピー
(3)nkf32.exeを「nkf.exe」などとリネームして、実行パスへ置く。
3.nkfの使い方とサンプル
コマンドプロンプトにて以下のように使用する。
nkf [オプション] [ファイル名]( >[出力ファイル名] )
オプション値でよく使いそうなものには以下がある。
-s : Shift-JISコードを出力 -e : EUCコードを出力 -w : UTF-8コードを出力(BOM無し) --in-place : 上書き保存 --overwrite : 上書き保存
指定なし場合はShift-JISへ変換される。
ちなみにBOMとは"Byte Order Mark"(バイト順マーク)のことで、ファイル先頭に付ける EF BB BF という3バイトのバイナリデータのこと。UTF-8であることを明示するために付けるもの。ソフトによってはBOM付きでないとUTF-8として認識しないものがある。
Shift-JISのcsvファイルをutf8へ変換(元のファイルは残す)
nkf -w c:¥test¥sample.csv > c:¥test¥sample2.csv
Shift-JISのcsvファイルをutf8へ変換(上書き保存)
n/f -w --in-place(または--overwrite) c:¥test¥sample.csv
4.nkfの使用感想
ちなみに変換に要する時間をテキストエディタと比較すると下記のようになる。
約200MBのcsvファイル
ファイルオープン時間 | 変換&保存時間 | 合計 | |
---|---|---|---|
sakuraエディタ(手動) | 30 sec | 41 sec | 71sec |
nkf | ー | 47 sec | 47 sec |
上記のように、テキストエディタはファイルオープンにも時間がかかるため、要する全体時間は長くなる。(そもそも比較すべきではないが...)
また、上記のように200MB程度であれば要する時間に差が出るレベルで済むが、1GBを超えるようなcsvファイルの場合、例えばsakuraエディタだとファイルオープン時に"Abnormal Program Termination" のエラーが出て、そもそも変換ができない。
これは「仮想メモリに使われる使用可能なハード ディスク領域が不足している」ことを意味するエラー。
nkfだとどんなに巨大ファイルであってもこのようなエラーは出ることはなく、時間さえかければ変換可能なので、深夜バッチ処理等に使用するにはうってつけと思われる。
あわせて読みたい
システム管理者でなくても知っとくべき! Windowsサーバ/クライアントの時刻同期設定まとめ - TechNoteコンピュータの内臓時計はズレやすいため、「時刻同期」について検討することはとても重要なことと思われますが、その重要性はあまり認識されていない気がします。私も先日...
Windows セキュリティゾーン関連レジストリをバッチで編集する方法 - TechNote端末名取得等の目的でWebアプリからVBScriptを実行するには各クライアントに対して以下の設定を行う必要がある。①信頼済みサイト追加②「信頼済みサイト」⇒「...
JavaScriptでWindow.closeする時のブラウザ別対応まとめ - TechNote社内用のWebシステムにこれまで設置してなかった「閉じる」ボタンを設置することになった際、少々ブラウザ問題でつまずいた点があった。ググっても最近のwindow....