Electric Sheep

徒然なる日々の記録

CLIE電子辞書化計画(4)

 前回のWordSeekerでの利用がやや暗礁に乗り上げた格好だったので、ここはひとつ頑張って先人達のやり方に習い、PDIC形式の広辞苑データを作ることを決意。早速行なってみました。以下の内容は色々なサイトに紹介されています。特に自分が参考にしたのは、
更に極めよ「EPWING/PDIC辞書 http://kazuo.fc2web.com/dic/ddwin2.htm
私家版携帯端末考 
http://www.yo.rim.or.jp/~mono93/mobile/
幾霜(電子辞書関連)
http://www.ikushimo.com/edic/
になります。この場をかりてお礼を。ありがとうございます。
実際、色々なところで方法を拝見していて、広辞苑・DDwinがある以上、テキストの抽出は問題なくOKでした。問題はここから1行テキスト形式への変換です。手軽にできるperlでの方法はまずはActivePerlを自分のPCにインストール。その後「幾霜」さんにあるkojien4.lzhをダウンロードして解凍。henkan.txt以外のデータと先ほどDDwinから抽出したテキストデータを同じ任意のフォルダに入れ、kojien.batをクリックでOK(ただし、この.batはJperlに対してのものなので、ActivePerlの場合はjperlをperlに書き直す必要があります。)←これが判らなかった。
あとは.batをクリックすると、一気に1行テキスト形式のデータが出来ます。PDICで使う場合は(すなわちWdicで使えるようにするには)、このデータをPDICで読み込みPDIC形式に辞書変換をします。42万語位なので、15分くらいかけて変換が終了。これでこのデータをメモリーカードに入れれば広辞苑Palmで使えるはずです。(メモステに空きが無いので、まだいれてませんが、、データ容量は38.2MBになりました。)
とまあ、本当にざっくりと書きましたが、こんな流れで作成できたと言う感じです。他の辞書データについても基本的に同じ流れなので、あとは.batファイルをどうするか(今回のものを書き換えるとか)が問題かな。同じ「kojien.txt」と言う名前で他の辞書も変換してしまって、最後に名前変更すれば大丈夫という考え方もありますが。
何か適当にやったような雰囲気あるけど、かなり悩みましたからね。とりあえず自分がまたいつかやるときの覚書ということで。
(追記)
他の辞書の変換については、1行テキスト形式への変換が山。今回使ったperlはあくまで広辞苑用にできているので、変換スクリプトを書き換える必要があります。そのためには抽出したテキストの中身を見ていかないといけない事になる?うわあ、、他の辞書については気が向いたらということで。ちなみに広辞苑CLIEで快適に検索できています。OS5の力もあって、凄い快適な検索。文字タップで他の項目に飛ぶこともできるので便利ですね。