プログラム例。用例部はPDICの変換時に削除できるので、ここでは◆以降の コメント部と 3 word 以上の単語を削除してみました(英辞郎 v5.1)。
jgawk -f sample.awk < eijiro51.txt > ej.txt
などとした後、PDICで変換します。登録を日本語訳のみにしたところ、 約28MB(68万語)になりました。
注1:jgawk用ですが、Perlのa2pでPerl化したほうが高速です。
注2:英和中辞典をPDIC化すると約20MBになります。入手可能なら選択肢の ひとつとされてはいかがでしょうか。
[sample.awk] BEGIN { # 次のパターンは英辞郎テキストファイル用 comment = "◆.+$" delword = "^[^ ]+ [^ ]+ ([^ ]+ )+:" } { sub(comment, "") if ($0 ~ delword) { delcount++ } else { print } } END { # printf("!! COMPLETE !! %d words -> %d words\n", NR, NR - delcount) }
|