PDIC & DokoPop! 会議室

HOME HELP 新規作成 新着記事 ツリー表示 スレッド表示 トピック表示 発言ランク 検索 過去ログ

ログ内検索
・ キーワードを複数指定する場合は 半角スペース で区切ってください。
・ 検索条件は、(AND)=[A かつ B] (OR)=[A または B] となっています。
・ 過去ログから探す場合は過去ログを選択。

キーワード/ 検索条件 /
検索範囲/ 強調表示/ ON (自動リンクOFF)
結果表示件数/

No.483 の関連記事表示

全ページ数 / [0]
No.483/英辞朗の簡易版
■投稿者/ kitaro -(2002/07/14(Sun) 11:59:36)

    今回、Compaq iPAQ H3630 (32MB)を購入しますが、現在の英辞朗の容量(39.1MB)ではCOMPACT FLASHを使わないと、使用不可です。なるべくジャケットを使用したくないために、方法を考えているところです。つきましては、どなたか英辞朗のもっと情報量の少ない簡易版をご存知ないでしょうか? お手数ですが、何卒よろしくお願い致します。
親記事 / 関連記事表示
削除チェック/

No.487/Re[1]: 英辞朗の簡易版
■投稿者/ 関根 -(2002/07/14(Sun) 21:54:12)

    kitaro さん

    英辞郎をawk, perl等でテキスト処理して縮める方法はいかがでしょう。
    ちょっと実験してみたところ、用例部を削除すれば約15%小さくなりますし、
    また 3 word 以上の単語を削除すれば約35%小さくなります。両方行えば
    20MB強になると思われます。
記事No.483 のレス / 関連記事表示
削除チェック/

No.493/Re[2]: 英辞朗の簡易版
■投稿者/ 関根 -(2002/07/15(Mon) 11:15:49)

    プログラム例。用例部はPDICの変換時に削除できるので、ここでは◆以降の
    コメント部と 3 word 以上の単語を削除してみました(英辞郎 v5.1)。

    jgawk -f sample.awk < eijiro51.txt > ej.txt

    などとした後、PDICで変換します。登録を日本語訳のみにしたところ、
    約28MB(68万語)になりました。

    注1:jgawk用ですが、Perlのa2pでPerl化したほうが高速です。

    注2:英和中辞典をPDIC化すると約20MBになります。入手可能なら選択肢の
    ひとつとされてはいかがでしょうか。

    [sample.awk]
    BEGIN { # 次のパターンは英辞郎テキストファイル用
    comment = "◆.+$"
    delword = "^[^ ]+ [^ ]+ ([^ ]+ )+:"
    }
    { sub(comment, "")
    if ($0 ~ delword) {
    delcount++
    } else {
    print
    }
    }
    END {
    # printf("!! COMPLETE !! %d words -> %d words\n",
    NR, NR - delcount)
    }
記事No.483 のレス / 関連記事表示
削除チェック/



全ページ数 / [0]

パスワード/

HOME HELP 新規作成 新着記事 ツリー表示 スレッド表示 トピック表示 発言ランク 検索 過去ログ

- Child Tree -