PDIC/Unicode会議室

HOME HELP 新規メッセージ 新着記事 ツリー表示 スレッド表示 トピック表示 発言ランク 検索 過去ログ

ツリー一括表示

Nomal 「和英辞書の作成」でフリーズ /かずお (04/03/23(Tue) 12:31) [158]
Nomal Re[1]: 「和英辞書の作成」でフリーズ /かずお (04/03/24(Wed) 12:48) [159]
  ┗Nomal Re[2]: 「和英辞書の作成」でフリーズ /BMH (04/03/26(Fri) 10:15) [160]
    ┗Nomal Re[3]: 「和英辞書の作成」でフリーズ /かずお (04/03/26(Fri) 18:07) [161]
      ┗Nomal Re[4]: 「和英辞書の作成」でフリーズ /BMH (04/04/09(Fri) 09:26) [162]
        ┗Nomal Re[5]: 「和英辞書の作成」でフリーズ /かずお (04/04/09(Fri) 14:36) [163]
          ┗Nomal Re[6]:ハングル語末に区切り文字ができるため /BMH (04/04/11(Sun) 09:03) [164]
            ┗Nomal Re[7]: :ハングル語末に区切り文字ができるため /かずお (04/04/11(Sun) 16:20) [165]
              ┗Nomal Re[8]: :ハングル語末に区切り文字ができるため /BMH (04/04/12(Mon) 10:30) [166] 解決済み!
                ┗Nomal Re[9]: :ハングル語末に区切り文字ができるため /かずお (04/04/12(Mon) 14:02) [167] 解決済み!


親記事 / ▼[ 159 ]
[158]  「和英辞書の作成」でフリーズ
□投稿者/ かずお 1回-(2004/03/23(Tue) 12:31:53)

    韓日辞書をPdic unicode版で作成しています。韓日辞書から日韓辞書を作成したいのですが、「和英辞書の作成」でやると、0%のままフリーズしてしまいます。解決方法があれば、どうぞよろしくお願いします。

    仮にPdic unicode版上でできない場合、どんな方法でもいいので、同様のことが実現できる方法があれば、お願いします。一行テキスト形式に書き出してエディタで開くなど試してみましたが、日本語Windows上でも韓国語Windows上でも、文字化けします。

    また、unicode版にも是非「用例も登録する」を追加して下さい。お願いします。
[ □ Tree ] [ 返信 ] [メール受信/ON] 削除キー/



▲[ 158 ] / ▼[ 160 ]
[159]  Re[1]: 「和英辞書の作成」でフリーズ
□投稿者/ かずお 2回-(2004/03/24(Wed) 12:48:02)

    追加報告です。
    Pdic一行テキスト形式に書き出して、日本語WindowsXP上で秀丸で開くと、文字化けせず表示できました。ただ、問題が2つあります。

    1. 韓国語と日本語訳を正規表現で入れ替えようとすると、置換後に韓国語部分が消えてしまいます。
    2. それ以前の問題ですが、複数のカンマ区切りの日本語訳それぞれを分けて見出しに登録することができません。

    お願いします。
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/ON] 削除キー/



▲[ 159 ] / ▼[ 161 ]
[160]  Re[2]: 「和英辞書の作成」でフリーズ
□投稿者/ BMH 1回-(2004/03/26(Fri) 10:15:58)

     イタリア語辞書データファイルを作成しているBMHです。私の分かる範囲で考えて見ましょう。

    > 韓日辞書をPDIC Unicode版で作成しています。韓日辞書から日韓辞書を作成したいのですが、「和英辞書の作成」でやると、0%のままフリーズしてしまいます。

    -TaNさんが現行のPDIC/U(ver.0.56)の「正式版までの...」のところに明記しているように、まだ「言語判別DLL」が付属していないので、「和英辞書の作成」ツールではハングル文字を認識できないので、はっきり作成に入ることができません、つまりフリーズします。このDLLができるまで待つか、どなたか作ってくださるといいのですが(すいません、こう言ってる私もできません)。

    > PDIC一行テキスト形式に書き出して、日本語WindowsXP上で秀丸で開くと、文字化けせず表示できました。
    > >1. 韓国語と日本語訳を正規表現で入れ替えようとすると、置換後に韓国語部分が消えてしまいます。

    -ファイルの読み込み表示はできても、編集を施すとハングル文字を再表記できないということですので、おそらく秀丸がUTF-8としてBOCU1を読み込むことはできても、UTF-8そのものとして再表記できないのだろうと思います。BOCU1に対応しているテキスト・エディターの存在って?です。
     それで、秀丸で1行ファイルを開いてから、何も編集せずに、「別名で保存」(すいません、秀丸を使ってないので何と言ってるか)を選んで、別名をつけて、UTF-8を指定して一旦保存してから、そのファイルがPDIC/UでPDIC/U辞書ファイルに戻せるかどうか試してください。問題なく戻るようでしたら、日韓辞書を作成する方策がないわけではないです(もし、戻らないようでしたら別な方策を考えなくてはならないでしょう)。

    > >2. 複数のカンマで区切られている日本語訳(訳語部)のそれぞれを分けて見出しに登録することができません。

    -(もしテキスト・エディターでの編集が可能になるようでしたら)これを実現するのはやはり、PDICによるのが妥当かと思うので、日韓辞書作成のために次のような方策も考えられますので参考にしてください。

    1行テキストに変換してから、「ハングル文字」部分を「ローマ字変換」して、PDIC/U辞書ファイルに戻し、「和英辞書の作成」ツールで辞書を作成するのは可能と思われます。更に1行テキストに変換して、ローマ字から「ハングル文字」に戻して、PDIC辞書ファイルに戻します。
     このための、ハングル文字とローマ字を相互に変換するツールがフリーウェアであるようですので、試してみる価値はあります。ただし韓国語のためのコード方式が幾つも存在するようですので、変換ツールに合うかどうか。Web検索エンジンで「ハングル、ローマ字変換」でヒットしますので、そのツールを発見できると思います。

     全く別の方法として、PerlによればPDIC/U辞書ファイルのテキスト・ファイルやXMLファイルへの変換、多彩な正規表現による確実な抽出・置換など、つまり、1行テキスト形式での日韓辞書ファイルへの出力、PDIC/U辞書ファイルへの再変換の可能性はありますが、現行のPerl5.8がUTF-8には十分対応してますがBOCU1に対応できるかどうか確かめていませんので、ちょっと分からないところですし、可能となれば、他のプログラム言語ほど難しくないですが、多少時間をかけてスクリプトを自分を作成しなければならなくなるでしょう。
     その場合、Perlを活用している黒田さんの PDIC Toolkit (PDICwin32版に有効で、かつUTF-8テキストとXMLへの変換はギリシア語にだけ対応)がかなり参考になります。このキットは編集フリーですし、或る程度Perl言語を学ぶとこのキットを元にハングルにも対応できるツールにすることができる可能性は十分にあります。
    http://lambdapage.dhs.org/lexiko/tool-kit/pdic-toolkit.html

     どれも可能性が遠いとなると、やはりTaNさんがDLLを作ってくれるのを待つしかないようです。ほかにいいアイデアが出てきたらまたお知らせします。
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/ON] 削除キー/



▲[ 160 ] / ▼[ 162 ]
[161]  Re[3]: 「和英辞書の作成」でフリーズ
□投稿者/ かずお 3回-(2004/03/26(Fri) 18:07:02)

    丁寧なご回答ありがとうございました。
    Pdicで一行テキスト形式やcsv形式に書き出して、その書き出したファイルを読み込むことはできない(フリーズする)ようです。

    TaNさんがDLLを作ってくれるのを待つことにします。
    ありがとうございました。m(__)m
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/OFF] 削除キー/



▲[ 161 ] / ▼[ 163 ]
[162]  Re[4]: 「和英辞書の作成」でフリーズ
□投稿者/ BMH 2回-(2004/04/09(Fri) 09:26:36)

    希望はなくもないものですね。
    昔、何度か韓国に行った事があるのでほんの少し私も韓国語を習いましたので、ユニコード版の韓日辞書から日韓辞書をできるだけ簡単に作成できる道を、試してみました。訳語部などで日本語とハングルが混在していると面倒になりそうですが、ここでは見出部にハングル、訳語部に日本語だけという条件のもとに、手順を追って説明します。

    1)PDIC/Unicode版(v.056)用のPDIC辞書ファイル(BOCU)の韓日辞書(例えば KJ_U.dic とします)を、PDIX(v.030)を使ってPDIC/Win32用のPDIC辞書ファイル(例えば KJ_W32.dic )に変換します。この時、ハングル文字の見出部には CP949.txt テーブルを所定のサイトからDLして用い、訳語部には CP932.txt を用いてください。

    2)PDIC/Win32版上でこの KJ_W32.dic を開いても、多分ハングル部分はすべて、半角カタカナや漢字に文字化けしてます!!が、全く気にしないでください(ハングルを表記できないだけでハングルの文字セットのコードは保持されています)。

    3)Toolメニューの「"和英"辞書の作成(TaNさん、変えて欲しいよ、この名称...)」で「日韓辞書」(例えば JK_W32.dic)を作成します。(もし細かな編集が必要ならば、この後で1行テキストに変換して、少なくとも日本語部分に対してはできます、なぜなら、ハングルを文字化けしたカタカナで読むのは妙な感じですから)

    4)PDIXを使って、JK_W32.dic をPDIC/Unicode版用の JK_U.dic に変換します。この時、変換テーブルとして見出部には CP932.txt を、訳語部には CP949.txt を用いてください。これで PDIC/Unicode版で閲覧できる「日韓辞書」ができました。

    やってみたら意外と簡単にうまく行きましたヨ。実験に作った辞書ファイルは20項目ほどの見出しだったからかもしれませんが。安全のため辞書ファイルはバックアップをとってから、とにかく、やってみてください。
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/OFF] 削除キー/



▲[ 162 ] / ▼[ 164 ]
[163]  Re[5]: 「和英辞書の作成」でフリーズ
□投稿者/ かずお 4回-(2004/04/09(Fri) 14:36:19)

    ありがとうございます。
    早速やってみました。
    変換は、無事完了しましたが、「行く」という意味の韓国語「カダ」の「カ」(フト ← こんな感じのハングル) や「~に」という意味の韓国語「エ」(o-11 ← こんな感じのハングル) など、いくつかの文字が消えてしまっています。和英変換の時に、削除のオプションはチェックしなかったので、それが原因ではないと思います。特定の文字だけが全て落ちてしまうというのは、何が原因なのでしょうか?

    何はともあれ、希望が見えてきました。(^^)
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/ON] 削除キー/



▲[ 163 ] / ▼[ 165 ]
[164]  Re[6]:ハングル語末に区切り文字ができるため
□投稿者/ BMH 3回-(2004/04/11(Sun) 09:03:16)

    > 変換は、無事完了しましたが、「行く」という意味の韓国語「カダ」の「カ」(フト ← こんな感じのハングル) や「~に」という意味の韓国語「エ」(o-11 ← こんな感じのハングル) など、いくつかの文字が消えてしまっています。特定の文字だけが全て落ちてしまうというのは、何が原因なのでしょうか?

    例示してくださったハングルのKAと0Eについてのエラーを再現してみました。
    この2つのハングル文字は、PDIC/U版からPDIC/Win32版にPDIXで変換すると、それぞれKAは「ー。」に、0Eは「ソ。」になります。問題は語末にある場合です。見出語部の文字化けしているハングルの語末にある、どちらも日本語文字で言う半角の「マル句読点(。)」があって、韓日から「和英辞書の作成」ツールで日韓に変換する際に省かれてしまうことに原因があります。

    従って、PDIXでPDIC/U版に戻し変換する際に、「MultiByte Error: [0xB0](或いは[0xBF]):[(日本語訳語)]とエラーメッセージが出て、辞書ファイルをPDIC/Uで閲覧すると上記の「語末にあるはずの」この2文字がないわけです。つまり、せっかく保持していた文字コードが日韓変換で欠損してしまうわけです。(この 0xB0 と 0x8F というコードはASCIIコード内の 0x80~0xFF という拡張部分に含まれるもので言語によって異なり、日本語文字セットでは、例えば上記の 0xB0 はUnicode16コードで言うと FF70 で音を延ばす意味に使う文字の半角の「ー」、0xBF は FF7F で半角の「ソ」ですが、ハングル文字セットではこの拡張部分のコードは単独では使われておらず、単独に入力或いはコードが存在しても表記できないことに、つまりハングル文字にすると「消える」、「ない」わけです。)

    少なくとも例示のKAと0Eの場合に「和英辞書の作成」ツールで引き起こるマル句読点の削除は、PDICが語末にある句読点(, 、 。 ;)と全角スペースが「区切り文字」として認識するからで、ユーザーが設定を変更できないので、次の方法で対処するしかないようです。

    * PDIC/Win32版上で見出部の語末にある半角のマル句読点のすぐ後ろに、【@】(@は半角・全角どちらでもよい)と書き入れ、「和英辞書作成」パネルの「詳細」の左下の「【@】カタカナ発音は削除する」だけをチェックオンにしてから変換を実行する。語末のマル句読点が残ります!!

    このほかの方法も考えられますが、これが一番簡単なようです。これで語末のKAと0EについてはPDIXできれいにPDIC/U版に戻せます。

    このほかの「消えた」文字については、上記の例を参考に、PDIXで変換後に出るエラーメッセージをメモして、どの文字が問題を起こしているか特定して対処みてください。
    その際に、エラーメッセージに表示されている日本語訳語からハングルのどの文字に該当するか、また同じく表示されているコードをCP932.txtの中で検索するとUnicod16のコードが分かりますので、Windowsのアクセサリーの「文字コード表」においてコードで検索すると、この両方が合致するので特定できます。
    状況によってはもうちょっと複雑で、別な条件が加わっている場合もあると思いますが少し落ち着いて探索して対処すると結構、段階的に少しずつエラーを回避できるようになれると思います。
    どうぞ、お役に立てばさいわいです。
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/OFF] 削除キー/



▲[ 164 ] / ▼[ 166 ]
[165]  Re[7]: :ハングル語末に区切り文字ができるため
□投稿者/ かずお 5回-(2004/04/11(Sun) 16:20:16)

    素晴らしいお答えありがとうございました。m(__)m

    > 少なくとも例示のKAと0Eの場合に「和英辞書の作成」ツールで引き起こるマル句読点の削除は、PDICが語末にある句読点(, 、 。 ;)と全角スペースが「区切り文字」として認識するからで、ユーザーが設定を変更できないので、次の方法で対処するしかないようです。

    マル句読点が消えないオプションを設けるとか、TaNさんが対応して頂けると助かるのですが。。。

    > * PDIC/Win32版上で見出部の語末にある半角のマル句読点のすぐ後ろに、【@】(@は半角・全角どちらでもよい)と書き入れ、「和英辞書作成」パネルの「詳細」の左下の「【@】カタカナ発音は削除する」だけをチェックオンにしてから変換を実行する。語末のマル句読点が残ります!!

    Pdicに置換機能はないですよね。あると便利なのですが。量が多いので、一度、一行テキスト形式に書き出し、置換で@を入れ、Pdic形式に戻してから和英辞書作成をしました。マル句読点は残りましたが、@もなぜか残ってしまったので、また一行テキスト形式に書き出し、置換で@を削除して、Pdic形式に戻してから、unicode形式に変換しました。

    結果、まだ一部文字化けはあるようですが、大部分はきちんと表示されています。この辞書は、公開予定ではありますが、一部の文字が落ちているかもしれない状態での公開はできないので、何か確実な方法があるとありがたいです。それでも、個人の実用としては十分な辞書ができましたので、感謝致します。ありがとうございました。m(__)m
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/ON] 削除キー/



▲[ 165 ] / ▼[ 167 ]
[166]  Re[8]: :ハングル語末に区切り文字ができるため
□投稿者/ BMH 4回-(2004/04/12(Mon) 10:30:30)

    > マル句読点が消えないオプションを設けるとか、TaNさんが対応して頂けると助かるのですが。

    PDIC/Uはまだアルファ版という、ユーザーがPDIC/Win32を使い慣れていてかつ充分に使いこなせる人が自己責任において使うべきものです。なぜなら、辞書ファイルを破壊することがないとは言えない状態ですし、言語判別DLLがまだ実装されていないので、これまでの手順で所謂、韓日辞書の日韓変換をしたわけで、イレギュラーな対処方法です。そんなイレギュラーな使い方までフォローするようにプログラム作者に求めるのは酷ですよ。

    > > * 見出部の語末にある半角のマル句読点のすぐ後ろに、【@】と書き入れ、「和英辞書作成」パネルの「詳細」の左下の「【@】カタカナ発音は削除する」だけをチェックオンにしてから変換を実行する。
    > 置換で@を入れ、Pdic形式に戻してから和英辞書作成をしました。マル句読点は残りましたが、@もなぜか残ってしまったので、また一行テキスト形式に書き出し、置換で@を削除して...

    私が書き入れるように指示したのは、【@】で、単に@ではありません。@だけ書き込んだのでは削除機能は実行されません。この程度のことに気がつかない、理解できないならば、PDIC/Uを使うよりは、まずPDIC/Win32を使いこなすことをお勧めしたいくらいです。

    > Pdicに置換機能はないですよね。あると便利なのですが。

    Fileメニューの「一括編集」の中にあります。PDICのヘルプでよくよく、PDICにはどんな機能があり、どのように使うのか、どのように活用できるのか、落ち着いて理解してください。それに、対処方法で語末のマル句読点の後に【@】を書き入れる作業は、「置換」では行えません。理由はゆっくりお考えくださいませ。

    最後に、TaNさんのPersonal Dictionaryは通称でPDICと書き、Pdicとつづるべきではありません。
解決済み!
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/OFF] 削除キー/



▲[ 166 ] / 返信無し
[167]  Re[9]: :ハングル語末に区切り文字ができるため
□投稿者/ かずお 6回-(2004/04/12(Mon) 14:02:50)

    こんにちは。
    BMHさん、丁寧なご回答ありがとうございました。

    > そんなイレギュラーな使い方までフォローするようにプログラム作者に求めるのは酷ですよ。

    そうですね。すみませんでした。

    > 私が書き入れるように指示したのは、【@】で、単に@ではありません。@だけ書き込んだのでは削除機能は実行されません。この程度のことに気がつかない、理解できないならば、PDIC/Uを使うよりは、まずPDIC/Win32を使いこなすことをお勧めしたいくらいです。

    そうですね。言われたら理由も理解はできますが、おっしゃる通り、うっかりして気が付きませんでした。わざわざきちんと書いて頂いていたのに、私の不注意からお忙しい中、再度の書き込み、お手数かけて大変申し訳ございませんでした。

    > 最後に、TaNさんのPersonal Dictionaryは通称でPDICと書き、Pdicとつづるべきではありません。

    TaNさん、BMHさん、名前を間違えてしまって大変申し訳ございませんでした。私が書いたPdic unicode版も間違いで、PDIC/Unicode版ですね。大文字と小文字を間違えるべきではないというご意見、ありがとうございました。これからは十分、気を付けます。

    BMHさんのご指摘の通り、現在、PDIC/Unicode版がアルファ版の状態ですので、韓国語辞書を公開するかどうかに関しても、もう一度、検討し直してみたいと思います。

    BMHさん、丁寧にご回答ありがとうございました。
解決済み!
[ 親 158 / □ Tree ] [ 返信 ] [メール受信/OFF] 削除キー/


HOME HELP 新規メッセージ 新着記事 ツリー表示 スレッド表示 トピック表示 発言ランク 検索 過去ログ

- Child Tree -
Powered by CJ Club