■164 / ResNo.6) |
Re[6]:ハングル語末に区切り文字ができるため
| □投稿者/ BMH 3回-(2004/04/11(Sun) 09:03:16)
> 変換は、無事完了しましたが、「行く」という意味の韓国語「カダ」の「カ」(フト ← こんな感じのハングル) や「~に」という意味の韓国語「エ」(o-11 ← こんな感じのハングル) など、いくつかの文字が消えてしまっています。特定の文字だけが全て落ちてしまうというのは、何が原因なのでしょうか?
例示してくださったハングルのKAと0Eについてのエラーを再現してみました。 この2つのハングル文字は、PDIC/U版からPDIC/Win32版にPDIXで変換すると、それぞれKAは「ー。」に、0Eは「ソ。」になります。問題は語末にある場合です。見出語部の文字化けしているハングルの語末にある、どちらも日本語文字で言う半角の「マル句読点(。)」があって、韓日から「和英辞書の作成」ツールで日韓に変換する際に省かれてしまうことに原因があります。
従って、PDIXでPDIC/U版に戻し変換する際に、「MultiByte Error: [0xB0](或いは[0xBF]):[(日本語訳語)]とエラーメッセージが出て、辞書ファイルをPDIC/Uで閲覧すると上記の「語末にあるはずの」この2文字がないわけです。つまり、せっかく保持していた文字コードが日韓変換で欠損してしまうわけです。(この 0xB0 と 0x8F というコードはASCIIコード内の 0x80~0xFF という拡張部分に含まれるもので言語によって異なり、日本語文字セットでは、例えば上記の 0xB0 はUnicode16コードで言うと FF70 で音を延ばす意味に使う文字の半角の「ー」、0xBF は FF7F で半角の「ソ」ですが、ハングル文字セットではこの拡張部分のコードは単独では使われておらず、単独に入力或いはコードが存在しても表記できないことに、つまりハングル文字にすると「消える」、「ない」わけです。)
少なくとも例示のKAと0Eの場合に「和英辞書の作成」ツールで引き起こるマル句読点の削除は、PDICが語末にある句読点(, 、 。 ;)と全角スペースが「区切り文字」として認識するからで、ユーザーが設定を変更できないので、次の方法で対処するしかないようです。
* PDIC/Win32版上で見出部の語末にある半角のマル句読点のすぐ後ろに、【@】(@は半角・全角どちらでもよい)と書き入れ、「和英辞書作成」パネルの「詳細」の左下の「【@】カタカナ発音は削除する」だけをチェックオンにしてから変換を実行する。語末のマル句読点が残ります!!
このほかの方法も考えられますが、これが一番簡単なようです。これで語末のKAと0EについてはPDIXできれいにPDIC/U版に戻せます。
このほかの「消えた」文字については、上記の例を参考に、PDIXで変換後に出るエラーメッセージをメモして、どの文字が問題を起こしているか特定して対処みてください。 その際に、エラーメッセージに表示されている日本語訳語からハングルのどの文字に該当するか、また同じく表示されているコードをCP932.txtの中で検索するとUnicod16のコードが分かりますので、Windowsのアクセサリーの「文字コード表」においてコードで検索すると、この両方が合致するので特定できます。 状況によってはもうちょっと複雑で、別な条件が加わっている場合もあると思いますが少し落ち着いて探索して対処すると結構、段階的に少しずつエラーを回避できるようになれると思います。 どうぞ、お役に立てばさいわいです。
|