「ロングマン現代英英辞典をEPWINGとして使う」・・・をさらに見やすく


1.はじめに
2.見やすくするための方針
3.
作業手順
4.注意事項その他
5.関連リンク

Palmで「ロングマン現代英英辞典」を使う を公開しました。

※2003年3月に出版されたLongman Dictionary of Contemporary English (4th edition, Book and CD-ROM)  はよくできています。ハードディスクに全データをインストールできますし、phrase や例文の検索など、格段に使いやすくなっています。また。アクティベータとも統合され英英辞典のCD-ROMの中でももっとも有用なもののひとつです。 以下を参照してください。

http://www.longman.com/ldoce/cdrom/index.html


 

1.はじめに

 Longman Dictionary of Contemporary English (ロングマン現代英英辞典[第三版])はわかりやすい英英辞典として定評があります が、この辞典に付属するCD-ROMは起動が遅く、ハードディスクにデータをコピーできないなど非常に使い勝手が悪いものです。
 そこで、このCD-ROMのデータを、電子出版物の共通フォーマットの1つであるEPWING形式に変換する方法が矢吹さんの以下のサイトに紹介してあります。

http://www.miv.t.u-tokyo.ac.jp/~yabuki/tip/longman/longman.htm
(以下、「ロングマン現代英英辞典をEPWINGとして使う」と呼びます)

 EPWING形式にすれば、DDwin(フリーの検索ソフト)やJamming(シェアウェア)などで快適に検索できるようになります。

 ところで、上記サイトの方法による変換だけでは、発音記号などが正しく表示されません。
そこでここでは、このデータをさらに加工し、発音記号などを表示できるようにする方法を紹介します。

  なお、CD-ROMからのデータの吸い出しに関しては、尾上さんが別の方法を工夫されています(2001/03/27)。
http://www.oue.net/di/d20010327.html
「ロングマン現代英英辞典をEPWINGとして使う・改」
  またPalm-size Penguinさんの次のサイト(WindowsCE用の辞書Viewerが公開されています)では、CD-ROMからのデータの吸い出しについてさらに別の方法が紹介されています(2001/05/15)。
http://penguins.hp.infoseek.co.jp/PenDicDoc/LDCE.htm
英英辞書ビューワ・PenDic(辞書データ作成編)

 なお、CD-ROMからのデータの吸い出しには膨大な時間がかかります。
 


2.見やすくするための方針

(1)外字を作成して、発音記号などが表示できるようにする。

(2)句動詞(phrasal verb)を別見出しとして検索しやすくする。

(3)'AmE','BrE','verb','noun'などの特定の単語を定義文と区別できるようにイタリックにする。

(4)Signpost(語義検索のための「標識」)などを太字にして識別しやすくする。

(5)例文はできるだけイタリックにする(パターンが一定していないので完璧な変換は無理)。

 
見やすくした後のサンプル画面

EPWING化した「ロングマン現代英英辞典」をDDwinで表示させたところ

www.time.comを閲覧しながらワンタッチでDDwin上の「ロングマン現代英英辞典」をポップアップさせたところ

3.作業手順

  1.  上記の「ロングマン現代英英辞典をEPWINGとして使う」手順1〜3を実行します(かなり時間がかかります)。
      
  2.  下記のページを開いてページ全体をコピーしメモ帳などのエディタにペーストして、Tの作業でできた longmantmp.txt と同じディレクトリに指定されたファイル名で保管してください。
     拡張子xmlのファイルは、ブラウザの「名前を付けて保存」などで同じディレクトリに保存してください。
    掲載してある場所 保存するファイル名 説明
    henkan.htm henkan.pl 変換スクリプト1
    henkan2.htm henkan2.pl 変換スクリプト2
    hatsuon.htm hatsuon.pl 発音記号変換スクリプト
    toebs.htm(※) toebs.pl EBStudio用のデータ作成スクリプト
    gaiji.xml gaiji.xml 外字ファイル
    gaijimap.xml gaijimap.xml 外字定義ファイル
               
    (※)辞書検索ソフトに Jamming をお使いの方で、例文が太字で表示されるのがわずらわしい場合は上の toebs.htm の代わりにこちらをお使い下さい。
     Jamming ではボールドもイタリックもすべてボールドで表示されるので toebs.htm の変換では太字部分が多すぎて見にくいかもしれません。



  3.  perl5の実行環境をインストールしていなければ下記のサイトからActivePerlをダウンロードしてインストールしてください。
    (perl4やjperlでは正しく動きません。)
    http://www.activestate.com/Products/ActivePerl/Download.html


  4.  Tの作業でできたファイルを longmantmp.txt と仮定します。DOS互換窓(コマンドウィンドウ)を開きこのファイル(longmantmp.txt )と同じディレクトリに移動して次の順序でコマンドを実行してください。(perlの実行ファイルがある場所にパスが通っていることと、拡張子.plとperlの実行ファイルが関連づけられている必要があります。ActivePerlの場合は素直にインストールすれば、再起動後にはこの状態になっています。)

    henkan.pl   longmantmp.txt > ldce1.txt【エンターキー】

    henkan2.pl   ldce1.txt > ldce2.txt【エンターキー】

    hatsuon.pl   ldce2.txt > ldce3.txt【エンターキー】

    toebs.pl   ldce3.txt > ldce.htm【エンターキー】

     


  5.  もし、ActivePerlでないperl5の処理系で上のようにしても動かない場合はperlの実行ファイル名を先頭に付けて、例えば

            c:¥perl¥bin¥perl  henkan.pl longmantmp.txt  >  ldce1.txt【エンターキー】

    のように入力して実行してください。 

  6. 空白が気になるなら「ロングマン現代英英辞典をEPWINGとして使う」手順7のような方法で空白を取り除いてください。

  7. EBStudio(前方一致インデックスのみならフリー)をインストールし、以下の設定で新規のEPWINGデータを作ります。
    入力ファイル ldce.htm
    外字フォント gaiji.xml
    外字定義 gaijimap.xml

        

以上で作業は終了です。


4.注意事項その他

  1.  「ロングマン現代英英辞典をEPWINGとして使う」では桐原書店版, ISBN 4342785706を使ってありましたが、私が使用したのは丸善版,ISBN 4943835236です。
     このCD-ROMはベタッとしたビニールケースに入っていて、取り出したときにピカピカ光っていませんでした。案の定、そのままではインストールができません。そこで、ベンジンできれいに拭いて使用しました(今のところ悪影響はないようです)。
     このようなところに理由があるのかもしれませんが、「ロングマン現代英英辞典をEPWINGとして使う」手順1の「Virtual CD(30日の評価版があります)やCD革命Virtualを使って、ハードディスク上でCD-ROMのデータを読めるようにします。」というところが実行できませんでした(仮想CDを入れるとWindows2000がそのままリブートしてしまう)。
     そこで「ロングマン現代英英辞典をEPWINGとして使う」手順2のsleep時間を3倍くらいに延ばしてCD-ROM上で実行しました。

  2.  「ロングマン現代英英辞典をEPWINGとして使う」手順2のJScriptについては、例えばこのJScriptファイルをmaketext.jsという名で保存したとするならば、コマンドプロンプトで

            cscript  maketext.js【エンターキー】

    と入力して実行してください。エクスプローラー上でmaketext.jsをダブルクリックして実行するとエラーが出やすいようです。

    JScriptについてはhttp://www.microsoft.com/japan/developer/scripting/に解説があります。


     なお、スクリプトの始めの部分の

            for(i=0;i<12000;++i){

    については、最初は小さい数を指定してどのくらい時間がかかるか試してみた方がいいでしょう。
    実際のエントリ数は40300程度ですが(句動詞を独立させてもエントリ数は42470しかありません)、あまり大きな数を指定すると膨大な時間がかかります。

  3.  Wで使ったperlスクリプトでは、"**********"の行は単なるセパレーターではなく単語エントリの始まりを意味すると解釈しています。「ロングマン現代英英辞典をEPWINGとして使う」手順2で作ったlongmantmp.txt の最初の部分に"**********"の行を挿入してからhenkan.plを走らせてください。
     なお、「ロングマン現代英英辞典をEPWINGとして使う」手順2のJScriptはアルゴリズム上、最初にカーソルのある単語は取りこぼしますので、手動で追加するなりして下さい(もっとも、"A, a  ―  the first letter of the English alphabet" などという項目はあまり必要ではないとは思いますが・・・)。

  4.  「ロングマン現代英英辞典をEPWINGとして使う」手順3で使用するawkは
    http://www.vector.co.jp/soft/win95/util/se015007.html
    で入手できるgawkを使いました。例えばこの手順3のスクリプトをfind.awkという名で保存したとするならば、コマンドプロンプトで

            gawk  -f  find.awk  longmantmp.txt  >  list.txt【エンターキー】

    と入力して実行します。

  5.  外字については、DDwinで使用する場合MS P明朝 18ポイントくらいで正常に見えるように作っています。
    文字の大きさやフォントによっては、外字がほかの文字より上になったり、下になったりしますのでgaiji.xmlをテキストエディタで開き、個々の外字パターンの上下の「空白のみの行」を上または下に移動させて調節してください(8x16ドットの外字なので、外字1個分で16行という行数は変えてはいけません)。

5.関連リンク

Palmで「ロングマン現代英英辞典」を使う

「ロングマン現代英英辞典(第三版)」 Errata

'Cambridge International Dictionary of English'(1995, 2001 CD-ROM Edition) Errata