全文検索システムNamazuをMacOSXで使ふ


 ハードディスクの中にいつの間にかファイルがたくさん溜まってしまひ、どこに何があったのか探すのが大変といふことになるのはよく聞く話で、特に研究者の場合、参考論文のファイルが増えて整理に困るといふことが日々の仕事において切実な問題になってゐるのではないでせうか。そこで、ここではNamazuを使った論文検索方法を紹介しませう。
 私も論文のpdfファイルをダウンロードしてゐたら、気がつくと1800くらゐのファイルが溜まってゐて、雑誌名と刊行年や分野名でフォルダに分けても、どうにも収拾がつかなくなってきました。そこで、ファイルを分類して保存するのをやめて、一つのフォルダに1800個まとめて入れてしまって、あとは内容を検索して見つけることにしました。使ふのはNamazu。Namazuとは「手軽に使えることを第一に目指した日本語全文検索システムです。CGI として動作させることにより小中規模の WWW 全文検索システムを構築することができるほか、コマンドラインや Emacs上から利用するといった個人用途にも使え」るさうです。
 素晴らしい。早速使ってみませう。

 namazu本体をインストールする前に、GNU gettext、nkf、darts、chasen、ipadic、Text-Chasenをインストールします。「Mac OS XにNAMAZUをインストールする」を参考にしてそれぞれのファイルをダウンロードしてくるとよいと思ひます。だったら、この通りにすればいいぢゃないかと思ふでせうが、この通りだとうまくできなかったのです。

 今回試した環境(MacOSX 10.3.5/PowerMac G5)では、gettextとnkfはすでに入ってゐました。どうやって入れたのかよく憶えてゐないのですが、gettextは、./configure --> make --> make check --> make installでできたやうな微かな記憶があります(今、やってみましたが、問題なくできました)。nkfはここを参考にしてインストールしてみてください。darts以下のnamazu関連ファイルは、こちらの「インストールメモ」を全面的に頼って、こんなふうにしてみませう。

darts-0.2

 % ./configure
 % make
 % sudo make install

chasen-2.3.3
 % ./configure --disable-shared
 % make LIBS=-liconv
 % sudo make install

ipadic-2.6.3
 % ./configure
 % make
 % sudo make install

Text-ChaSen-1.03
 % perl Makefile.PL
 % make
 % sudo make install

namazu-2.0.13
 % cd File-MMagic
 % perl Makefile.PL
 % make
 % sudo make install
 % cd ..
 % ./configure --disable-shared
 % make
 % sudo make install
 % sudo cp lisp/namazu.el /usr/local/share/emacs/site-lisp/
 詳しい説明は省略しますが(といふよりできません)、このとほりにすればできるのです。

 さて、ここでは溜め込んだpdfファイルをどうにかしたいので、xpdfが必要です。これは、./configure --> make --> make check --> make installとすれば、xpdf本体はインストールできませんが、検索に必要なpdftotextなどはインストールできます。日本語を検索するときはxpdf-japaneseもインストールする必要があります。私はとりあへずは、英語の論文だけなので不要であると思ってゐたのですが、「pdfファイルが読めないのはロックされてゐるんぢゃないかね!」といふ警告が出て読み込んでくれない原因が、このxpdf-japaneseでした。日本語環境の場合は、自動的に日本語文書として読み込まうとするやうです。検索時に言語を指定できれば不要かもしれません。どうなんでせうか。xpdf-japaneseをインストールするには、ダウンロードしてきたものを展開して、
/usr/local/share/xpdf/japaneseを作って
Adobe-Japan1 character collection support
ISO-2022-JP encoding
EUC-JP encoding
Shift-JIS encoding
をその中へコピー。
それから、$HOME/.xpdfrc(オリジナルのxpdfrcをコピー)を作って、add-to-xpdfrcの中身を追加して完了。私は、finkを使ってxpdfをインストールしてゐたので、オリジナルのxpdfrcは/swの方にありました。

 ところで、結構苦労してnamazuをインストールしてきましたが、EasyPackage for Mac OS Xを使へば簡単だったやうな気がしてきました。必要なものは全部ここに揃ってゐると思ひます。xpdfはありませんけどね。

 さて、namazuのインデックス置き場にターミナルで入って、pdfファイルを溜め込んでゐるフォルダを指定して、mknmzを実行します。結構時間をかけてファイルを読み込んでインデックスファイル他おびただしい数のファイルができあがります。pdfファイルを溜め込んでゐるフォルダに、namazurc-sampleを.namazurcといふ名前でコピーして、

Replace       /Users/nakano/Sites/  http://localhost/~nakano/
といふやうに設定しておかないと、ファイルをクリックしても「見つかりません!」と云はれてしまひます。

 namazu.cgiにWWWブラウザでアクセスして検索したい言葉を打ち込めば、結果が表示されるといふわけです。こんな感じに。ちなみにこれは手近にあった自分の論文でインデックスを作って、"gingivalis"といふ言葉で検索してみたものです。。

検索結果

 検索語が強調表示されてゐて、ファイル名をクリックすれば目的のファイルが開きます(スクリーンショットはクリックすると大きくなります。その他、細かいことは、説明書を読んでください。

 namazuの参考図書を右にあげておきます。

2004年9月24日


Apple Store


サーチ:
Amazon.co.jpアソシエイト


cover

馬場肇『Namazuシステムの構築と活用』(2800円・ソフトバンク)amazon, bk1, 紀伊國屋, 楽天ブックス


cover

西村めぐみ『オープンソースソフトウェアによる全文検索・データベースWebの作り方』(2600円・ソシム) amazon, bk1, 紀伊國屋, 楽天ブックス

ホームページに戻る