Japanese IME Dictionaries for Editors & Writers

書き屋のための変換辞書 for ATOK


space
space

トップページ

ひとりごと

ATOK Tips集

知られざる能力
プロパティ関連付け
辞書作りの必要
地名辞書を作る
その他の辞書を作る
辞書登録
動詞の構造
ちょっと寄り道
「否定形」で判断
ATOKの「文法」
半濁音の変換ミス
バージョンアップ
辞書の置き場所
変換キーの設定

各種辞書の解説

各種辞書ダウンロード

リンクのページ

ご意見・ご要望はこちら

space

 辞書作りの必要

 編集の現場では、固有名詞を間違えることについて「駆け出し以下」と厳しい評価をされます。 人名を間違えた場合は「相手からのクレーム」という形で気付かされることが多いのですが、地名を間違えた場合はミスに気付かないまま同様のミスを重ねるというケースも少なくありません。
 とはいえ、地名ほど紛らわしく、間違えやすいものもないことは事実です。 たとえば埼玉県内の例ですが、北埼玉郡大利根町と南埼玉郡白岡町に「あらいしんでん」という地名があります。 一方は「新井新田」、もう一方は「荒井新田」です。 このような場合、ATOK辞書に多少の手を加えれば あらいしんでん_ 新井新田《北埼玉郡大利根町》 荒井新田《南埼玉郡白岡町》 というぐあいに両者を明確に区別することができます。 それぞれの候補語(あるいは必要とする候補語のみ)にコメントが出れば、入力時のストレスは格段に解消されるのではないでしょうか。
 ここでは、表計算ソフトとエディターを使ってATOK用の辞書を作る方法を紹介します。


 地名辞書(主に新聞社の支局・通信局用)を作る

 郵政公社のサイトでは、郵便番号のデータが公開されています。 このデータは「地名」「地名の読み」「市町村名」などを含んでいるため、ほんの少し手を加えるだけで、上のように市町村名などのコメントを出す「ATOK用の地名辞書」が完成します。 手順は以下の通りです。

  1. 郵政公社のサイト から郵便番号のデータ(CSVファイル)をダウンロードする。
  2. ダウンロードしたデータを表計算ソフト(Excelなど)で開く。
  3. A列=圏域コード、B列=5けたコード、C列=7けたコード、D列=都道府県名読み、E列=市町村名読み、F列=地名読み、G列=都道府県名、H列=市町村名、I列=地名─というぐあいになります。
  4. その中で必要なのは、F列の「地名読み」、H列の「市町村名」、I列の「地名」だけなので、それ以外の列は削除します。
  5. 次に、A列の地名読みが半角カタカナなので、これを全角ひらがなに変換します(以下はQXエディタを使った例です)。
    1. A列をコピーし、QXエディタにペースト。
    2. 全部を選択(Ctrl+A あるいは 編集→全部選択)し、全角に変換(編集→変換→全角文字)
    3. 全部を選択し、ひらがなに変換(編集→変換→ひらがな)
    4. 全部を選択し、ExcelのA列にペースト
  6. ATOKの辞書テキストは「読み」「変換候補語」「品詞」「コメント」の順となっています。 これに合わせてExcelのA列を「ひらがな地名読み」、B列を「市町村名」、D列を「市町村名」とします。
  7. C列の品詞はすべて「固有地名」とし、必要があればF列に「書き換え候補語」を記入 (たとえば「(さいたま市○○区)△△町」の書き換え候補語として「旧・○○市△△町」)し、さらにE列に(自動変換の有無を)「なし」と記入します。
  8. A列を昇順で並べ替え、辞書(の元)を整理します。
    • 「いかにけいさいがないばあい」の行はすべてカット。(編集→削除)
    • 「××びる(○○かい)」など郵便番号の振られているビル名・フロアなどの行もカット。
    • さらに、△△(××ばんち) や △△(そのた) などの地名の行も整理。
  9. 不要な行などが整理できたら、Excelで編集したものをテキスト形式で保存します。これが単語ファイル(辞書データ)となります。
  10. 保存したテキストの1行目に !!DICUT17 と入れます。 (←ATOK17の場合。それ以外のバージョンであれば、17の部分をそのバージョンの数字に置き換えます)
  11. 行末のタブ記号が目障りな方は、片っ端からタブ記号を削除しまくって下さい^_^。 QXエディタを利用する場合は、検索文字列を \t\n とし、置換文字列を \n として全置換します。 (\t はタブ記号、 \n は改行コードを表します。つまりこの作業は「改行コードの前にタブ記号があれば、そのタブ記号を削除する」という意味です)
  12. 単語ファイルを流し込むための辞書ファイルを作製します。 (辞書メンテナンス→辞書ユーティリティ→辞書ファイル→辞書作成→「参照」で適当な場所に、適当なファイル名、適当な見出しを付けて「実行」)
  13. 単語ファイルを辞書ファイルに流し込んで完成です。 (辞書ユーティリティ→一括処理→単語コメント一括処理で、12のATOK辞書、11の単語ファイルを指定し「登録」)

※県域全体でATOK辞書を作る場合、たとえば埼玉県では「中央」が20、「本町」が19、「南」が11など、重複する地名が非常に多いという現実があります。 新聞関係などでATOK用の地名辞書を作る場合、対象地域については「支局や通信局などがカバーする圏域」のみに絞ったほうが良いのは言うまでもありません。

※郵政公社のデータでは、「三軒茶屋」の読みが「さんげんぢやや」となっているなど、明らかなミスが一部に見られます。 「公社が公開している元データだから完璧」という先入観は捨て、「あくまで参考程度」という意識が必要です。



 その他の辞書を作る

◆鉄道辞書◆
 JRのサイトなどでは、駅名や路線名のデータが公開されています。 このデータも「駅名」「駅名の読み」などを含んでいるため、同様にして ○○《JR××線駅名》 ○○駅《JR××線》 といったぐあいにコメントを出すATOK用の「鉄道辞書」を作ることができます。

◆メールアドレス辞書◆
 ウイルス対策などでアドレス帳にメールアドレスを登録したくない場合、メールアドレスを変換候補語として辞書登録する方法があります。 しかしこの方法は、アドレス帳をもとに送信するウイルスへの対策にはなりますが、メーラーの送信履歴や受信履歴のアドレスをもとに送信するウイルスへの対策にならないことは言うまでもありません。 ただし複数アドレスを持っている相手を辞書登録する場合には、 XXX@XX《プライベート》 XX@XXX《仕事用=携帯メールへの転送あり》 などという具合にATOKのコメント機能を有効に活用できますから、ウイルス対策以外への応用と割り切って考えた方が良いのかもしれません。

◆住所録辞書◆
 ATOKをはじめとする日本語IMEでの辞書登録というのは、常識的には「漢字と読みの対応」ということになります。 しかしこれを「ある情報と関連情報の対応」という見方をした場合、変換辞書の使い方にも幅が出てきます。 「漢字変換辞書」ではなく「情報変換辞書」という考え方をするわけです。 「すずきいちろう」という読みに対応するのは「鈴木一郎」という変換候補語かもしれませんが、それ以外にも「XX@XXX」や「http://www.XXX/」という変換候補語があっても良いのではないでしょうか。 そして「人名の読み」と「住所」とを対応させれば、住所録辞書が完成することになります。

◆そのほかの辞書◆
 「読み」と「情報」をどう対応させるのか、コメント機能をどう活用するのかで、ATOKの辞書機能には幅広い応用が期待できます。 ATOKを「漢字変換システム」という狭い範囲で考えるのではなく、ある情報から別の情報へアクセスするための「情報変換システム」と考えれば、視野が広がるのではないでしょうか。




Tips 1(プロパティ関連付けツール)

Tips 2(辞書作り)

Tips 3(動詞のルール)

Tips 4(その他のノウハウ)



トップページ ひとりごと ATOK Tips集 各種変換辞書 for ATOK 辞書ダウンロード リンクのページ ご意見・ご要望はこちら