表紙に戻る
ユニコードは、各国語ごとに異なる文字コードを統一するために考えられました(そもそも日本語コードに限っても、EUC、JIS、シフトJISの三種類が存在してましたし)。その理念は素晴らしいのですが、成立の経緯や、従来使われてきた文字コードとの非互換、実装の方法など、首をかしげるところも多いです。しかし、Windowsでは早くからシステム標準として組み込まれ、MacintoshもOS9から内部では標準になっているとか。またブラウザやJavaなどでも、文字コードはユニコードで処理されるなど、ユニコードにぶつかる機会は増えているようです。一応最低限のおつき合いを確保すべく、Perlに活躍してもらいました。
ユニコード漢字表
この場で実行する
ユニコードの漢字20,069字を、部首で引けるようにしてみました。
参考資料:
弥永信美さんの作られたテーブルを元にしています。本当にありがとうございました。
「NI HomePage」http://www.bekkoame.ne.jp/~n-iyanag/
(2004/01/12)
CJK漢字対照表
CJKKanjiList.sit.binをダウンロード (408KB)ユニコードでは、中国、日本、韓国などで使われている字形の同じ漢字を、一つのコードにまとめています。これを簡単に見られるよう、対照表に作ってみました。こんな漢字が一緒のコードにまとめられてるんだ、と眺めるのにお使い下さい。
見るためには、Macに中国語、日本語、韓国語の各スクリプトがインストールされている必要があります。インストールされていないと、欠けたスクリプトの漢字が文字化けします。
スタイル付きテキストの読み込めるエディタ・ワープロなら、なんでもOKだと思います。SimpleTextでは、ファイルが大きすぎてさすがに開けませんが。Style、Jeditと言ったところが無難でしょうか。
全部で五つのファイルが含まれています。ユニコードの0x4E00から0x9FA5の範囲について、16進表記、簡体字、繁体字、日本、韓国の漢字、そして大漢和番号がタブで区切られて並んでいます。別ページのツール「Mojikyo2Font」を使うと、大漢和番号を文字鏡フォントで見ることが出来ます。
![]()
対照表の作成に利用したPerlスクリプトを載せておきます。いくつかのテーブルを利用していますが、大体がこのページにある他のツールで使用したものですので、そちらの説明をごらんください。
生成スクリプトのソースを見る。
(2000/10/22)
UTF-8テスト文書
テスト文書を見る (850KB)自分の環境で、一体どこまでユニコードの文字が見られるのかを簡単に確かめたくて、全部のユニコードの文字を並べた一覧表を作ってみました。上記のテスト文書をクリックすれば、即、見られます。ブラウザの表示オプションで、エンコードを「UTF-8」にして御覧下さい。
一覧表を生成するのに使ったPerlスクリプトも置いておきますので、興味のある方、この場で一覧表を見るのがしんどい方は、お試し下さい。シンプルなものなので、Mac以外のPerlでも問題なく動くと思います。
生成スクリプトのソースを見る。
(2000/10/16)
ユニコードから多言語文書へ変換
Uni2Multi.plのソースを見る。
ユニコードで書かれた多言語テキストを読みたいけど、Macでは全部の文字の入ったユニコードフォントがない。そんな悩みに答えるべく作ったのがこれです。
生ユニコード(UCS-2)で書かれたテキストをドラッグ&ドロップすると、インストールされている各国語フォントを使った文書に変換します。対応する文字のないものは諸橋大漢和コードを探し、それでも駄目ならユニコードを書き出します。従って、情報を失うことはありません。また、諸橋大漢和コードの部分については、さらに「Mojikyo2Font」を使うことで、文字鏡フォントで見ることができます。
Macでは早くからマルチフォント・マルチスタイルな文書がシステム標準でサポートされていました。また各国語の、Language Kitと呼ばれるソフトウェアをインストールすることで、フォントやIMが使えるようになり、多言語環境は比較的簡単に実現できました。そのせいか、逆にユニコードへの対応はいまいちのようです。なんとかその間を取り持ちたくて、書いたスクリプトです。OS9以降の方は、CD-ROMについてくる各国語LKをインストールして、試してみて下さい。
(2000/01/22)
ユニコード(UCS-2)とUTF-8の変換
Uni2UTF8.plのソースを見る。
UTF82Uni.plのソースを見る。
ユニコードには、生のユニコード(UCS-2)とエンコードされたもの(UTF-8)など、他にもいくつかの変種が存在します。実際にホームページなどで見かけるのはUTF-8が主です。勉強のために、UCS-2とUTF-8の間の変換を作ってみました。
(1999/10/11)
ユニコードからSJISへ変換
Uni2SJIS.plのソースを見る。
1999/10/07 エンディアン対応。大漢和コードの出力。 ユニコードで書かれたテキストファイルをシフトJISに変換します。対応する漢字がない場合は、諸橋大漢和コードに置き換えます(例:「<m35556>」)。それも不可能な場合は「<u0101>」のようにユニコードを残します。他のツールと違い、決して情報を落としません。e漢字のページに置いたText2TTXと組み合わせれば、コード部分の活字も含めてブラウザで見られるようになります。
やっていることは、単純にユニコードを変換テーブルに従って、対応するシフトJISの文字に置き換えているだけです。
参考資料:
変換のための対応表を作るに当たっては、ユニコードの本拠地、unicord.orgにあるドキュメント、
「Unicode Home Page」http://www.unicode.org/
そして、Ken Lundeさんのページを参考にしました。
「Ken Lunde's Home Page」http://www.oreilly.com/people/authors/lunde/
特に、Ken Lundeさん作の「cjkvconv.pl」は、ユニコードと、日本、中国、韓国の各種文字コードとの変換を行う巨大ツールです。当方のUni2SJISはこの一部を拝借したに過ぎません。興味のある方は、是非上記ページにて入手して下さい。
また、ユニコードと諸橋大漢和コードとの対応表は、安岡孝一さんのページにあります。
「Koichi Yasuoka」http://www.kudpc.kyoto-u.ac.jp/~yasuoka/
(1999/10/07)
表紙に戻る