東京大学理学部情報科学科 岡野原 大輔

・2004/04/04 部分的に公開
・2004/04/05 WX法、Class Model、Trigger Model、WXC Compressについての説明追加

TOPに戻る
 
はじめに

 2003年度未踏創造事業
「汎用的データにおける確率的言語モデルの抽出及びその利用」
  についての開発成果について、公開します。
 これに関する意見や指摘などをいただけたら幸いです。

 #連絡先は一番下にあります。

 
目的及び
背景

 本プロジェクトは、普及を目的としたアプリケーションを作るのではなく、次世代のデータマイニング技術として使用できる 一連のアルゴリズムを開発することが目的です。

 現在、非常に多様なデータが生成される一方で、その膨大な情報の中から有用な情報を取り出し、解析する技術が必要とされています。そして、データを解析する上で、そのデータに対する前もって持っている知識は非常に有効に用いることができます。 例えば、そのデータが自然言語情報であるという知識、英語、日本語である知識、掲示板ログのデータだという知識、もしくはDNAなどのゲノム情報なのかといったものです。しかし、そのデータに関する知識を解析時に利用できるようにするためには、人手や、コンピュータで学習した結果を用いなければいけません。

 こうした、前もって把握している知識無しに、データを解析することができれば、そのような学習データ作成のコストを削減することが期待できる他、今までの解析手法では発見できなかった新しい情報が得られる可能性があります。
また、この技術は既にある知識を使った解析と背反するものではなく、相補関係にあり、知識を使った解析の精度、情報量、コストなどを削減することが可能であると考えます。

 
開発内容

 本プロジェクトの開発内容は大きく分けて次の四つです。
 それぞれの内容については各リンク先に簡単な説明があります、
 また下の開発資料にも開発内容があります。

 WX法
 Class Model
 Trigger Model
 WXC Compression


 
開発資料

 本プロジェクトに関して、今まで発表した資料です。上から順に時系列で並んでいます。
 実際の開発結果をまとめたものは未踏成果発表会@国際フォーラム以降の資料です。それ以前は計画や予定なども含んでいるので、正確ではありません。

・ 夏のプログラミングシンポジウム2003 「データの達人」 @豊橋
   配布資料
   プレゼンテーション資料
   公開論文

・ IPA X Autumn2003 @国際フォーラム
   配布資料
   プレゼンテーション資料
   (IPA X における発表内容は2002年度未踏Youth
    の開発成果に関するものです。

・ 未踏成果発表会 @国際フォーラム
   プレゼンテーション資料

・ IPA website用資料
   概要1(パワーポイント)
   概要2

 
プログラム・システムについて

プログラムについては、Windows,UNIX上で動作することを確認していますが、 本 ロジェクトに関するソース、プログラムなどについては公開していません。

ただ、ソースなどは資料の整備とともに部分的に公開する予定です。

 
今後の課題・展望について  

今後次のことを予定しています。

・教師付き学習との融合

 前提となる知識なしにデータを分解するWX法は、精度の面で限界がある一方、全く未知のデータが存在した場合や、汎用性において有効な手段である。
  そこで、教師付き学習を組み合わせ、その上で未知データに対して両方の技術を用いて複合的に解析を行うことで汎用性を保ちつつ、精度向上をはかることが可能となると思われる。また、計算量、領域量削減などの面でも十分な効果が期待できる。

・Class Modelの拡張

 Class Modelは前後のUnitの出現状況の情報のみを用いてUnitの分類を行っているが、これを拡張して、さらなる情報を用いてUnitの分類を行うことが考えられる。例えば、導入には課題が多いがKernel法を導入することによって、より柔軟に分類することが可能であると考えられる。
 要素を自動分類するClass Modelの応用範囲は自然言語情報のみ限らず、非常に広いと考えられる。

・データ圧縮について

 未踏Youthプロジェクト「単語抽出法による次世代データ圧縮法の開発」の延長上にもあるにもかかわらず、本プロジェクトでは開発内容をデータマイニングに集中したため、データ圧縮に関する開発をほとんど行いませんでした。本プロジェクト中に得た新しい技術や情報を導入して今後、開発を再開する予定です。
 具体的に次の技術を導入したいと考えています。

 ・ランダムデータ復元(データを任意の位置から、復元する)
 ・復元時に低計算量、低領域量
 ・数百MBオーバーでも高速動作
 ・データ内容を高速に検索できる(Compressed SA)

 
謝辞  本プロジェクトは、2002年度未踏Youth創造事業「単語抽出法による次世代データ圧縮法」から引き続き、 2003年度未踏創造事業のサポートを受けて開発しました。
 未踏事業を推進されている情報処理推進機構(IPA)、 2002年度未踏YouthのPM竹内教授、プロジェクト管理組織(株)三菱マテリアル、 2003年度未踏のPM梅村教授、プロジェクト管理組織(株)東大総研 をはじめとして多くの方々にこのような開発を行う 環境、機会を与えてくれたことを深く感謝します。
 
連絡先

開発内容に関する質問などありましたら、以下に連絡をお願いします。

岡野原 大輔
e-mail VZV05226@nifty.com (自宅)
BBS   http://6557.teacup.com/comp/bbs

 
TOPに戻る