東京大学理学部情報科学科 岡野原 大輔 |
||
| ・2004/04/04 部分的に公開 ・2004/04/05 WX法、Class Model、Trigger Model、WXC Compressについての説明追加 TOPに戻る |
||
| はじめに | 2003年度未踏創造事業
|
|
| 目的及び 背景 |
本プロジェクトは、普及を目的としたアプリケーションを作るのではなく、次世代のデータマイニング技術として使用できる 一連のアルゴリズムを開発することが目的です。 現在、非常に多様なデータが生成される一方で、その膨大な情報の中から有用な情報を取り出し、解析する技術が必要とされています。そして、データを解析する上で、そのデータに対する前もって持っている知識は非常に有効に用いることができます。 例えば、そのデータが自然言語情報であるという知識、英語、日本語である知識、掲示板ログのデータだという知識、もしくはDNAなどのゲノム情報なのかといったものです。しかし、そのデータに関する知識を解析時に利用できるようにするためには、人手や、コンピュータで学習した結果を用いなければいけません。 こうした、前もって把握している知識無しに、データを解析することができれば、そのような学習データ作成のコストを削減することが期待できる他、今までの解析手法では発見できなかった新しい情報が得られる可能性があります。 |
|
| 開発内容 | 本プロジェクトの開発内容は大きく分けて次の四つです。 |
|
| 開発資料 | 本プロジェクトに関して、今まで発表した資料です。上から順に時系列で並んでいます。 ・ 夏のプログラミングシンポジウム2003 「データの達人」 @豊橋 ・ IPA X Autumn2003 @国際フォーラム |
|
| プログラム・システムについて | プログラムについては、Windows,UNIX上で動作することを確認していますが、 本 ロジェクトに関するソース、プログラムなどについては公開していません。 ただ、ソースなどは資料の整備とともに部分的に公開する予定です。 |
|
| 今後の課題・展望について |
今後次のことを予定しています。 ・教師付き学習との融合 前提となる知識なしにデータを分解するWX法は、精度の面で限界がある一方、全く未知のデータが存在した場合や、汎用性において有効な手段である。 ・Class Modelの拡張 Class Modelは前後のUnitの出現状況の情報のみを用いてUnitの分類を行っているが、これを拡張して、さらなる情報を用いてUnitの分類を行うことが考えられる。例えば、導入には課題が多いがKernel法を導入することによって、より柔軟に分類することが可能であると考えられる。 ・ランダムデータ復元(データを任意の位置から、復元する) |
|
| 謝辞 | 本プロジェクトは、2002年度未踏Youth創造事業「単語抽出法による次世代データ圧縮法」から引き続き、
2003年度未踏創造事業のサポートを受けて開発しました。 未踏事業を推進されている情報処理推進機構(IPA)、 2002年度未踏YouthのPM竹内教授、プロジェクト管理組織(株)三菱マテリアル、 2003年度未踏のPM梅村教授、プロジェクト管理組織(株)東大総研 をはじめとして多くの方々にこのような開発を行う 環境、機会を与えてくれたことを深く感謝します。 |
|
| 連絡先 | 開発内容に関する質問などありましたら、以下に連絡をお願いします。 岡野原 大輔 |
|
| TOPに戻る | ||