2005年1月以降の資料はこころぐで書いています
学術論文等は研究室ホームページで書いています

 

SP
partial decodable compression

任意の部分列を復元できるデータ圧縮
( 2004/11/29)

Static PPMを用いた任意の部分列を復元できるデータ圧縮法です。
ソースコードもあります。


 

情報処理学会 自然言語処理研究会 (NL) 163回 
ClassModelを用いた単語分類の拡張及び高速化
論文 パワーポイント

(2004/09/16)

大規模コーパスを用いた単語分類を、最適な分類数と共に高速に決定するアルゴリズムを報告する。


 


BIP2004 発表内容
ポスター パワーポイント
(2004/08/19)

BIP2004コンテストでの結果などについてです。


 

XML and Type and TreeAutomata

BDD for XML type inclusion test

gSpan

(2004/07/11)

学校の演習で、XMLと型とTree Automatonの関係をまとめました。
gSpanはそれとは少し関係ありそうでまとめました。




Compressed Suffix Arrays Compressed Suffix Trees
(2004/05/10)

学校の演習で、最近のCompressed Suffix Arrays、Compressed Suffixed Trees についてまとめました。
PowerPointをPDF化したものです。質問や、指摘などがありましたら、BBSまたはMailの方にお願いします。


MoreGeometricDataStructure
(2004/06/26)

OrthogonalRangeQuery

(2004/05/10)

学校の計算幾何ゼミで私の担当部分の資料です。
多次元領域中のデータへの効率の良いアクセス方法をKD木、領域木、区分木、区間木を中心にまとめられています。



2004年度CPU実験まとめ (2004/04/02)

2004年度CPU実験まとめ(英語版)(2004/04/30)

情報科学科の情報科学実験2でのsoftware係でやったことをまとめました。せっかくやったので。
英語版は、今回のCPU実験の内容が、国際誌に載るかも、ということで作りました。英語の間違いはご了承ください。


 

 (2004/02/15)
wxc.pdf

平成15年度未踏プロジェクト「汎用的データにおける確率的言語モデルの抽出及びその利用」
の開発成果 を2/14、2/15の成果発表会で発表した際のパワーポイント資料です。

その内容について、最終成果報告ではないのですが、ほぼ今年の成果を網羅しています。
具体的な計算部分や、理論的な部分は論文などで書く予定です。




Huffman法の改良版で、Huffman木を用いずに表のみから最小冗長符号に符号化、復号化する方法です。
サンプルソースもついています。
(2003/12/10)


未踏プロジェクト 11月中間報告 (2003 11/12)

未踏プロジェクト中間報告用のパワーポイントです。
公開用に作ったものではないのですが、一応載せます。説明などが不十分です。。


random復号についての簡単な説明、及びデモンストレーションプログラムを公開しています。
(11月中間で発表しているspinoffの完全版は、ここでは紹介されてません)


 

夏のプログラミングシンポジウム 公開論文 (2003 10/09)

・random復元できるデータ圧縮法
・動的計画法を使ったwx法の実装

とかが載ってます。もし興味があれば見てください。


2002年度未踏Youth「単語抽出法による次世代データ圧縮法の開発」及び
2003年度未踏「汎用的データにおける次世代データ圧縮法の開発」の最新の結果をここで公開しました。

注目すべきは、Static PPM法によるデータ圧縮のランダム復元の点でしょうか。このへんはここ最近開発している部分
なので、あまり確認せず見切り発車という形になっちゃいましたけど。 このへんは後でフォローしていきます。

 (内容はちょっと古い。)

(こちらの内容が最新)


 

現在注目を集めているSuffix Arrayについて、その構築を中心にまとめました。

述べているアルゴリズムは Larsson Sadakane法、Two Stage Sort(二段階sort法)、Copy Method 、Deep Shallow sort



です。新しい話題も含めています。

2002年度未踏Youth、2003年度の未踏プロジェクトの進行状況などを発表しました。




2002年度未踏Youthプロジェクト「単語抽出法による次世代データ圧縮法の開発」の実績結果です。これで全てではないですが、とりあえず現時点で公開できるものを公開します。

ソースおよび、プログラム(Win32で実行可能)は、単語抽出を行うだけで、それ以降の特別な圧縮処理は一切していません。(それでも、ある程度の圧縮性能を持っています)これからの目標としては、このWXによって簡単になったデータの解析に基づいて、高度なデータの圧縮、及び解析というものを行っていこうと思っています。これだけで圧縮を行うと、静的LZ78法(という単語があるかはわからないが)みたいです。

復元速度は、今存在する圧縮プログラムの中でもかなりの上位に入るくらい速く、復元に用いるメモリも数十kBであり、このへんが他の圧縮法、圧縮プログラムには見られない特徴だと思います。使い方は
wx e infile
infile を圧縮する
wx d infile.wx
infile.wxを復元する
です。特別なアーカイバ機能などは一切ありません。このファイルには山崎 敏さんのソースSystemTime.cxxが含まれており、その著作権は山崎さんにあります。何か意見があれば掲示板にお願いします。

2003年度未踏プロジェクトで製作した「単語抽出法によるデータ圧縮プログラム」に関するpdfです。


圧縮アルゴリズムのうち、現在もっとも性能が良いものの一つと言われているアルゴリズム。
ユニークかつ、独創的な方法であり、説明を読んでみるだけでも価値あり。


次の文字が何が来るかを予想するという、まるで人工知能みたいなことをして圧縮するアルゴリズム。
将来的な圧縮ソフトとしてはもっとも有望