white page

[memo]

移転

2008/06/14

とつぜんですが、ここのmemoはココログへ移転しました。あと、libdivsufsortはGoogle codeの方へ移転中です。

New Linear SACAs: IS and DS

2008/06/04

まだdraftだけど、新しいSuffix Array構築法に関する論文が公開されています。

タイトル通り、Suffix Arrayを線形時間で構築できる新しい二つのアルゴリズムについて、サンプルコード付きで解説されています。どちらのアルゴリズムもKA法より高速に動作して、なおかつ extra working space が最悪の場合でもわずか? 2.25n + O(1) bytes となかなかの性能のようです。

それにしてもIS法はすごいなぁ。(L)S-substringのソートをここまでコンパクトにするとは。。

Improved Two-Stage Sort その4

2008/04/12

こっそり更新・・。さて、ようやく新しい itssort が完成したので公開しました。これで特に問題がなければ、次のバージョンの divsufsort (たぶん1.4.0) に適用されるでしょう。

version 070210 からの変更点は以下のとおりです。

  • ライセンスを GNU Lesser General Public License から MIT/X11 License に変更。
  • サンプルプログラム bwt と unbwt の追加。
  • OpenMP用コードの追加。
  • construct_SA と construct_BWT の最適化。
  • 常に先頭に配置される終端記号のインデックスを Suffixarray から除外。
  • qsortを簡単なMultikey Quicksortに置換。
File: itssort_0080412.tar.gz
Size: 13,603 bytes
 MD5: d512939ce50af8494440274c9221ad39

--------------------

links を更新。(ページの構築に使用しているスクリプトを変更したので、ちょっとだけ見た目が変わりました。) DCCで、新しい Linear-time SACA が2つほど出てましたねえ。 2分割 + Shannon-Fano-Elias符号 と KA法 + KS法 かぁ。。

C2D

2008/03/02

久々に SACA のベンチマークを更新。 Core 2 Duo の結果を追加しました。

テストに使用したファイルの合計サイズは 約 1.2 Gb なのですが、上位 3 つのプログラムは 3 ~ 5 分くらいで処理できてしまうようですね。。もうこれ以上の高速化はあまり意味がないのかもしれません。

r3

2008/02/11

divsufsortxx-r3 を公開しました。今回の変更点は以下のとおりです。

  • STL の vector が使用できない問題を修正。
  • 4つのBW逆変換アルゴリズムを実装。 .. PSI, LF, MergedTLF, コンパクトなLF(3.65n)
File: divsufsortxx-r3.zip
Size: 30,836 bytes
 MD5: ed22b7a13dd64d6a51e98784b858446e