BACK
TOP
佐々木俊尚 Toshinao Sasaki
2004年、サーチ・エンジンは新たなフェーズへ――。検索テクノロジーと企業コンピューティング
検索エンジンのテクノロジの進化の歴史――それは、SEO(検索エンジン最適化)との戦いの歴史とイコールだったと言っても過言ではない。検索エンジンはSEOによって磨かれ、発達してきたのである。
インターネットの黎明期である1990年代半ばに、時計の針を戻そう。
検索エンジンの仕組みは、今も昔もごく簡単だ。「クローラー」「ロボット」「スパイダー」などと呼ばれるプログラムがウェブサイトを巡回し、HTMLファイルを収集してくる。主周したHTMLファイルはインデックス化され、データベースに収められる。このデータベースにユーザーがクェリーを送ると、適切な検索結果が返される。
課題はふたつある。ひとつは巨大なデータベースをいかにして構築し、素早く動かすかということ。どんなに美しく構築されたデータベースであっても、インデックス化がきわめて遅くて何カ月もかかってしまったり、ユーザーからの問い合わせに何十分もかかるようでは実用にならない。そしてもうひとつが、ユーザーからの問い合わせにいかにして適切に答えるかという難問だ。たとえば「自動車」というキーワードを含むウェブページが数万もあったとして、それをどうやって適切に並べ替えてユーザーに検索結果ランキングを見せればいいのか?
この課題に対して、初期の検索エンジンはきわめて貧弱なアルゴリズムしか持ち合わせていなかった。検索エンジンのターゲットとなるHTMLファイルの中に、検索されたキーワードが何個含まれるかというのが、唯一の指標だったのである。
だがこれだけでは、検索キーワードとターゲットのサイトとの意味の関連性について順位をつけるのは難しい。キーワードがたくさん含まれているからといって、重要なサイトであるとは限らない。
そこでキーワードの出現率に上限を設けたり、あるいはMETAタグに埋め込まれたキーワードを重視し、METAタグとHTML内キーワード出現数の積算で関連性の重みを判断するという方式などが生まれてきた。
だがこうした手法は、すぐに行き詰まることになる。「SEOスパム」という悪意のあるテクニックに欺かれるようになったからだ。
最近日本でも大流行しているSEOは、Search Engine Optimization(検索エンジン最適化)の略語。顧客のウェブサイトを改善することで、Googleなどの検索結果ランキングの上位に入れることを目指すビジネスだ。
現在は業界でも認知され、正当なビジネスモデルとして成立しているSEOだが、90年代にはかなり怪しい商売と見られていた。主な顧客はポルノやオンラインカジノなど非合法すれすれのウエブサイト。ありとあらゆる詐欺的な手法を使い、顧客のサイトを検索結果ランキングの上位に押し上げようとした。当初はサイトのタイトルを記号や数字にすることで、アルファベットで始まるサイトよりもディレクトリの上位に入れる、といったプリミティブな手法が主だったが、やがてSEOの技術者たちは検索エンジンのアルゴリズムを本格的に解析するようになり、「SEOスパム」と呼ばれるテクニックを編み出すようになる。1997年ごろのことだ。
「アルゴリズム・クラッカー」と呼ばれた彼らが考え出したテクニックのうち、代表的なものを、表に挙げてみた。今では検索エンジン側によってほぼすべてが無効化されているが、SEOスパムの洗礼を初めて受けた当時のうぶな検索エンジンは、あっけなくその術中に落ちてしまった。最もひどいときには、どんなキーワードを検索ウインドウに入力しようとも、必ず特定のオンラインカジノやポルノサイトが検索結果に表示されてしまうという惨憺たる有様だったのである。
もちろん検索エンジン側も看過していたわけではなく、アルゴリズムの改良はひんぱんに行われた。だがSEOスパムは、次々と新手のテクニックを繰り出してくる。さらにインターネットの普及に従い、個人ユーザーのウェブサイトなどが爆発的に増加し、ウェブの世界がある種のインフレーションを起こすようになった。毎日、数千から数万ものウエブサイトが生まれ、検索エンジンはこの状況に対応できなくなってきたのだ。人々の検索エンジンに対する信頼性は、著しく低下した。
そんな混乱した状況の中に登場してきたのが、Googleだった。
Googleが革新的だった理由は、いくつもある。まず第一に、データベースのスケーラビリティを徹底的に推し進めた。世界中に存在する無数ともいえるウェブページ(現在、その数は数十億に上るとされている)をインデックス化し、データベースに収めるため、分散モデルを導入した。数百台のサーバから送り出された数万のクローラーが同時並列にウェブの収集を行い、これを2万台とも言われるマシンに処理させている。使われているマシンは意外にも低スペックで、Celeronマシンも数多いという。GoogleのCEOであるエリック・シュミット(Eric Schmidt)氏はRed Herring誌のインタビューに、「64bitプロセッサのItaniumのような高性能なCPUをGoogleは購入するつもりはない。より安価で小さなプロセッサを大量に購入して構築する方が、より現実的な方法だ」と述べている。
こうして安価なマシンを大量に配置することで、インフレを起こして巨大化していくウェブにGoogleは対することができた。
そして、検索結果のランキングを的確なものにするため、ページランクテクノロジと呼ばれている概念を導入した。このテクノロジについては、すでにさまざまなところで語られている。考え方の基本は、「人気のあるサイトからリンクが張られているサイトは良いサイト」というものだ。具体的には、サイト(1)からサイト(2)にリンクが張られていた場合、「(1)が(2)に1点を入れた」と見なす。図を見ていただければわかるが、多くのサイトからリンクされたサイトは、点数が大きくなる。そして投票数の大きなサイトからリンクをされたサイトも、それに応じて点数が大きくなるわけだ。ページランクは0〜10の11ランクに分けられており、たとえばページランク10のサイトにはYahoo!やGoogle、マイクロソフト、アドビなどがある。こうしたサイトからリンクが張られたサイトは良いサイトとして認識され、検索結果ランキングの上位に入ることになる。
ページランクテクノロジ以前にも、「リンクをたくさん貼られているサイトは良いサイト」というコンセプトを取り入れた検索エンジンはあった。だが悪徳SEO業者はこれを欺くため、リンクだけを並べた「リンクファーム」と呼ばれる無意味なサイトを大量に作成し、ここからリンクを張らせることによって価値を高めさせる、というスパム手法を編み出した。
しかしリンク元の格付けが必要になるページランクテクノロジの登場で、リンクファームも駆逐された。その他のSEOスパムについても、しばらくはイタチゴッコが続いたものの、最終的に大半が無効化され、Googleの勝利に終わることになる。このころからGoogle以外にもTeomaやFAST、Wisenutといった「第二世代」と呼ばれる高性能な検索エンジンが次々と登場するようになり、検索エンジンに対するユーザーの信頼も急激に回復していった。
最近になってGoogleは、検索エンジンにさらに新たな改良を加え、その評価を不動のものにしようとしている。新たな改良の中で注目を集めているのは、更新頻度のアップと、動的コンテンツの収集だ。
これまでインデックスの更新は、月に1度程度だった。だが更新の早いサイトには、これでは対応しきれない。Googleは更新頻度に傾斜をつけ、ひんぱんに更新されるサイトに対しては数日に一度、更新があまりされないサイトに対しては数週間や数カ月のペースでページを収集するように変更した。この手法を使うことで、リソースをいたずらに消費することなしに更新頻度を上げることに成功したのだ。
また.aspや.phpで構成されたダイナミックページ、JavaScriptを含むページについてはGoogleはこれまで検索することができなかった。この仕様も2003年に入って変更され、収集対象に含まれるようになった。ダイナミックページはオンラインショッピングなどEコマースのサイトで多用されており、この分野への進出を狙うGoogleとしては検索対象に含めることが至上命題だったのかもしれない。いずれにせよ、この措置によって検索対象のサイトがさらに倍加したのは間違いない。
■コラム1 ページランクを売ろうとした男
自社サイトのページランクが上がれば、検索結果ランキングでも上位に表示されるようになる。しかし人気のあるサイトからリンクを張ってもらう以外に、ページランクを向上させる方法はない。
ところがアメリカで、このページランクを販売する会社が現れた。ロバート・マサ(Robert Massa)という男性が経営するサーチキング社である。マサ氏はリンクつきのテキスト広告を販売し、その際、広告が表示するサイトが持っているページランクに合わせた値段を次のように付けた。
ページランク9 時価
ページランク8 199ドル
ページランク7 129ドル
ページランク6 69ドル
ページランク5 29ドル
マサ氏がどのようにしてページランクを手に入れたのかは、はっきりしない。だがその謎が解明されないうちに、彼のビジネスは突然つぶれてしまった。Googleがシステムをバージョンアップし、その際、マサ氏が販売していたサイトのページランクがすべてゼロに戻ってしまったのである。Googleが意図的に行ったのか、あるいは偶然の一致なのか、それともページランクテクノロジの質が低下したのか――アメリカの検索エンジン業界では、一時この話題で持ちきりになった。
謎は解明されなかったものの、マサ氏は損害賠償を求めてGoogleを提訴した。だが裁判所は彼の主張を認めず、「ページランクはGoogleの意見であり、どのようなページランクを与えるかは同社の表現の自由である」として訴えを退けた。
■コラム2 SEOというビジネス
本文でも触れたように、SEO(検索エンジン最適化)は当初、検索結果ランキングを無理矢理入手するための怪しげな黒魔術的テクニックとして発達した。だがSEOスパムといわれるこうしたテクニックは、Googleをはじめとする第二世代の検索エンジンの技術力によって駆逐されていく。
だがSEOというビジネスがこれで消滅したわけではない。それどころか、より正当なユーザー獲得の手段としてSEOはビジネスとして認められるようになってきているのだ。日本でも2001年ごろから少しずつ話題になり始め、ネット広告の低迷に苦しんでいた広告代理店業界などが雪崩を打ってSEOに進出。人材関連企業などもSEOのセミナーを開催するようになるなど、ウェブ関連の新たなビジネスとして注目を集めている。
現在のSEOが目指しているものは、極言すれば「シンプルで美しく、見やすいウェブサイト」ということに他ならない。FlashやJavascriptを多用して人間の目に一見美しく見えるウェブサイトではなく、検索エンジンの放つクローラーに読まれやすいサイトを目指す。そしてクローラーに読まれやすいサイトとは、実は人間にとっても情報の得やすいきれいなサイトに他ならない――そんな考え方が現在のSEOの根底には流れている。しばらく前まではFlashを多用したサイトが大量に登場した時代もあったが、確かに情報収集の目的の下ではこうしたビジュアル系サイトは邪魔者以外の何ものでもない。SEOが目指している理想のサイトの方が、ヒューマンインターフェイスとしてはずっとすぐれているといえるだろう。
■コラム3 次世代の検索エンジン
Nutchという新たな検索エンジンが、業界で話題を集めている。誕生したばかりのこのエンジンは、まだアルゴリズムも貧弱で、まるで90年代半ばの検索エンジン草創期のテクノロジを見せられているようだ。ではなぜこのエンジンが注目を集めているのだろう?
それはNutchが、世界で初めてのオープンソースによる検索エンジンだからである。
Nutchは、2003年夏にYahoo!に買収されたOvertureの技術者たちが中心になって立ち上げた。Overture自体も研究資金を提供しているという。組織自体は非営利の民間プロジェクトとして設立されている。
Nutchが目指しているのは何か。それはGoogleを駆逐し、検索エンジン業界で覇権を握ることではないという。Nutchのウェブサイトには、こんな宣言が高らかに掲げられている。
「オープンソースの検索エンジンだけが、どのような圧力や偏見にも影響を受けず、全幅の信頼を寄せられる検索結果を提供することができるのである」
GoogleがIPO(株式公開)をにらんでさまざまな新サービスを投入するなど、検索エンジンはビジネス化の一途をたどっている。
だが90年代半ばに検索エンジンが誕生した当初は、そこにはインターネットに流れる情報をすべてのユーザーで共有しようというボランタリーな思想が流れていた。だがそうした思想は形骸化しただけでなく、キーワード広告などによって検索結果さえもがビジネスの影響を受けつつある。
そうした潮流に対抗するために、Nutchは生まれてきた。GoogleやInktomiを使っている人が、「自分の使っているこの検索エンジンの検索結果は果たして公正なのだろうか」と疑問を抱いたとき、Nutchを使うことによってその公正さを検証することができる。そのようなオータナティブな選択としての存在をNutchは狙っているという。
現在はまだ1億ページ程度をインデックスしただけで、実用的な検索エンジンにはほど遠い。だが業界では大きな注目を集めており、今後大きな進化を遂げる可能性はある。
■検索エンジン業界の戦国史
さまざまなベンチャー企業が群雄割拠し、新技術や新サービスを競い合う。そして合従連衡と買収劇の末に、ひと握りの勝者が市場を寡占していく――。さまざまな産業分野で、黎明期には必ずのように繰り返されてきた栄枯盛衰のストーリーが、検索エンジン業界でも起きている。最後の勝者は、誰なのだろうか?
検索エンジンの歴史を振り返ってみよう。
テクノロジーの側面から見れば、その歴史は単純にふたつのステージに分けることができる。すなわち、Googleが出現する前と、出現した後である。
その栄枯盛衰の物語を、年表と図に表した。
ロボット型の検索エンジンを世界で初めて商用化したのは、Infoseekである。Infoseekは1994年1月にスティーブン・カーシュ(Steven Kirsch)が有料サービスとしてスタートさせ、同年8月には無料サービスに移行した。94年といえば、日本では個人向けISPの先駆けとして名を馳せた「ベッコアメ・インターネット」が設立された年。インターネットはまだ一般社会にはまったく認知されていなかった。
Infoseekはその後、親会社であるディズニーによって閉鎖され、日本法人だけがインフォシークの名称を引き継いで生き残った。日本法人は2000年に楽天に買収され、その後ライコスと統合し、現在は楽天の検索戦略の中核として注目を再び集めつつある。
検索エンジン黎明期、検索エンジンの代名詞のように語られたのはAltavistaだった。1995年にサービスインしたYahoo!が、公式の検索エンジンとしてAltavistaを採用したからだ。だがYahoo!は98年にInktomiに乗り換え、さらに2000年からはGoogleに移行している。もともとはDECのラボラトリで開発されたAltavistaは、DECがコンパックと合併するとともに切り離され、後述するように、その後Overtureに買収された。しかし往時の勢いはない。
黎明期には、MagellanやWebcrawlerといった検索エンジンもあった。いずれも後にExciteに買収されている。Exciteは95年10月にサービスを開始し、一時は人気エンジンのひとつとして地位を固めたが、2002年に米国の本社が倒産。日本法人は伊藤忠商事の子会社となり、検索エンジンから若者向けのポータルサイトへと脱皮を図ろうとしている。
群雄割拠だった検索エンジン業界がこのように急激に再編されていったのは、Googleという企業の登場に依るところが大きい。
Googleはふたりのスタンフォード大学院生によって98年に設立され、その先鋭的な検索テクノロジは瞬く間に注目されるようになった。だがマーケットを制覇する最大の起爆剤となったのは、前出のように2000年5月にYahoo!に公式の検索エンジンとして採用されてからだ。圧倒的なリーチ率を誇る巨大ポータル、Yahoo!の力によってGoogleは一般社会に認知され、その能力が広く知られるようになったのだ。
ところがGoogleが力をつけていくのに従い、両社の関係は次第にぎくしゃくしたものに変わっていく。ポータルであるYahoo!よりも、検索エンジンのGoogleの方が注目されるようになってきたからだ。特に、Internet Explorerのツールバーから直接検索できる無料プログラム「Google Toolbar」がリリースされてからは、Yahoo!のポータルを使わず、直接Googleのエンジンを利用する人の比率は相対的に高まった。たとえば市場調査会社Nielsen/Netratingsの2002年12月の統計によれば、検索サイトのリーチ率は1位がGoogleで3730万。ついでYahoo!(3650万)、MSN(3430万)という順になっている。Yahoo!を完全に凌駕しているのだ。
自社のポータルにGoogleを採用したYahoo!としては、この状況は「軒先を貸して母屋を取られる」ことに等しい。しかしGoogleとの契約を解消すれば、自社ポータルのユーザーを失うことに成りかねない――。
このジレンマを打開するために同社が選んだ戦略は、検索エンジン企業の相次ぐ買収だった。いったんは見捨てたInktomiを2002年12月に買収。さらにキーワード広告の分野でGoogleと激しい競争を繰り広げているOvertureを、2003年7月に買収して世間を驚かせた。Overtureは2003年初頭、ノルウェーの優秀な検索エンジンであるFAST社の検索部門と、老舗のAltavistaを買収している。つまりYahoo!はこの買収で、一挙に検索エンジン企業4社を有する業界のメーンプレーヤーとなったのだ。
GoogleとYahoo!の激しい動きに揺さぶられたのが、マイクロソフトである。同社のポータルサイト「MSN」は、検索エンジンとしてInktomiとOvertureの2社と契約している。しかしこの2社がYahoo!の傘下に入ってしまったとあっては、契約続行は「敵に塩を送る」ということにもなりかねない。何らかの打開策を考える必要があった。
それに加えて、機を見るに敏な同社は、「これからは検索エンジンの時代だ」とついに悟ったということもあったのだろう。2003年に入ってから、矢継ぎ早に検索エンジンにからむさまざまな戦略を打ち出し始めた。
その最大のものは、検索エンジンの自社開発という戦略だ。同社は「MSNbot」と呼ばれるまったく新しい検索エンジンの開発をスタートさせ、その責任者としてOvertuteの元幹部を引き入れた。このMSNbotは、次期Windowsとして開発が続けられているLonghornのデフォルト検索として採用されるという噂も流れている。もしそれが実現すれば、十分Googleの強敵となりうるだろう。さらに2003年11月には、Google Newsに対抗してMSN Newsbotというまったく同じニュース検索・配信サービスをリリースしたのだ(●ページ参照)。なりふり構わぬと言うべきか、敵愾心むきだしの戦略といえるだろう。
それにしても、Windowsにバンドルしてライバル企業と戦う――その戦略は、かつてのブラウザ戦争でマイクロソフトが採った手法そのものではないか。
90年代後半、ユーザーから圧倒的な支持を受けたNetscape Navigatorは、ウェブブラウザ市場をほぼ独占していた。だがこの市場にマイクロソフトは切り込み、その際に採った戦略が、WindowsにInternet Explorerをバンドルするというものだった。この手法は業界の強い批判を浴び、独占禁止法違反の裁判にまで持ち込まれた。だが判決が出るころにはInternet Explorerの攻勢でNetscape社はすっかり弱体化し、市場の大半を失った挙げ句にAOLに吸収される結果となった。
Googleは当時のNetscape社よりもずっと戦略的で、ビジネスに長けているとは言うものの、規模としてはしょせん未公開企業に過ぎない。
こうした背景事情からの推測だろうか。2003年秋には、マイクロソフトがGoogleを買収するという報道も流れたほどだった。だがこの報道については、マイクロソフトのビル・ゲイツ会長がUSA TODAYの記者に対して「われわれがGoogleとの間で買収交渉を進めているというのは間違いだ。そんな話は影も形もない」と否定し、噂は消えた。
現在の検索エンジン業界でもっともホットな話題となっているのは、GoogleのIPO(株式公開)である。米メディアの記事によれば、GoogleはIPOした際には株の10〜15%を一般募集する予定で、総額は20億ドル以上になるという。Google株全体の市場価値は150億〜250億ドルという報道もある。2003年12月20日現在、Google自体はIPOについての公式コメントを出していない。だが近い将来に株式を公開するのは間違いないと考えてもいいだろう。
Googleが2002年ごろから矢継ぎ早に打ち出し始めた、新たなサービスの数々――広告のAdWordsやニュース配信のGoogle News、商品検索のFroogleなどは、IPOを視野に入れてビジネス展開を図るための新戦略とみることもできるだろう。いよいよ検索エンジンのビジネスに、次のステージがやってこようとしているのだ。
そのセカンドステージが何を意味するのかは、次の章で述べたい。
■拡大する「検索エンジン」
検索エンジンこそが、ウェブの中心地である――そんな考え方がここ数年、燎原の炎のようにインターネット業界に広がりつつある。なぜなら、多くの人が検索エンジンをゲートウェイにしてウェブを使うようになってきているからだ。
たとえばインターネット動向調査のネットレイティングス社が2002年秋に行った検索キーワード調査のランキングでは、「2ch」「フジテレビ」など企業や特定のサイトが上位いに多く入った。またGoogleが毎年発表している年間のキーワードランキングでも、たとえばイギリスでは放送局のBBCやテレビ番組のBig Brother、航空会社のEasyJetなどが上位に入っている。
こうした傾向からわかるのは、多くの人が漠然とした情報収集としてではなく、目的のサイトに行き着くというそれだけの目的のために検索エンジンを利用しているということなのである。しかもその傾向はどこの国でも同じように強まりつつある。
かつてはウェブブラウジングといえば、アドレス入力のダイアログにURLを直接入力するのがごく当たり前の使い方だった。ややこしいドメインを避け、入力しやすく親しみやすいドメインが必要だと力説された時代もあったのだ。
だがこうした文化は、今ではすっかり廃れた。URLを直接入力する人は、激減している。誰もがインターネットの最初の入り口として、Yahoo!などのポータルサイトの検索ウインドウか、あるいはGoogle Toolbarなどに頼っているのである。
検索エンジンこそが、インターネットの巨大な玄関口となろうとしているのだ。
そしてこのような利用分野の拡大とともに、検索エンジンそのものもその概念を拡大しつつあるように見える。数十億ページもある世界中のウェブをクロールし、ありとあらゆる情報を収集してインデックス化するという純粋な検索エンジン――米国の業界では最近、そうした純粋な検索エンジンのことを Organic Search Engine(有機栽培的検索エンジン)と呼んでいるようだが――に対し、拡大しつつある新たな検索エンジンは「コングロマリット化した検索エンジン」とでも呼べるかもしれない。
新たな検索エンジンがターゲットにしているのは、次のような分野だ。@キーワード広告Aニュース検索Bオンラインショッピングの商品検索。
この新たなステージは、いったい何をもたらすのだろうか。それぞれについて見ていこう。
【キーワード広告】
キーワード広告というのは、検索エンジンの検索ランキング上位に入る権利を、料金をとって広告主に販売するというビジネスモデルだ。米Overtureの前身であるGo.com社が1999年にスタートさせ、瞬く間にネット広告業界を席巻した。Googleは2002年2月からAdWordsという名前で同種のビジネスを始めている。
なぜこのビジネスが注目を集めているのだろうか。それを説明するにはまず、インターネット広告の歴史を振り返らなければならない。回り道になるが、少しおつきあいいただこう。
インターネット広告の歴史は古い。最初に登場したのは1994年、ウェブニュース媒体であるホットワイアード(http://www.hotwired.com/)の創刊号にバナー広告が掲示されたのが先駆けだと言われている。90年代後半、ネットが社会に普及し始めたのと時期を同じくして、バナー広告を中心とするインターネット広告も普及を続けていった。
片方向の一方通行型メディアであるテレビや雑誌と異なり、インタラクティブ性を持つインターネットはおのずから広告の性格も変わってくる――ネット広告が登場したころ、業界ではそう信じられていた。実際、数百万、数千万という圧倒的なマスを相手にするテレビと異なり、ウェブはあくまでターゲット志向型の少部数メディアである。製品の漠然とした印象を伝えようとするインプレッション型の広告よりは、ターゲット顧客にドンピシャリの情報を伝達する広告が求められた。商品と関連性の強いサイトに貼り付け、クリックすれば即座に商品のサイトに飛ぶことができるバナー広告は、こうしたインターネットの特質によく適合した広告モデルと考えられたのだ。
だがネット広告業界は、開いてはならないパンドラの箱を開けてしまった。広告主(クライアント)に対して広告効果を見せるために「クリック保証型」というモデルを持ち込んでしまったのである。これまでのテレビ広告、雑誌広告では難しかった成果報酬モデルを前面に打ち出してしまったのだ。
当初、ネット広告は露出する期間に応じて料金を支払うという方式だった。しかし大手広告代理店系など数多くの企業が次々と参入してくる中で、市場はすぐに過当競争の時代を迎える。そこで、広告効果がわかりにくい手法をクライアント側に明確にするために、指定したクリック数に達するまで広告の露出を保証するというクリック保証型広告が生まれたのである。このビジネスは、日本でも1998年以降、バリュークリックジャパンなど数多くの新興ネット広告企業が手がけるようになった。
だがこのモデルは、すぐに行き詰まってしまう。なぜなら、ネットが普及するに従って、人々はバナー広告をクリックしなくなってしまったからだ。
つまり、インターネットが爆発的に普及することで、情報のインフレーションが起きてしまったのである。日々更新される膨大な情報を前に、人々は必要としてもいない広告バナーをわざわざクリックなどしない。もっと必要かつ重要な情報が目の前に大量に存在し、そのリンクをたどるにに忙しいからだ。
しかもウェブサイトが90年代末になり、等比級数的に増加するようになると、ユーザーひとりあたりのバナー広告の数は相対的にどんどん増えていく結果となった。当然、ひとつに広告におけるクリック数はますます減っていく。
この事態を打開しようと、ネット広告が次に投入したのは「アフィリエイト」と呼ばれる成果報酬型モデルだった。ユーザーが広告をクリックし、実際に買い物をした成果に応じて広告料金を支払うというモデルである。だが広告のクリック率が低下している状況の中では、こうした対応はしょせん泥縄でしかない。広く普及することはなかった。
次に登場したのは、「インプレッション」である。テレビや雑誌と同じように、ブランドイメージを消費者に認知させることを前面に出した広告モデルと言える。ネット広告という幻想から脱却し、本来の広告モデルに回帰しようという動きなのだろう。ほぼ同じ時期、21世紀に入ったころからはブロードバンド型の立地コンテンツを使った広告も出現し、話題になっている。ブロードバンドでテレビのCMと同じ映像をストリーミングで放映するというものだ。
だがクライアントの側から見ると、こうした広告モデルはどれも新鮮味に欠ける。さんざん広告料金をふんだくられ、効果が期待できないまま新たな広告モデルを次々と押しつけられる――ネット広告に対し、そんなイメージを抱くようになった企業は少なくない。
そんな煮詰まった状況の中に登場したのが、検索エンジンを広告に使うという斬新なビジネスモデルだったのである。それはまさに、彗星のような登場だった。
この原稿の冒頭に書いたように、検索エンジンはインターネットユーザーにとってすべての入り口となりつつある。たとえば「花」を買おうと思っている人は、わざわざ花の関連サイトのバナー広告を探してクリックするなどという面倒なことはしない。検索ウインドウに「花」と入力し、検索結果の中からオンラインショッピングできるサイトを調べるだけだ。あるいはもう少し検索スキルに長けた人なら、「花」「送料」というふたつのキーワードでAND検索を行うかもしれない。
そうなると、広告主にとってやるべきことは見えてくる。それは、誰もクリックしてくれないバナー広告に毎月100万円以上も投入することではない。検索エンジンからいかにして自社のサイトにユーザーを誘導できるかを智恵を絞って考えることだ。つまり、検索結果ランキングの上位に、いかにして自社のサイトを押し上げるかということだ。結論はそれしかない。
その方法は、大きくふたつに分かれる。ひとつは●ページで触れたSEO(Search Engine Optimization:検索エンジン最適化)であり、もうひとつが「PPC(Pay Per Click)」「スポンサードサーチ」「広告型検索エンジン」などさまざまな名前で呼ばれている広告モデルなのである。
仕組みは単純だ。
検索キーワードを広告クライアントの側はオークション方式で検索エンジン企業から購入する。この落札価格に応じて、検索結果ランキングの上位にクライアントのサイトが表示されるようになる。
たとえばある花屋が、「花」というワンキーワードの広告をOvertureから最高価格で落札したとする。するとこの花屋のサイトは広告であることを示す「Sponsored Search by Overture」という注意書きとともに、検索結果のいちばん上に掲示されるわけだ。
オークションはユーザーが1回クリックするたびにクライアントから検索エンジン側に支払われる金額で争われる。最低入札価格は数十円程度に抑えられているが、人気のキーワードとなると、落札価格はどんどん釣り上がる。「融資」「キャッシング」といった消費者金融系のキーワードともなると、1クリック数百円にまではね上がるようだ。1万クリックで数百万円。かなり高い部類の広告料金と言えるだろう。だがオークション形式にもかかわらず、常にこの程度の価格が維持されているということは、クライアントからみてきわめて実効性の高い広告として認知されていることを示しているといえるのではないか。
実際、IT不況の中で青息吐息だったインターネット広告代理店の多くが、雪崩を打って広告型検索エンジンの代理店業に参入しつつある。今後も検索エンジン業界の中核に位置するビジネスモデルとして、各社の収益を支えていくのは間違いなさそうだ。
■コラム
広告型検索エンジンは、GoogleのアドワーズとOvertureのスポンサードサーチというふたつのサービスが市場を分け合っている。どちらもオークション形式で検索結果ランキング上位を販売するという方式は同じだが、詳しく見てみると、そこには大きな違いも存在する。
スポンサードサーチは、クライアントが落札した金額だけで掲載順位が決まる。1クリック200円で入札し、他に200円以上をつける競合他社がいなければ、そのクライアントのサイトは検索結果ランキングの最上位に表示される。余計なファクターはない。
これに対し、アドワーズはクリック単価(CPC:Cost Per Click)とクリック率(CTR:Click Through Rate)を積算した値で検索結果ランキングが決められる。たとえばA、B、Cの3社が同じキーワードで入札していて、それぞれの入札額が300円、200円、100円だったとする。スポンサードサーチなら、掲載順位はA、B、Cの順番になる。しかしもしこの3社のサイトのユーザーからの人気が等しくなく、人気のあるサイトとないサイトに分かれていたとしよう。具体的には、クリックされる率がそれぞれ3%、5%、4%だったと仮に考えてみよう。すると、検索結果ランキングは次のような数式で計算されるのだ。
A社 300×3=900
B社 200×5=1000
C社 100×4=400
検索結果に表示される順番はA―B―Cではなく、B―A―Cの順になるのである。さらにこのクリック率が0.5%を切ってしまった場合、クライアントがどれだけ高い入札金額を設定していたとしても、そのサイトはランキングへの掲載を停止されてしまう。
この両社の仕組みの違いは、インターネットユーザーからの“人気”をどの程度考慮に入れるかという考え方の違いといえる。どれだけカネを積まれても、ネットユーザーから支持されないサイトは掲載しない――というGoogleの考え方は、ユーザーとともに歩んできたとされる同社の姿勢をよく表しているようにも見える。だがクライアントの側から見れば、何とも不可解な仕組みに思えてしまう。「なぜカネを積んだのに、掲載しないのだ!? クライアントを馬鹿にしてるのか?」というわけだ。代理店からは「クライアントに対しては、スポンサードサーチの方が売り込みやすい」という声も聞こえてきている。
【ニュース検索】
Googleが2002年秋にベータ版を開始した「Google News」というサービスは、たいへんな騒ぎをメディア界に巻き起こした。オールドメディアの存在意義を揺るがしかねないものだったからだ。
Google Newsの仕組みはこうだ。
まずGoogleは通常の検索エンジンと同様、クローラーと呼ばれるウェブ収集ロボットプログラムを放ち、ウェブページを収集させる。通常と異なるのは、このクローラーがニュースサイトだけにターゲットを絞っていることだ。その数は世界中の4500サイト。新聞やテレビ、雑誌などありとあらゆる媒体のサイトをカバーしている。残念ながら日本語はまだ対応していないが、国際バージョンとしてオーストラリア、カナダ、フランス、ドイツ、インド、イタリア、ニュージーランド、スペイン、イギリスの各国版がリリースされている。
収集されたニュースは、トップストーリーの他に「米国」「ビジネス」「サイエンス/テクノロジ」「スポーツ」「エンタテイメント」「健康」という6つのカテゴリに分けられる。Google Newsのサイトには、これらのニュースがカテゴリ別にレイアウトされて表示される。その外観は、まるでどこかの大手新聞社のサイトのようである。デザインも含めて完成度は非常に高い。
しかも同じできごとを扱った記事については、代表的なものがトップページに表示され、他の記事は「and 120 related(他に120の関連記事あり)」といった形で別ページにまとめられる。どの記事をトップに持ってくるかといった格付けは、あらかじめ設定されたメディアの信頼度に応じて行われているとみられている。たとえばニューヨークタイムスやBBCの記事の格付けは高く、サブカルチャー系のサイトは低いといった具合。
それぞれの記事に表示されるのは見出しと媒体名、リンク、記事リード部分。トップページの記事は、リンク先の写真画像も同時に表示される場合もある。
更新は数十分ごとに行われる。トップページには「Auto-generated 15 minutes ago(15分前に自動更新)」などと表示されるのだ。もちろん、過去記事の検索も可能だ。至れり尽くせりのサービスといえるだろう。
そして驚くべきことに、これらの機能は、すべて自動化されているのである。人間の手は、いっさい経由していない。この編集作業にあたるアルゴリズムを、Googleでは「ニュースソース信頼性指標(source credibility measure)」と呼んでいるという。開発者のKrishna Bharat氏は、Online Journalism Review誌のインタビューにこう答えている。
「Google Newsは毎日、10万もの記事を収集している。これだけの数の記事を人間の編集者が読むのは不可能だ。たくさんの記事を収集し、それを読み込んで整理して記事を書いている人ももちろんいる。たとえばジャーナリストがそうだ。しかしその作業を、世界中のすべての分野の記事で行うのは不可能だろう。Google Newsはその作業をほぼ瞬時に行い、ユーザーに提供している」
検索エンジン技術をベースにしながらも、ここまで来ると「検索エンジン」という商品をはるかに超えた、新たな概念が誕生しようとしていると言うしかない。恐るべき技術力である。
Google Newsという存在が与えるインパクトは、きわめて大きい。
ユーザー側から見れば、ひとつのニュースについて世界各国の媒体がどのような報道をしているか、シームレスに入手することができるからだ。前出のインタビューでBharat氏は、次のように語っている。
「たとえばアメリカでのSARS(重症急性呼吸器症候群)報道を見てみると、最初に香港で騒動になったときはほとんど記事にされず、カナダに飛び火してようやく少し報道されるようになり、サンノゼに到着した航空機が隔離されるに至って集中砲火のような報道となった。外国で起きていることには国内の新聞はあまり目が向いていない。Google Newsは、ユーザーに新聞よりもずっとグローバルな視野を提供できるメリットがある」
そしてGoogle Newsの人気はうなぎのぼりで、調査会社comScore's Media Metrixによれば、2003年8月の段階で224万人のユニークユーザー数を獲得し、ウェブサイトの人気ランキングで17位に入っているという。
しかしこのメタニュースサイトとでも言うべきGoogle Newsが普及すれば、各媒体のトップページを訪れる人は少なくなり、媒体の広告効果が低下していく可能性も指摘されている。これはメディアにとっては死活問題だ。ページビューが少なく、メディアの辺境に位置する媒体が「ぜひわが社のニュースもGoogle Newsに入れてほしい」とオファーする一方で、Google Newsに頼る必要のない大手メディアからは反発の声も上がっているようだ。
そしてこうした動きは、実は日本にも波及しようとしている。2002年末、読売新聞東京本社が「ライントピックス」というサービスを提供している神戸市のベンチャー企業を著作権侵害で東京地裁に民事提訴する事件があった。ライントピックスはバナー広告のような体裁で、Yahoo!ニュースの記事の見出しが電光掲示板式に流れるcgiアプリケーションである。ベンチャー企業は「見出しは著作権にはあたらない」と考えてこのアプリケーションをリリースしたが、読売側は「見出しも著作権であり、読売新聞の見出しを勝手に再利用したのは著作権侵害だ」と訴えた。
一見、検索エンジンともGoogleとも関係なさそうなニュースだが、実は深い関わりがある。読売新聞の関係者によると、「今回の提訴は、Google Newsへの牽制が本当の狙い。近々日本に上陸してくるという噂が流れており、そうなったら各社はたいへんな打撃を受ける。まずはこの裁判に勝つことで判例を作って上陸を阻止できないかと考えた」というのだ。
検索エンジンはそもそも、リンク先のテキストの一部を表示してユーザーに紹介する仕組みで成り立っている。Google Newsもこの仕組みの延長線上にある。もし見出しが著作権に当たると認められれば、検索エンジンの成り立ちそのものが否定されかねない。
しかしこの流れは、もうとどめられないようだ。検索エンジン業界でGoogleへの対抗姿勢を強めつつあるマイクロソフトのポータルサイト「MSN」が2003年11月、Google Newsと真っ向からぶつかるサービス「MSN Newsbot」を発表したからだ。リリースされたベータ版は英語とフランス語、イタリア語、スペイン語の4カ国語で検索可能で、Google Newsに匹敵する4000のニュースサイトから記事を収集している。
Google Newsが今年に入り、パーソナライズされたツール「Google News Alerts」を発表し、ユーザーが追跡したいトピックを設定して通知メールを受け取れるサービスを開始したのに合わせ、MSN NewsbotもPassport認証サービスの個人データを利用し、パーソナライズされたニュースを配信するサービスも行うという。対抗意識がむき出しになった新サービスと言えるだろう。
これらのニュースサービスは今後、検索エンジンの世界を大きく変える可能性を秘めているのは間違いない。だがもともとは無料の便利なツールとして登場した検索エンジンが、ビジネスへと突き進むに従い、さまざまな軋轢を生んでいくのも事実だ。それは巨大産業になろうとしている検索エンジンの危うさを暗示しているのかもしれない。
【商品検索】
この分野でも、先陣を切ったのはGoogleだった。2002年末のクリスマス商戦のさなか、同社はFroogleと呼ばれる商品検索エンジンのベータ版をリリースした。オンラインショッピングサイトの商品情報を収集し、商品の名前を検索すると、商品の写真と価格を並べて表示してくれる。リンクをクリックすれば、その商品を販売しているサイトに誘導され、そこで商品を購入することができる。価格で検索を絞り込むことも可能だ。テクノロジとしては決して最先端ではない。だがビジネス分野への検索エンジンの展開手法としては、きわめて重要な位置を占めている。
Froogleは「フルーグル」と発音する。英語の frugal(質素、倹約の意)とGoogleをかけ合わせた造語のようだ。買い物でおかねを賢く使い、倹約に役立てようという発想だろうか。
興味深いのは、このサービスが特定のオンラインショッピングサイトと提携して行われているのではないということだ。検索して表示される商品は、Googleが収集している他のウェブサイトと同様、Froogleが世界中のオンラインショッピングサイトからクローラーを使って自動的に集めてきた商品データである。垂直統合に進まず、こうしたオープンなモデルにした理由は何なのだろうか。
その動機を推察するとき、ヒントとなりそうなニュースがひとつある。
Googleは最近、米国内での宅配便追跡サービスを開始したというのだ。日本でもヤマト運輸や日本通運が行っているサービスだ。Googleの新サービスでは宅配便の荷物以外にも飛行機の登録番号や特許番号の検索、さらには空港の離発着状況を表示する機能も備えられている。
Froogleと宅配便追跡サービス――このふたつのサービスを総合すれば、Googleが狙っている分野は徐々に見えてくる。これはまさに、eコマースのソリューションビジネスではないか。
商品検索の巨大なポータルを構築し、膨大な数に上るGoogleのユーザー層を取り込んでいく。それがGoogleの狙いであることは間違いないだろう。
Froogleのベータ版リリースで、ようやくインターネット業界はこのビジネスの可能性に目覚めた。オンラインショッピングの雄、Amazon.comは2003年10月に「A9」という名前の子会社を設立し、独自の検索技術の開発をスタートさせた。
もともとAmazon.comのテクノロジには定評がある。たとえば特定の本をサイトで表示させると、「この本を買った人はこんな本も買っています」とお勧めが表示されるBookMacherというフィルタリング技術は、同社の特許にもなっているほどだ。
A9設立について、Amazonの広報担当は米メディアの取材に対して「単なるオンラインショッピングサイトから、ITのサービスを包括的に提供する企業に進化するためだ」とコメントしている。入り口は別でも、求めている方向はGoogleと同じなのだ。
A9が具体的に何をやろうとしているのかは、発足時には明らかではなかった。業界では「Googleの後追いをしても、本当にGoogle並みの検索テクノロジを開発できるのだろうか?」といぶかしがる声もあった。ところがA9立ち上げ直後の10月下旬、Amazon.comは凄まじいサービスをリリースし、業界をあっと言わせた。何と、Amazon.comのサイトで販売されている書籍の全文検索をスタートさせたのである。
フルテキスト検索「Search Inside the Book」の対象は出版社190社の12万冊、3300万ページという膨大な量。これをすべてスキャンし、テキスト化させた労力には驚くしかない。
このサービスはあくまで「立ち読み」のためのもので、電子書籍プロジェクトではないとAmazon.comは説明している。ユーザーは検索結果としてスキャンされたページの一部を見ることができるだけで、フルテキストをダウンロードはできない仕組みになっているのだ。Amazon.comはこの仕組みで著作権をかいくぐろうとしているようだが、果たしてどうだろうか。
検索エンジンという概念の根底には、インターネットに流れている情報をすべての人々で共有したい――という哲学がある。この哲学は、著作権の過剰な適用を否定し、世界中の人々の間で知的財産を共有しようという「コモンズ」の考え方にもつながっている。だが検索エンジンがビジネス化していくのに従い、これまで意図的に看過されてきた著作権の問題が再び浮上してくる可能性は高い。
■検索テクノロジの新たな地平線――ナレッジマネジメントとWebサービス
これまで書いてきた通り、広告やニュースメディア、Eコマースなどインターネットビジネスの各分野を、検索エンジンは呑み込もうとしているように見える。
そしてこの検索エンジンという巨大なパラダイムは、他にもまださまざまな可能性を秘めている。その中でも企業のITシステムに今後大きなインパクトを与えそうなのは、ナレッジマネジメントとWebサービスというふたつの分野だ。
ナレッジマネジメントは1998年ごろから日本国内でも注目を集めるようになり、多くの企業がIT化の一環として積極的な導入を進めた。だが現状を見ると、多くの企業で導入は成功しているとは言い難い。
理由は3つある。
まず第一に、社員が求めるナレッジをデータベース化しにくいという課題だ。
これは、ナレッジの多くが「暗黙知」であることが原因だ。ナレッジマネジメントの世界ではよく語られる言葉だが、知識にはは形式知と暗黙知がある。前者はドキュメントや図表、マニュアルなどで表現され、容易に他人に伝達できる明文化された知識。後者は人間の経験に基づくノウハウのようなもので、テキストで表現するのは難しい。これをどうデータベース化するのかが、ナレッジマネジメントの大きな課題となってきた。
この問題を解決する方法として、さまざまな試行錯誤が繰り返されている。一定の成功を収めた手法としては、たとえばベンチャー企業の株式会社オーケイウェブやリアルコム株式会社などが提供している「Q&Aコミュニティ」がある。イントラネットに掲示板を作り、質問と回答を自由に書き込めるようにするのだ。誰かが質問を投げれば、その質問に関する知識を持っている人が自由に回答する。多くの人が持っている「自分の知識や経験を誰かに伝えたい」という気持ちをうまくすくい上げた手法で、このQ&Aのログをデータベース化すれば、自動的に暗黙知に近いデータベースができあがる。同時に、その知識を持っている人間がどこの部署の誰かを特定することもできるようになる。暗黙知を共有するためには、その知識の所有者を特定することがきわめて重要なのだ。
またセミナーなどを開いて暗黙地を所有している人に講演してもらい、その記録をテキスト化してデータベースに収めるという方法もあるだろう。いずれにせよ、こうした暗黙知のデータベース化については日本ではまだ端緒についたばかりで、市場形成も含め、まだこれからのビジネスといって良い。
話を戻そう。
第2の課題として、ナレッジが仮にデータベース化できたとしても、それを実際の仕事に役立つように社員に提供する仕掛けの構築が難しいことだ。これに対しては企業内にウェブベースのナレッジポータルを立ち上げる方法がある。社内に散らばるノウハウの蓄積をワンストップで提供しようという考え方だ。
そして第3に、これらの問題に加え、日本ではナレッジマネジメントが普及し始めた1990年代前半、清書した文書の管理イコールナレッジマネジメント、と捉えられてしまったことがある。文書を整然とディレクトリに分け、美しく管理することは理想的だが、すべての社員にその作業を求めることは難しい。
これに対処するには、文書をさまざまなフォーマットのまま混在させ、その中から何らかの形で必要なデータを掬い上げる手法が必要になる。おまけに、企業のIT化が行われてから年月が経つに従い、蓄積されるナレッジのデータベースはどんどん増加していく。さらに言えば、知の集積は「ナレッジデータベース」と名付けられたサーバの中だけでなく、社員の管理するパソコンのハードディスクの中に散在している――という考え方も広まりつつある。ナレッジのP2Pとでも呼ぶべきだろうか。それは企業ネットワークという巨大な宇宙の中に、ぽつんぽつんと浮かぶ銀河や星雲、恒星。その星々の中に、さまざまな知識がさまざまなかたちですくい上げられるのを待っているというイメージだろうか。その混沌とした状態の中から今すぐ必要な知を拾い上げるのは、従来の文書管理的な発想のナレッジマネジメントでは不可能に近い。どうすればいいのだろうか。
ここまで書けばおわかりだろう。こうした課題をクリアする手法として、検索エンジンの重要性が急浮上しつつあるのだ。
「ナレッジ・マイニング」という言葉がある。相互に関連のあるナレッジを、何らかのキーワードや文脈によって検索して表示するテクノロジーだ。この手法を使い、混沌とした巨大なデータのかたまりを縦横に扱い、効率的に必要な知識を取り出し、そして分類して提示する。そのノウハウが重視される時代になってきたのだ。最も重要なのは、情報を探すための検索システムと、それを取り出して閲覧するためのポータルサイトなのである。
現在では、検索エンジンをナレッジマネジメントの中核に置く考え方が普及しつつあるといえるかもしれない。
そしてそのテクノロジーに関して、自然語による日本語処理というアプローチから開発を行ったのが、この業界で最大のシェアを誇るジャストシステムのConceptBaseだ。
ConceptBaseは1997年にリリースされた。通常の検索エンジンがandやorを使ったブーリアン検索を行うのに対し、CoceptBaseはたとえば「製品Aの2004年の需要予測について教えてほしい」といった自然な文章を入力すれば、それに対する適切な回答を検索結果として表示させることができる。ブーリアン方式の場合は、検索キーワードの設定(どのような単語を使うか、複数キーワードはどのように設定すればいいか)に検索者側の一定のスキルが求められるが、自然語検索ではこうしたスキルがあまり必要とされない。ワンキーーワードで検索するとあまりにも大量の検索結果が表示されてしまい、しかたなくキーワードをふたつにしてみると、今度はひとつも検索にヒットしない――検索エンジンでそんな経験をした人もいるだろう。自然語検索はこうした点をうまくクリアすることができるのだ。
一方、ウェブを対象にしたロボット型検索エンジンの側からのナレッジマネジメントへのアプローチもある。もっとも有名なのはオープンソースの国産検索エンジンとして知られるNamazuで、対応プラットホームがきわめて幅広いことから、手軽な検索インフラとして広まった。
また最近は、商用のロボット型検索エンジンの外販も行われるようになっている。もっとも注目すべき存在は、Googleの検索ソリューション専用アプライアンスサーバ「Google Search Appliance」だ。yellow boxとも呼ばれ、外装が鮮やかなイエローに塗られたこのハードウェアは、2002年2月に発売された。大企業向けのGB-1001や顧客用サイト向けのGB-5005などいくつかの製品展開が行われている。残念ながら発売は北米に限られ、日本での発売は決まっていない。
ハードウェア自体は1Uになっており、ファイルサーバ群に加えると、バンドルされたそふとうぇあがすべてのファイルサーバのデータに対してインデックスを作成する作業を自動的に開始する。200以上の文書フォーマットに対応しているという。OSには、Red Hat Linuxをベースにしたカスタム版のLinuxが導入されている。
また国内では、NTT-Xの「プライベート goo」「goo DATA Search Solution」やデジタルガレージの「Inktomi Search Software 4.0 日本語版」などがある。
NTT-Xの製品は、同社のポータルサイトであるgooの検索エンジンを使っている。「プライベート goo」は10万件程度の比較的小規模なデータを扱うのに最適なパッケージソフトで、「goo DATA Search Solution」は大規模なデータベースを分散処理によって高速に検索できるソリューションサービスだ。同社によると、活用事例は大きくふたつに分けることができるという。ひとつはウェブサイトのマーケティングツールとして、顧客向けのウェブページに検索ウインドウを作り、サイト内検索を行うといったもの。そしてもうひとつの活用法は、企業内のさまざまな場所に散らばっているデータを検索する――つまりこの原稿で述べてきたようなナレッジマネジメント的ソリューションだ。
商用検索エンジンをナレッジの世界に持ち込むことで、どのようなメリットがあるのだろうか。同社のソリューション部担当課長、小笠原洋志氏は、次のように語る。
「goo DATA Search Solutionは並列分散処理が可能で、データベースのインデックスをリアルタイムで更新できる。これまで定時バッジなどでインデックスを作成していたが、そのバッファを短くすることができる。可用性が高まることによって、システムの不安定を軽減するという副次的効果もある」
興味深いのは、「提案書」「注文書」「見積書」といった文書の種類で検索できたり、あるいは総務部や経営管理部などのサーバ別に検索をかけられる機能だ。「あそこの部署で、こんな感じの文書があったな」という漠然とした記憶からも検索を行うことができ、一般の検索エンジンでは難しい面を補足していると言える。しかもこれらの検索を行う際、事前にディレクトリを管理しておく必要がない。部署ごとにファイル管理やディレクトリ構造がバラバラでも、ロボット型検索のテクノロジーを使うことで検索者側には整然としたデータとして見えるというわけだ。
小笠原氏は「ウェブサイトはサイトの数が爆発的に増え、さらに各サイトの情報量も増えてロボット型検索が扱うデータの量は飛躍的に大きくなった。数十億ページを処理できなければいけない。企業のイントラネットも今後、インターネットのウェブサイトと同じように文書量がどんどん増加し、しかもナレッジポータルなどの普及で必要な文書を取り出す時間の短縮への要求が厳しくなっていく。そうした状況の中では、ナレッジマネジメント分野でのロボット型検索エンジンの必要性は大きい」と話す。
現在はまだナレッジマネジメント市場は低迷しており、検索エンジンのイントラネット利用も市場が形成されているとは言い難い。しかし今後、小笠原氏が指摘するようにこの分野が成長してくる可能性はきわめて高いと言えるだろう。
検索エンジンの新たな進出分野として、もうひとつ注目されているのはWebサービスだ。やはりこの分野でも、Googleが主導権を握っている。まったく恐るべき企業ではないか。
同社は2002年4月に、「Google Web API」と呼ばれるサービスのベータ版をリリースした。簡単に言えば、Googleのウェブ検索を外部プログラムから自由に扱えるAPIを公開したものだ。そしてこのAPI(Application Programming Interface) を使えば、WebサービスのSOAP(Simple Object Access Protocol)に基づいたやりとりが可能になる。つまり自分の作ったプログラムから、数十億ページの検索を自由自在に処理できるようになるのである。
利用するにはまず、ライブラリとサンプルコード、ドキュメントなどが含まれたインストラクションキットをダウンロードする必要がある。次にGoogleに登録し、無料のユーザーアカウント「Google Account」を取得すると、ライセンスキーが送られてくる。このライセンスキーによって、Google Web APIにアクセスできるようになるわけだ。現状ではGoogle Web APIの利用は個人、非営利利用に限られており、商用利用は認められていない。このため1ライセンスからのクエリーも1日あたり1000件、1回あたり10件しか受け付けない。また、日本語にも未対応だ。一方、サンプルコードはJavaと.NETの双方が含まれており、どちらのプラットホームからでも扱える。またWSDL(Web Services Description Language)ファイルもインストラクションキットに含まれているため、Perlなどのスクリプト言語からの利用も可能だ。
このAPIでできることは、ベータ版の現状ではわずか3つしかない。(1)検索クエリーをAPIに送り、その検索結果を受け取る(2)検索キャッシュへのアクセス(3)単語のスペルチェック。機能は少ないとはいえ、検索機能はGoogleがポータルで使っているのとまったく同じものが使用できる。
とはいえ、このWebサービスをどう利用するかという的確なモデルは、まだ登場していない。言い方を変えれば、Googleは自社の検索エンジンとWebサービスをどのように結びつけるか考えあぐねた末、それを世界のプログラマーたちに公開することによってアイデアを募ったということかもしれない。
開発者たちもこれに応え、すでにさまざまなアプリケーションが登場してきている。たとえば最も初期に作成され、有名になったものとしては「Google Box」がある。特定のキーワードで1日に1000回の検索を行い、その結果を表示するというプログラムだ。利用法はあれこれ思い浮かぶが、たとえばGoogle Newsと組み合わせれば、最新のニュースをテーマごとにクリッピングし、端末にプッシュ配信するというビジネスが考えられるだろう。あるいは一時流行った「たほいや」(聞いたことのない言葉の意味を当てるゲーム)の自動プログラムも簡単に作ることができそうだ。可能性は無限に広い。
Webサービスへの検索エンジンの接近は、Google以外にAmazon.comも行っている。同社は2002年夏、Amazonサイトの商品の説明やサイト内検索エンジンを外部プログラムから利用できる機能を無料でサードパーティーに提供し始めた。AmazonのシステムもGoogle同様、SOAPを利用している。
Google Web APIやAmazonのWebサービスがIT業界に与えようとしているインパクトは、きわめて大きい。これまで理論ばかりが先行し、ビジネスとしての具体的なモデルがあまり提示されていなかったWebサービスを、初めて実用レベルで取り入れたサービスと言えるからだ。言い方を変えれば、Google Web APIによって人々は難解だったWebサービスのイメージを初めて具体的につかむことができるようになったとも言える。
さらに、APIの公開によって、先に述べたようにGoogleは開発者たちのコミュニティ化を進めようとしているように見える。同社がこうしたオープンソース型の戦略を採ったことは、今後の検索テクノロジの進化に大きな影響を与えるかもしれない。