2008/06/16

Powerset



"インターネット検索に3度目の転機が訪れるかも知れないと鳴り物入りで登場したのがPowersetだ(参考記事:Powerset、「質問の答え」を見つけてくれる検索エンジンをβ公開)。自然言語検索の技術を使い、通常の人間の言葉による質問に対して、それに適した回答を探し出してくれる。

 5月12日に一般公開されたPowersetのベータ版を使って、早速いろいろな検索を試してみた。

 グーグルとの違いをひと言で言えば、グーグルが検索キーワードに最も関連のある「ページ」を提示してくれるのに対して、Powersetは「情報そのもの」を提示してくれるということだ。

 具体的にいくつか例で見てみよう。以下の例で注意してほしいのは、Powersetが現在検索対象としているのはWikipediaの英語版と、アルファ版公開中のオンラインデータベース「Freebase」だけであるのに対して、グーグルはインターネット全体が検索対象である点だ。もう1つ、以下の例ではフルセンテンスで検索したが、Powersetは1単語や単語の羅列も受け付ける。

■アルカトラズ島から逃げた囚人の数は?

 「アルカトラズ島から逃げた囚人の数は?(How many prisoners have escaped from the Alcatraz Island?)」という検索に対する結果は、グーグルとPowersetで以下の通りとなった。
ps02.png グーグルで「アルカトラズ島から逃げた囚人の数は?(How many prisoners have escaped from the Alcatraz Island?)」と検索した結果。微妙に答えらしきセンテンスが見えているが、本文に飛ばないと正解は分からない
ps03.png 同じ検索文でPowersetで検索した結果。ずばり答えが含まれる部分が表示されている。この例では「36」は正答ではないが、少なくとも数字を聞かれていることを認識してハイライト表示していることは分かる

 グーグルはWikipediaのアルカトラズ島の項をトップに持ってきている。答えは当該ページを読めば分かる。脱獄不能と言われたアルカトラズの監獄で本当に脱獄に成功した囚人がいなかったことが分かる。従来の検索エンジンのパラダイムでは、これ以上の答えは望めない。

 しかし、Powersetの出してきた答えは、これとは異なる。ずばり、関連する段落がトップに表示され、検索結果をクリックしなくても答えが分かるのだ。「how many」とフレーズを認識したPowersetは「36」という数字をハイライトしている。

 ただし、ここでは正答は36人ではない。計14回あった脱獄計画に36人の囚人が関わり、誰1人として脱獄に成功していないというのが正答だ。結局人間が読まなければならないという意味では、まだ機械は人間の言葉である自然言語を理解するというレベルにはほど遠いが、それにしてもグーグルとの違いは一目瞭然だ。グーグルではアルカトラズ島の解説ページに飛んで、目でざっと読むか「escape、break、sneak」などいくつかの単語で検索して該当個所を探す必要がある。


記者は出張中のサンフランシスコで飛び降り自殺を目撃した。正確には目撃する寸前だった。ビルの4階あたりから飛び降りようとする30絡みの男をしばらく人だかりの中で見ていたのが、おそらく1時間経っても飛び降りないだろうと、10分ほどでその場を立ち去った。その晩、別の記者から私が立ち去った 5分後に男が飛び降りたと聞かされた。ただ、死なずに済んだのかどうかが分からない。

 気になった記者はグーグルで「san francisco suicide」で検索した。地元新聞も見たが、関係する情報がなかなか見つからない。しばらくすると、Yahoo!のQ&Aサイトで、私とまったく同じ質問をしている人が見つかった。そこには現場にいたとする目撃者からの回答があり、読むに耐えない恐ろしい記述と、死亡したという事実が書かれていた。

 こうした情報がグーグルの検索ですんなりと出てくるのは、ある種のWebサイトでのクロール頻度が高いからだろう。また、地元新聞のベタ記事にもならないできごとの伝聞情報が、ちゃんと検索で上位に表示されるのは、ページの鮮度を勘案して順位を決定しているからとだろう。「san francisco suicide」の検索に対して、サンフランシスコの自殺予防センターや、過去にゴールデンゲートブリッジから飛び降りた自殺者のリストと、「さっき起こった出来事」を同程度に優先するべき理由はある。グーグルが支持されるのは、そうした順位付けにおける各種アルゴリズムやパラメータのさじ加減が絶妙に感じられるからだろう。とすれば、Powersetのベータ版サービスは、まだこうした領域でグーグルを脅かすだけの力があるかどうか、何も証明していないということになる。

 さらに、インターネット全体という巨大なデータを対象に高頻度なクローリングとインデクシングを継続するためには膨大な計算機資源とテクニックが必要だということもある。GFSやMapReduceの名で知られるグローバルな分散ファイルシステムや並列処理技術など、グーグルのインフラ面での優位については簡単に揺らぎそうもない。

 Powersetとグーグルでは、もともと目指しているものが異なるのかもしれない。ただ、およそあらゆるインターネット上の検索に対して有効と考えられていた汎用的なグーグル検索に対して、有力なライバルが現れたことだけは間違いないだろう。"
http://www.atmarkit.co.jp/news/200805/15/ps.html

0 件のコメント: