GooがGoogleと契約したときに、NTT独自の日本語処理技術を利用してGoogleとは違う結果表示を行うという方針を出した。(参照:
Googleに変わったGoo)
しかしこれは形態素解析を変更したという意味ではなく、Googleへクエリーを投げる前処理に独自に日本語処理を加えたということになる。
形態素解析とは日本語(アジア言語)特有の処理である。英語やその他のヨーロッパ言語であれば
単語の区切り文字はスペースである。ところが日本語では句読点はあるものの、単語間にスペースなど存在しない。どこからどこまでが単語になるのかは文章によって変わってくるのである。
文章を単語に分けないとインデクスの作成が出来ないのだ。
そのためのアルゴリズムが形態素解析というわけで、当然各社色々な工夫をして少しでも精度を上げるようにしている。日本だといわゆるメーカーの研究所には各社の形態素解析がある。NTT、 NEC、 富士通、三菱電機、日立、オムロン、富士ゼロックスなど各メーカーで独自の形態素解析を持っている。
大学で開発されたフリーのものも有名なものがある
形態素解析技術は仮名漢字変換用に使われることが多かったので、古くワープロ専用端末の時代から研究が行われている。最近だと携帯電話でメールを書くことが多いが、これにも各社独自の仮名漢字変換が使われている。要素技術として、日本語処理の基本的な部分であるため各社が独自に持っていると思われる。
ところがGoogleをはじめUSベースの企業が利用している形態素解析はほとんどが
Basis Technology社の製品である。
Basis Technologyの顧客を見るとそうそうたる会社が並んでいる。
Google, Amazon, AOL, Fast, AskJeeves, Verity など検索機能を提供している有名な会社はほとんどBasis Technologyを使っている。
そんなにBasis Techの製品は良いのだろうか?答えは否。これは製品が悪いという意味ではない。採用される理由は英語でのドキュメントの提供およびサポートにあると思う。
本来であればGoogleやFast程のサーチエンジンを作る際には、各社の形態素解析を比較し、ベストなものを選ぶべきであろう。ところがそこはあくまでもUSの会社。日本語は
オマケなのだ。
まずは英語できちんと動くこと。それ以外の言語は、特にアジア言語は良く分からないので、あんまり検討せずに「
とりあえずUSの会社で唯一形態素解析を提供しているBasis Techでいいや」というのが現実だろう。
また、いわゆるCJK(中国語、日本語、韓国語)を同一のAPIで利用できるという点も評価されていると思う
TOCCというサーチエンジンがあったが残念ながら会社がつぶれてしまった。TOCCはInktomiのクローラーと三菱電機の形態素解析技術を利用して出来たエンジンであった。TOCC自身は90数%、三菱電機の子会社であった。
残念ながらTOCCはつぶれてしまったが、日本語で本当にサーチエンジンを作りたかったらやはりもっと日本のメーカーがアピールしないといけないだろう。Googleで使われているBasis Techをひっくり返すくらい、きちんと英語のドキュメントやサポートを行えばよいと思う。
Basis Tech1社では選択肢が少なすぎる。
しかしインデクスを作成する時に、アンカーテキストを利用するようになって、形態素解析の重要度が下がったのも事実だ。Googleでは十分に良い結果が出ている。もしGoogle以前のサーチエンジンであれば、形態素解析の重要性がもっと高かったのだが、現在ではそうでもなくなってきている。
日本のマーケットの重要性を考えると、日本語でのサーチエンジンのクオリティーはもはや無視できない。Googleだって本腰を入れて日本語の改善をしないとYahooやMSNに追いつかれてしまう可能性がある。
-inoue
コメント