SharePoint の検索精度が悪すぎて困る
先日、リアルコム主催のSharePointユーザ会、その発起会に参加してきました。多くの方と、SharePoint運用の現状や、悩みなどを共有できたのは非常に大きな収穫でした。
各企業毎に様々な事情があり、固有の「悩み」がある訳ですが、共通して多かったのが「SharePointの検索が使えない」という声でした。もちろん、物理的に利用できない、という意味ではありません。検索結果の精度が低くて実用に耐えない、ということです。
─なんだ、そう思ってたのは私だけじゃなかったのか…。
悪い意味で慰められました(苦笑)
ノーツ時代は、データベースを跨いだ串刺し検索が出来ませんでした。その為、「エンタープライズ検索」にとても憧れました。グループウェア全体を一気に検索できたらどれだけ便利だろうかと。そして、SharePoint2007 は、まさにそれを実現してくれる筈でした。
しかし、現実には…検索しても必要な情報がヒットしません。
全文検索ができるのは良いのですが、なんと言うか、クソもミソも検索結果に並んでしまうため、結局、本当に必要な情報に辿り着くことが出来ません。まるで、初期の出来の悪いロボット型 Web 検索エンジンのようです。
それでも、確かに無いよりはマシです。マシなのですが…。
実用性という意味では、サイトコレクション→サイト→リスト(ライブラリ)まで降りてから検索することで、ようやく使いモノになるレベルです。
にもかかわらず、問題なのは、この「使えない」機能のために、少なからぬリソースが割かれている、ということです。
大抵のファームで、インデクッスサーバは独立していると思います。
インデックス容量は実データの50%というのが Microsoft による推奨推定値ですので、かなりのディスク容量が必要です。加えて、フルクロールにかけられる時間の制約(一般的に、ユーザに影響を考えると、通常8時間前後で終了する必要があります)から、CPU や メモリについても相応のスペックが要求されます。当然、コンテンツ容量が増えれば増えるほど、インデックスサーバにも多くのリソースが必要になります。
インデックスサーバを複数立てて、分散処理することは可能ですが…。
この場合、SharePoint の仕様上、複数のインデックスに対して一度にクエリを投げることが出来ないため、そもそも統合検索では無くなってしまいます(少なくとも私はベンダ様からそう説明されたのですが)
正直、これなら SPS2003 時代のチームサイト検索(SQL 標準のリアルタイム検索)の方良かったような気がしないではありません。
と、愚痴を言っても始まりませんので、何かしら検索精度を上げることを考えます。
検索のチューニングについては、こちらのポストが参考になります。
松崎 剛 Blog
SharePoint エンタープライズ検索 (3) : 検索精度のチューニング (関連性とランキング)
実際にチューニングを行うツールが、こちらで紹介されています。
半人前SharePointer
検索結果のチューニング
今のところ、このツールを利用して「重み付け」を調整するしかなさそうです。しかし何か、もっと抜本的な方策は無いものでしょうか…。
ただ、検索については、一概に SharePoint が悪い、とは言えない気もしています。例えば、検索システムを Google に換えてみたところで、精度が大きく向上したりはしないでしょう。
一時期、盛んに喧伝された「エンタープライズ検索」ですが、それ自体が、実際にはまだ実体の伴わない、幻だったのではないか、と私は考えています。ユーザは、Web における Google や Yahoo、Bing のように、検索すれば即、求める情報が入手できることを期待しますが、「知りたいキーワードに近い内容のコンテンツを探す」Web 検索と「特定の業務情報に辿り着く」ことを目的とする企業内検索では、ユーザの求める情報の質が全く異なります。
企業内の情報は「被リンクが多いから重要」「キーワードが多く含まれるから重要」とは限りません。情報の鮮度、発信者の所属や職位、受信者の所属や職務など、Web 検索には無い特殊な要素が複雑に影響します。営業担当にとって重要な情報も、研究所の社員にとって重要だとは限りません(むしろ大抵無価値です)
そう考えると、「キーワードマッチング」を如何に精緻化したとしても、高品質な企業内検索は実現しないように思えます。必要なのは個人の属性や(業務上の)人間関係を考慮した「パーソナルマッチング」とでも言うのでしょうか?そんな検索です。─ これを「エンタープライズサーチ2.0」と、今、勝手に命名しました(笑)
ただ、最近の傾向を見ると、iGoogle 等、Web 検索エンジンもこうした「個人毎に異なる検索結果」にシフトしつつあるように思えます。そう遠くない将来、エンタープライズサーチ2.0は実現するかもしれません。それが SharePoint2010 を願ってやみませんが(笑)
さて、私は当座の対策に戻るとします。
何か、うまい方法を発見できたら、ご紹介したいと思います。
AGENT: Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3
こんにちわ。mamao2です。
私の所でも検索精度について問題になりました。
確かにやたらとヒットするんですよね。
検索結果を更新日順にすることで少しは見やすくなったのですが、
やはり添付文書の中まで検索してほしくないケースがほとんどなのです。
ただ、その要件もユーザー次第なので一律設定するわけにもいかず。
まだ社内での最終結論は出ていませんが、サポートよりこんな情報を教えてもらいました。
通常の検索バーにて「title:hogehoge」と入れることにより、
タイトルフィールドのみを対象に検索してくれるそうです。
私の所では大抵のキーワードはタイトルに入っているので、
これがデフォルトの動作にできればぁ・・と思っている次第です。
p.s.
ビューを改行させない件、ご紹介いただきましてありが
AGENT: Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3
とうございました。
最後のコメントが切れました・・・orz
AGENT: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; InfoPath.2; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)
title:hogehoge は良いですね!ありがとうございます。
私もちょっと研究してみます。
実際、添付ファイルの中身は検索してくれなくても良い場合が
ほとんどなんですよねぇ。いっそ、標準で検索しないように
すれば、インデックスサーバは大助かりなんですが(苦笑)
ただ、そのためにはSharePointに標準でインストールされている
Ifilter をアンインストールしなければいけないので、
それが可能かも含めて要検証です。
また情報があればご報告しますね。