SharePoint の検索はカタカナをブレイクできない
日本語はひらがな、カタカナ、漢字と多様な文字が存在するため、検索インデクサはかなり高度な解析を要求されます。そして SharePoint は英語圏の製品ですので…残念ながら日本語に強いとは言い難いですね。
SharePoint 標準の検索機能で問題なのは、連続するカタカナを区切れない点です。
例えば、「テックインフォメーションシステムズ」という会社(実在)があります。
人間なら、この単語は「テック」「インフォメーション」「システムズ」で区切れていることが判ります。
しかし、MOSS は、この単語を「テックインフォメーションシステムズ」としか認識してくれないのです。
そして、更に悪いことに、SharePoint の検索は、単語レベルでの完全一致でしかヒットしません。
例えば、上の例の場合、「テックインフォメーションシステムズ」は検索にかかりますが、「テック」や「テックインフォメーションシステム」は検索にかかりません。
これは、うちの会社の例。
「ITソリューション部」という部署が存在するのですが、SharePoint は「IT」「ソリューション」「部」と認識するため、「リューション」では検索に掛かりません。
仕様としては理解できます。
しかし、一般ユーザからすると理解しづらい…。
さて、それならせめて、特定の単語については強制的に分解(ブレイク)するように設定したいところなのですが、どうやら、SharePoint はこれが出来ないようです。
なにせ Microsoftの中の人が仰っているので、そうなのでしょう…。
次善の策として、シソーラス辞書に登録するという方法があります。
例えば、上の例なら、
[code]
<replacement>
<sub>テック</sub>
<sub>テックインフォ</sub>
<sub>テックインフォメーション</sub>
<sub>テックインフォメーションシステム</sub>
<sub>テックインフォメーションシステムズ/sub>
</replacement>
[/code]
とすれば、やや検索性は向上します。
シソーラス辞書の設定については、以下のサイトが非常に参考になります。
松崎 剛 Blog SharePoint エンタープライズ検索 (3) : 検索精度のチューニング (関連性とランキング)
SharePointな日々 シソーラスファイルの編集時の注意点
SharePoint Developer 同義語、類義語、ノイズを考慮した検索を行う方法
AGENT: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; MS-RTC LM 8; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618; OfficeLiveConnector.1.4; OfficeLivePatch.1.3)
お疲れ様です。
そうなんですよね。これは困ったものです。
正直、WSSの社内展開当初は、これが問題で導入をやめようかと思ったくらい残念な感じでした。
今は、何とかユーザーに対して『無償だからしょうがない』と無理やり使ってもらっていますが、やはり使いずらそうです・・・
しかも、有償版にしたからと言って変わるわけではないので、今後、MOSSの導入の際(予\定)にどうやって言い訳しようか考えものです(苦笑)
2010では、例えばBingのエンジンなどを搭載し、改善してくれるといいのですが・・・期待はしていません。
すいません、愚痴コメでm(_ _)m
AGENT: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; Sleipnir/2.8.5)
すでにご存知でしたか!
私はこのエントリを書くまで気付いていませんでした。たは(苦笑)
噂\に聞くところでは2010ではFASTのエンジンが統合されるようなので、私はそこそこ期待しております。
…まあ、イントラネットの検索はWeb検索とは「重み付け」が抜本的に異なるのが難しいところです。
誰か革新的なロジックを構\築してくれませんかねぇ。
愚痴返し(笑)
AGENT: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MS-RTC LM 8; InfoPath.2)
SP2からはカタカナのワードブレイクできますよ。
キャンペーンサイト→キャンペーンでもサイトでも検索結果として出てきます(確認済み)。
ただ、もちろん辞書に存在するカタカナでしかワードブレイクはしませんが…
AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; InfoPath.1; .NET CLR 2.0.50727)
なんと!驚きです。
正直、SP2にはあまりメリットを感じず、二の足を踏んでいた部分があるのですが…これは大きなメリットですね!
情報ありがとうございます。
AGENT: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; MS-RTC LM 8; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618; OfficeLiveConnector.1.4; OfficeLivePatch.1.3)
なんと!驚きです。
テスト環境でSP2を当てたのですが、カスタマイズしたスタイルがうまく適用されなくて、運用サイトの更新を怠っていたため気づきませんでした^^;
今の仕事が落ち着いたら取りかかってみます・・・
ありがとうございますm(_ _)m