SharePoint の検索はカタカナをブレイクできない

日本語はひらがな、カタカナ、漢字と多様な文字が存在するため、検索インデクサはかなり高度な解析を要求されます。そして SharePoint は英語圏の製品ですので…残念ながら日本語に強いとは言い難いですね。

SharePoint 標準の検索機能で問題なのは、連続するカタカナを区切れない点です。
例えば、「テックインフォメーションシステムズ」という会社(実在)があります。
人間なら、この単語は「テック」「インフォメーション」「システムズ」で区切れていることが判ります。

しかし、MOSS は、この単語を「テックインフォメーションシステムズ」としか認識してくれないのです。

そして、更に悪いことに、SharePoint の検索は、単語レベルでの完全一致でしかヒットしません。
例えば、上の例の場合、「テックインフォメーションシステムズ」は検索にかかりますが、「テック」や「テックインフォメーションシステム」は検索にかかりません。


これは、うちの会社の例。
「ITソリューション部」という部署が存在するのですが、SharePoint は「IT」「ソリューション」「部」と認識するため、「リューション」では検索に掛かりません。
仕様としては理解できます。
しかし、一般ユーザからすると理解しづらい…。

さて、それならせめて、特定の単語については強制的に分解(ブレイク)するように設定したいところなのですが、どうやら、SharePoint はこれが出来ないようです。
なにせ Microsoftの中の人が仰っているので、そうなのでしょう…。

次善の策として、シソーラス辞書に登録するという方法があります。
例えば、上の例なら、
[code]
<replacement>
<sub>テック</sub>
<sub>テックインフォ</sub>
<sub>テックインフォメーション</sub>
<sub>テックインフォメーションシステム</sub>
<sub>テックインフォメーションシステムズ/sub>
</replacement>
[/code]
とすれば、やや検索性は向上します。

シソーラス辞書の設定については、以下のサイトが非常に参考になります。

松崎 剛 Blog SharePoint エンタープライズ検索 (3) : 検索精度のチューニング (関連性とランキング)
SharePointな日々 シソーラスファイルの編集時の注意点
SharePoint Developer 同義語、類義語、ノイズを考慮した検索を行う方法


これまでのコメント

  1. poteto より:

    AGENT: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; MS-RTC LM 8; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618; OfficeLiveConnector.1.4; OfficeLivePatch.1.3)
    お疲れ様です。

    そうなんですよね。これは困ったものです。
    正直、WSSの社内展開当初は、これが問題で導入をやめようかと思ったくらい残念な感じでした。
    今は、何とかユーザーに対して『無償だからしょうがない』と無理やり使ってもらっていますが、やはり使いずらそうです・・・
    しかも、有償版にしたからと言って変わるわけではないので、今後、MOSSの導入の際(予\定)にどうやって言い訳しようか考えものです(苦笑)
    2010では、例えばBingのエンジンなどを搭載し、改善してくれるといいのですが・・・期待はしていません。

    すいません、愚痴コメでm(_ _)m

  2. saruhiko より:

    AGENT: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; Sleipnir/2.8.5)
    すでにご存知でしたか!
    私はこのエントリを書くまで気付いていませんでした。たは(苦笑)

    噂\に聞くところでは2010ではFASTのエンジンが統合されるようなので、私はそこそこ期待しております。

    …まあ、イントラネットの検索はWeb検索とは「重み付け」が抜本的に異なるのが難しいところです。
    誰か革新的なロジックを構\築してくれませんかねぇ。

    愚痴返し(笑)

  3. halfsharepointer より:

    AGENT: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MS-RTC LM 8; InfoPath.2)
    SP2からはカタカナのワードブレイクできますよ。

    キャンペーンサイト→キャンペーンでもサイトでも検索結果として出てきます(確認済み)。

    ただ、もちろん辞書に存在するカタカナでしかワードブレイクはしませんが…

  4. saruhiko より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; InfoPath.1; .NET CLR 2.0.50727)
    なんと!驚きです。
    正直、SP2にはあまりメリットを感じず、二の足を踏んでいた部分があるのですが…これは大きなメリットですね!
    情報ありがとうございます。

  5. poteto より:

    AGENT: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; InfoPath.2; MS-RTC LM 8; .NET CLR 3.5.21022; .NET CLR 3.5.30729; .NET CLR 3.0.30618; OfficeLiveConnector.1.4; OfficeLivePatch.1.3)
    なんと!驚きです。
    テスト環境でSP2を当てたのですが、カスタマイズしたスタイルがうまく適用されなくて、運用サイトの更新を怠っていたため気づきませんでした^^;
    今の仕事が落ち着いたら取りかかってみます・・・
    ありがとうございますm(_ _)m

login

Author

中村 和彦(シンプレッソ・コンサルティング株式会社 代表)が「ユーザ視点の SharePoint 情報」を発信します。元大手製造業 SharePoint 運用担当。現SharePoint コンサルタント。お仕事のお問い合わせはこちらまでお願いします。当ブログにおける発信内容は個人に帰属し所属組織の公式発信/見解ではありません。
Twitter : @saruhiko
FB : 中村 和彦
MS MVP SharePoint 2009/10-2011/9
MS MVP Office 365 2012/10-

FaceBook Activity