SharePoint におけるPDFテキスト検索

SharePoint 2007 では、PDFファイルの全文テキスト検索はデフォルトでは行なわれません。インデックスサーバに Ifilter の導入、および諸設定が必要です。以下、導入手順です。

2009/08/16追記:
SP2 にバグがあり、適用すると PDF 検索ができなくなります。詳しくはこちらのエントリをご参照下さい。
SharePoint に SP2 を適用すると PDF 検索ができなくなる

◆必要ソフト:

「Adobe Reader v8」 (AdbeRdr810_ja_JP.exe)
「Adobe Ifilter v6」 (ifilter60.exe)

◆手順概要

インデックスサーバを対象として以下を行う。

1.「Adobe Ifilter v6」のインストール
2.「Adobe Reader 8」のインストール
※念の為、終わったら、起動して「同意する」を押して、初期化しておくこと。

3.管理画面の検索設定より、クロール対象ファイルに「pdf」追加。
4.レジストリにて、「Default」の値を「Adbe Ifilter」のCLSIDに2箇所変更。
※上記のバージョンだと、{4C904448-74A9-11D0-AF6E-00C04FD8DC02}

5.環境変数の「path」に「Adobe Reader 8」のインストールディレクトリを通す。
6.サーチサービスの再起動。「net stop oserach」、「net start oserach」

参考サイト
Post Sharepoint 2007 / WSS 3.0 ToDos: Enable PDF in search and display
関連KB
Icons are not displayed for Adobe PDF documents that are listed in the search results when you search your portal site in SharePoint Portal Server 2003 or in SharePoint Server 2007

Adobe PDF IFilter v6.0


これまでのコメント

  1. おりば〜ず より:

    AGENT: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; WOW64; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; Media Center PC 5.0; InfoPath.2)
    おーっ。助かりました!
    PDF検索が思うようにうまくいかないので調査しないといけないと思っていましたが、その必要がなくなったかもしれません。
    ありがとうございますっ。

  2. saruhiko より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 2.0.50727) Sleipnir/2.5.12
    おひさしぶりです。
    少しでもお役に立てたようでしたら嬉しいです!
    でもsaruhiko本人はほとんど理解しておらず、技術屋さんのテキストまる写しだったり(苦笑)
    ご質問などありましたら、聞いてきますので、是非(笑)

  3. taku より:

    AGENT: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30)
    いつも拝見しておりますm(_ _)m
    おぉ!情報ありがとうございます!
    私は↓ばかり見てました。。。
    http://support.microsoft.com/kb/832809/en-us

  4. saruhiko より:

    AGENT: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322) Sleipnir/2.5.12
    どうも〜。
    あ、こんなKBがあったんですね。
    このリンク先も追記しておきます。
    ありがとうございます〜

  5. nnmy より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 3.0.04506.30; InfoPath.2; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648) Sleipnir/2.6.1
    takuさんのCOMMENTで、ちょっと気になったので為念。
    ?カスタム設定で、ファイル内容検索をする。※クロール対象。
    ?検索結果ページにカスタムしたソ\ース元アイコンを表\示する。
    は別物です。
    MOSSのPDF検索対応は、??をそれぞれ対応してから、ユーザに使ってもらいましょうってことです。
    ?はビルトインのXMLに追記する作業ですが、酔っ払ってて探せません。はは。。

  6. PDF 用の IFilter 6.0 のインストール方法

    他の方もブログに iFilter 6.0 のインストール方法など書かれているよう

  7. sommos より:

    AGENT: Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.8.1.12) Gecko/20080201 Firefox/2.0.0.12
    こんにちは、

    はじめまして、

    一つ質問させていただきたいのですが、

    MOSS 2007 がインストールされているサーバOS へクライアントからPDF の検索ができませんでした。

    環境
    サーバ: Windows Server 2003 English + MOSS 2007 English
    クライアント: Windows XP SP2 Japanese + IE 7

    サーバの方にはMulti Language Pack をインストールしてあります。

    Adobe Ifilter v6 をインストールしてもダメでした。

    具体的には日本語のPDF に対して、
    含まれている文字列を入力して検索してもヒットしません。

    もし、何か対応法をご存知でしたらご教授願えますでしょうか。

    突然にすみません。
    よろしくお願いします。

  8. イケメン より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; InfoPath.1; .NET CLR 1.1.4322) Sleipnir/2.6.2

    こんにちは。

    クライアントはこの場合、関係ないと思われます。

    サーバ側での切り口にしぼりましょう。「English」版ですよね。

    「Office SharePoint Server Search」
    かつ、「このサーバーを使用してコンテンツにインデックスを付ける」
    に設定したインデックスを生成しているサーバマシンの、
    デフォルトOS文字コードに依存しているのではという点が気になります。

    「3.Unicode以外を使用しているアプリケーション対応」
    http://www.daw-pc.info/windows/jpcorrespond.htm
    ※XP編ではありますが、シューティングとしてはこの角度のアプローチですかね。

    検索結果となるPDF内容のインデックス生成は、
    IFiltterがAcrobatビルトインのdllを呼び出してファイル内容を抽出し、
    返ってきた平文(ココと)を、インデクサが文字列として(ココがポイント)形態素解析をするのでしょう。

    お手数ですが、実験&確認願います。
    ・http://<サーバ名>/ssp/admin/_layouts/logsummary.aspx
     より、クロールログをみて、内容検索したいPDFファイルが「クロール済」になっているか。
    ※以下のイメージ。
    http://sharepointmaniacs.com/files/20080228image2.gif
    ・英文PDFは内容クロール&検索できているか。
    ・その英文PDFのファイル名を日本語に変えてクロールしなおしても検索できるか。
    ・日本語と英文のハイブリッドファイルは、それぞれのキーワードで内容検索できるか。

    結果、お待ちしてます。

  9. SMILE より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)
    はじめまして、こちらの情報を参考にiFilterのインストールにチャレンジしました。
    が、、知識不足で手順4が、どのように設定していいのかが解りません。。

    手順4,5以外は全て実行して、フルクロールしてみましたが、PDFの全部検索は不可でした。

    手順5に関しては、何となく方法が解っているのでこれから試そうと考えていますが、手順4に関しての設定手順について、ご教示いただけたら幸いです。

    突然のコメントで不躾にも質問してしまって申\し訳ありません。

  10. SMILE より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)
    度々スイマセン、上のコメントでPDFの「全部検索」と書きましたが、「全文検索」の誤りです。
    ファイル名等での検索にはヒットする状態です。

  11. kdr より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0) Sleipnir/2.7.0
    SMILEさんこんにちわ。
    手順4の件ですが、レジストリエディタで下記の場所2つの既定値を確認してください。

    1)HKEY_LOCAL_MACHINE\\SOFTWARE\\Microsoft\\Officeserver\\12.0Search\\
    Setup\\ContentIndexCommon\\Filters\\Extension\\.pdf

    既定値 --> {4C904448-74A9-11D0-AF6E-00C04FD8DC02}(※うちの環境での値です。)

    2)HKEY_LOCAL_MACHINE\\SOFTWARE\\Microsoft\\Shared Tools\\
    Web Server Extensions\\12.0\\Search\\Setup\\ContentIndexCommon\\Filters\\Extension\\.pdf

    既定値 --> {4C904448-74A9-11D0-AF6E-00C04FD8DC02}(うちの環境での値です。)

    上記の値を確認してみてください。
    ※ブログの使用で¥がすべて/に化けています。

  12. SMILE より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)
    kdrさま、早速のコメント有難う御座います。

    ご指示頂いたレジストリの値を確認してみましたが、2箇所ともに、

    {4C904448-74A9-11D0-AF6E-00C04FD8DC02}

    となっており、kdrさまの環境と同じようになっていました。
    この状態であれば手順4はOKという理解で宜しいでしょうか。

    先ほど環境変数を追加したので、サービス再起動後、夜間にフルクロールを実行してみます。

    ※先ほどこの記事の文中のコマンドをコピー&ペーストして気づいたのですが、

    >6.サーチサービスの再起動。「net stop oserach」、「net start oserach」

    の、「net stop oserach」のスペルが間違っていました。
    しょうもない指摘で申\し訳ありません。

    では、うまくいきましたらまた報告させて頂きます。

  13. SMILE より:

    AGENT: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)
    kdrさま
    上記の手順をすべて実行後、インデックスをフルクロールさせてみたのですが、PDF内テキスト検索は有効になっておりませんでした。

    環境の問題も考えられるので、もう少し試行錯誤して見たいと思います。
    色々とご教示ありがとうございました。

    進捗があれば、また報告させて頂きます。

  14. [MOSS]PDF検索の設定

    SharePoint MANIACS::MOSS におけるPDFテキスト検索最近MOSSに関わっています。。。といっても作ってるんじゃなくてコンセプト設計支援ですが・・・チョットメモです。。

login

Author

中村 和彦(シンプレッソ・コンサルティング株式会社 代表)が「ユーザ視点の SharePoint 情報」を発信します。元大手製造業 SharePoint 運用担当。現SharePoint コンサルタント。お仕事のお問い合わせはこちらまでお願いします。当ブログにおける発信内容は個人に帰属し所属組織の公式発信/見解ではありません。
Twitter : @saruhiko
FB : 中村 和彦
MS MVP SharePoint 2009/10-2011/9
MS MVP Office 365 2012/10-

FaceBook Activity