AIO・LLMO対策を行う上で、知らずにHPがAIクローラーをアクセス遮断していないか確認する方法と対処法を解説


ChatGPTやPerplexity、Google、ClaudeなどのAI回答に、自社サイトが「引用される側」に回れるかどうか。いわゆるLLMO(大規模言語モデル最適化/AIO・GEOとも呼ばれます)が、Web集客の新しいテーマになってきました。

ところが、いざ対策を始めようとする前に、見落とされがちな落とし穴があります。それは──そもそも自社サイトが、AIのアクセスを知らないうちに遮断してしまっているケースです。

コンテンツをどれだけ磨いても、AIがそのページを読めなければ、回答の材料にも引用元にもなりません。LLMO対策の出発点は「良いコンテンツを作ること」ではなく、まず「AIに読める状態になっているかを確認すること」。今回は、私たち自身が実際に遭遇した事例をもとに、その確認方法と対処法を解説します。

なぜ「知らないうちに」遮断が起きるのか

自社サイトがAIを遮断してしまう経路は、大きく3つあります。いずれも、悪気なく・気づかないうちに有効化されていることが少なくありません。

1.サーバー(ホスティング会社)のAI遮断機能

2026年1月、国内シェアの大きいエックスサーバーが「AIクローラー遮断設定」をリリースし、サーバーパネルからワンクリックでChatGPT・Gemini・ClaudeなどのAIアクセスを一括ブロックできるようになりました。さくらインターネットなども同様の機能を提供しています。「コンテンツをAIに勝手に使われたくない」というニーズに応える便利な機能ですが、裏を返せば、機能追加時の案内やサーバー移転をきっかけに、意図せず有効になっているリスクもあります。

2.robots.txt の設定

サイトのアクセスルールを書いたファイルで、ここに特定のAIボット(GPTBot、ClaudeBotなど)を拒否する記述があれば、行儀のよいAIはアクセスを控えます。SEOプラグインやテーマの設定で、いつの間にか書き込まれていることがあります。

3.「レスポンスヘッダー」

これは後半で詳しく触れますが、robots.txt の中身は問題ないのに、サーバーが返す“見えない付帯情報”がAIを遠ざけているという、非常に発見しにくいパターンです。私たちが実際にハマったのは、まさにこの3つ目でした。

厄介なのは「Google検索は正常」に見えること

この問題が見つかりにくい最大の理由は、AI遮断はGoogle検索には影響しないことが多いという点です。

AIクローラー(GPTBotやClaudeBotなど)と、Google検索のクローラー(Googlebot)は別物です。そのため、AIだけを遮断していても、Google検索での順位やインデックスは正常なまま。管理画面のSEOレポートを見ても異常は出ず、「ちゃんと表示されているから大丈夫」と思い込んでしまいます。その裏で、成長中のAI検索経由の流入機会を、静かに取りこぼしている──これが実態です。

まず「気づく」ための、いちばん簡単な方法

難しいツールは要りません。ChatGPTやPerplexityに、自社名や自社サイトのURLを入れて質問してみるのが、最も手軽な第一歩です。

「(自社名)について教えて」「(自社サイトURL)のサービス内容を教えて」と投げてみて、AIが自社サイトの中身を引用して答えられれば、ひとまず読める状態にあります。逆に「アクセスできませんでした」「robots.txtで拒否されています」といった反応が返ってきたら、遮断が疑われるサインです。

ただし、AI側にも判定の一時保存(キャッシュ)があり、設定を直した直後は反映まで時間がかかることがあります。正確に切り分けたい場合は、後半の技術的な確認に進みます。

遮断していた場合、どうなるか、またどうすれば良いか

遮断していた場合、たとえAIに読み込ませたかったとしてコンテンツをたくさん書いてもAIがリサーチをブロックされている可能性があります。

その上で遮断してた場合の方針は二択です。「AIには読ませたくない(コンテンツを守る)」のか、「AI検索での引用・露出を取りに行く」のか。 正解は事業戦略によって変わります。

オウンドメディアで認知を広げ、問い合わせにつなげたい企業であれば、後者──AIに読める状態にして露出機会を最大化する方向が素直な選択です。一方、独自ノウハウや有料級コンテンツを抱えるメディアなら、あえて遮断して権利を守る判断も合理的です。大切なのは「なんとなく」ではなく、方針を決めたうえで設定を選ぶことです。

なお、AI遮断の効果は絶対ではありません。robots.txt はあくまで“紳士協定”で法的拘束力はなく、ルールを無視するボットも存在します。「設定したから完全に守られる/必ず引用される」と断言できるものではない、という前提は押さえておきたいところです。

サイト運用者向け。実際の技術的な作業手順

ここからは、実際にコマンドで確認する手順です。私たちが遭遇したケースを追う形で、3つの層を順番に切り分けていきます。

ステップ1:robots.txt の中身を確認する

まず、AIボットのふりをして robots.txt を取得します。

curl -A "ClaudeBot" https://あなたのドメイン/robots.txt

Disallow: /(スラッシュ1本)が User-agent: * の下にあれば全ボットを拒否、AIボット名(GPTBot、ClaudeBotなど)の下にあればAIだけを拒否している状態です。ここに拒否記述がなければ、robots.txt の中身自体は問題ありません。

ステップ2:サーバーがUA(ユーザーエージェント)で弾いていないか

robots.txt がクリーンでも、サーバーがボットの名前を見て遮断していることがあります。AIボットのUAと通常ブラウザのUAで、返ってくるステータスコードを比べます。


curl -A "ClaudeBot" -I https://あなたのドメイン/
curl -A "Claude-User" -I https://あなたのドメイン/
curl -A "Mozilla/5.0" -I https://あなたのドメイン/

先頭に出る HTTP/2 200 が正常です。AIのUAだけ 403 や 503 が返るなら、サーバー側でUAブロックが効いています。 エックスサーバーの「AIクローラー遮断設定」がONの場合や、.htaccess に SetEnvIfNoCase User-Agent “ClaudeBot” … のような記述がある場合がこれに当たります。前者はサーバーパネルからOFF、後者は該当行の削除で解除できます(.htaccess は編集前に必ずバックアップを)。
ステップ3:見えない「X-Robots-Tag」ヘッダーを疑う

ここが今回の“真犯人”でした。robots.txt の中身は全許可、サーバーも全UAに 200 を返す。それでもAIに弾かれる──という場合、レスポンスヘッダーに X-Robots-Tag: noindex が付いていないかを確認します。


curl -A "ClaudeBot" -I https://あなたのドメイン/robots.txt | grep -i x-robots

ここで x-robots-tag: noindex, follow が表示されたら、それが原因です。noindex は「このリソースを検索インデックスに使うな」という強い指示で、一部のAIフェッチャーは、サイトの入り口である robots.txt にこれが付いているのを見て、サイト全体へのアクセスを敬遠します。

やっかいなのは、このヘッダーは robots.txt にだけ付き、通常の記事ページには付いていないことがある点です。実際、私たちのケースでは記事ページ側は完全に正常で、robots.txt のヘッダーだけが問題でした。中身をいくら眺めても分からず、ヘッダーまで見て初めて判明する──だからこそ見落とされやすいのです。

これはWordPressのSEOプラグイン「Yoast SEO」が、robots.txt や sitemap.xml といった機能ファイルを検索結果に出さないために、意図的に X-Robots-Tag: noindex を付ける仕様に由来します。Google検索には無害な“親切設計”ですが、AIクローラー相手には裏目に出ることがあります。

対処:PHPフィルターでヘッダーを外す

このケースでは、robots.txt が物理ファイルではなくWordPressの動的生成(仮想robots.txt)だったため、.htaccess の FilesMatch では対処できませんでした。実際に処理しているのは index.php であり、ヘッダーもPHPが後から付けているためです。

正解は、WordPressの robots_txt フィルターでヘッダーを除去することです。WPCode や functions.php に、以下を追加します。


add_filter( 'robots_txt', function( $output ) {
    header_remove( 'X-Robots-Tag' );
    return $output;
}, 99 );

反映後、ステップ3のコマンドをもう一度実行し、x-robots-tag の行が表示されなくなれば成功です。他のページやSEOへの影響はありません。

最後に:キャッシュの反映を待つ

サーバー側を直しても、AI各社のフェッチャーは robots.txt の判定を最大24時間ほどキャッシュするため、直後は反映されないことがあります。数時間〜1日ほど置いてから、ChatGPTやPerplexityで再確認するのが確実です。キャッシュ系プラグインやサーバーのコンテンツキャッシュが古い応答を返すこともあるので、翌日にもう一度ヘッダーを確認しておくと万全です。

まとめ:LLMO対策は「読める状態か」の確認から

AI検索での可視性を高める取り組みは、優れたコンテンツづくりから始めたくなりますが、その前提として「AIに読める状態になっているか」の確認が欠かせません。確認すべき層は、robots.txt の中身、サーバーのUAブロック、そして見落とされやすい X-Robots-Tag ヘッダーの3つ。いずれも curl 数本で切り分けられます。

Google検索が正常なだけに気づきにくく、静かに機会を損失しがちなポイントです。まずは自社サイトが遮断していないかを一度チェックしてみることを、LLMO対策の第一歩としておすすめします。

私たちアクセルパートナーズは、AI・LLMO対策も網羅したwebコンサルティングサービス行っております。自社サイトの現状が気になる方は、お気軽にご相談ください。

二宮 圭吾
この記事の編集: 二宮 圭吾
アクセルパートナーズ代表・webコンサルタント・中小企業診断士

2010年にwebコンサルタントとして開業、2016年中小企業診断士登録。web集客や求人を中心に様々な支援を行う。独自の中小企業診断士ネットワークを運営。

0120-659-057 営業時間 9 : 30 - 18 : 00 [平日]
お問い合わせ

Web集客のご相談、無料で承ります!

Contact