Google検索の上位は守りつつ、AIクローリングは遮断したい──コンテンツ保護という選択肢

AIにおすすめとして紹介されたいと思う事業者さんは多いと思いますが、その反面引用されることにより自社のコンテンツの独自性が失われてしまう可能性もあります。

例えば、自社が独自にまとめたコンテンツが高評価を受けてGoogleで莫大なアクセスを稼いでいたとしてもAIに引用され、それが他社に模倣され、コンテンツの価値を失って順位も下がってしまう可能性があります。

そのためあえてAIのクローリングを遮断するという選択も時には必要になります。

前提として、これは「どちらが正解」という話ではありません。AIに読ませて露出を取りにいくべきサイトもあれば、あえて遮断してコンテンツを守るべきサイトもある。自社がどちらを選ぶべきかを判断するための材料として、遮断側の論理と、その具体的な方法を整理します。

なぜ「あえて遮断」なのか

AIにコンテンツを読ませることには、露出という明確なメリットがあります。一方で、遮断を検討する側には次のような懸念があります。

ひとつは、独自コンテンツの流用リスクです。オリジナルの調査データ、専門的なノウハウ、独自に構築した商品情報などをAIに学習・引用されると、AIの回答内で情報が完結してしまい、自社サイトへの訪問（クリック）が発生しないまま消費される――いわゆる「ゼロクリック」の状態が起こり得ます。手間をかけて作ったコンテンツが、出典として自社に還元されないまま使われることへの懸念です。

もうひとつは、中期的に埋もれるリスクという見方です。オリジナルのコンテンツがAIに広く学習されると、それを下敷きにした類似コンテンツが増え、結果としてオリジナルの独自性が相対的に薄まっていく――短期的にはAI経由の露出で伸びても、中期的には差別化が効きにくくなるのではないか、という懸念です。

これらは、コンテンツそのものが競争力の源泉になっているサイト――独自メディア、専門データベース、有料級の知見を無料公開しているようなサイト――では、無視できない論点になります。

遮断によるデメリット

一方で、遮断に慎重であるべき理由も同じくらい重要です。フェアに見ておきます。

AI検索（ChatGPT検索、Perplexity、GoogleのAI回答など）は、成長している流入チャネルです。ここから排除されると、購買や比較検討の段階でAIに質問するユーザーとの接点を失うことになります。「〇〇のおすすめは」「A社とB社を比較して」といった、購入意欲の高い問いにAIが答える場面で、自社が候補に挙がらなくなる、ということです。

また、「盗用される」「埋もれる」という懸念は、実際の被害を定量的に測るのが難しく、露出を得るメリットの方が上回る場面も多い、という見方も有力です。実際、多くの解説では「大半のサイトにとっては、AIクローラーを許可するのが妥当」とされています。コンテンツはもともと公開されているものであり、AI経由の参照が実際の流入につながるケースも計測されているためです。

つまり、遮断は「守り」と「露出」のトレードオフであり、どちらに寄せるべきかはサイトの性質によって変わる、というのが公平な整理です。

判断の前に、technicalな前提を1つ押さえておく必要があります。AIのクローラーと、Google検索のクローラー（Googlebot）は別物だということです。

AI向けの学習クローラーを遮断しても、Google検索の順位やインデックスには影響しません。「AIには読ませたくないが、Google検索の上位は維持したい」という判断もあり得ます。

Google検索エンジンは基本的に1秒でも早くGoogleを離脱して目当ての情報に辿り着くことを目的としておりますが、AIチャットは基本的に使用量を増やすことに主眼を置いております。

そのため自社HPへの集客を目的としている活動に置いてGoogle検索エンジンは読み込ませてAIクローラーは遮断するということも時には重要になります。

学習は拒否、検索・引用は許可

さらに踏み込むと、AIのクローラーは役割ごとに分かれており、それぞれを独立して制御できます。これを使うと、「守り」と「露出」を両取りに近い形で調整できます。2026年時点で、主要なAIクローラーは大きく次のように分類されます。

学習用のクローラー（モデルの訓練データを集める）には、GPTBot（OpenAI）、ClaudeBot（Anthropic）、CCBot（Common Crawl）、Google-Extended（Googleの生成AI向け）、Applebot-Extended（Apple）などがあります。これらを遮断すると、自社コンテンツがモデルの学習に使われるのを避けられます。

検索・引用用のクローラー（AIが回答する瞬間にページを取得し、出典として引く）には、OAI-SearchBot（ChatGPT検索）、Claude-SearchBot、PerplexityBot などがあります。これらを許可しておくと、AI検索での引用・紹介の対象として残れます。

この2つは別のクローラーなので、学習用は拒否しつつ、検索用は許可するという使い分けが可能です。robots.txt での記述例は次のようになります。

# 学習用クローラーは拒否 User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: CCBot Disallow: / User-agent: Google-Extended Disallow: /

# 検索・引用用クローラーは許可
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /

# それ以外は許可
User-agent: *
Allow: /

これは「モデルの学習には使われたくないが、AI検索での引用は歓迎したい」という立場の、ひとつの落としどころです。優先順位が違えば記述も変わるので、あくまで出発点として捉えてください。

遮断の限界を知っておく

最後に、遮断を選ぶ場合に必ず理解しておくべき前提があります。robots.txt による遮断は、完全ではありません。

robots.txt は、標準化されてはいるものの（RFC 9309）、あくまで「来ないでほしい」という”お願い”であって、法的な拘束力はありません。行儀のよいクローラーは従いますが、ルールを無視するボットも存在します。確実に止めたい場合は、robots.txt に加えて、サーバーやCDN（Cloudflareなど）のレベルで遮断する必要があります。前の記事で触れた、レンタルサーバーの「AIクローラー遮断機能」も、このサーバーレベルの遮断にあたります。

もう1点、ユーザーが「このページを読んで」とAIに指示して取得させる”ユーザー起点”のアクセス（ChatGPT-User など）は、通常のクロールとは別扱いになり、robots.txt が効かないことがあります。「robots.txt に書けば100%守られる」わけではない、という前提は押さえておく必要があります。

そして、学習用クローラーを遮断しても、すでに学習済みのデータには遡って効果がないという点も理解しておくべきです。遮断は「これから先、学習に使われないようにする」ものであって、過去の学習を取り消すものではありません。