robots.txt ジェネレーター|ビジュアルエディタでクロール設定を生成
User-agent ごとに Allow / Disallow ルールを組み立て、サイトマップ参照とクロール遅延を付けた robots.txt を作るツール。全許可・全ブロック・標準・AIボット遮断のプリセットを用意し、構文を覚えていなくても正しい書式の robots.txt が手に入る。
💡 このツールについて
robots.txt は、検索エンジンやクローラーに「どのパスを巡回してよいか」を伝えるサイトルートの設定ファイル。書式自体は単純だが、User-agent のグループ分け、Disallow と Allow の優先順位、末尾スラッシュの有無で挙動が変わるため、手書きでは取りこぼしや誤記が起きやすい。
このツールは、ルールを画面で組み立てるたびに右側の出力が更新される構成。User-agent が同じルールは自動で 1 グループにまとめ、Sitemap: 行は末尾にまとめて出力する。「標準(推奨)」プリセットは /admin/ /private/ /tmp/ を塞ぐ一般的な構成、「AIボットをブロック」は GPTBot・ChatGPT-User・CCBot・Google-Extended を遮断する構成を一度に展開する。出力欄のテキストをコピーし、サイトのルートに robots.txt として置けばよい。
🧐 よくある質問
Q. Disallow を空にするとどうなりますか?
A. Disallow: の後ろを空にすると「何も禁止しない=全許可」を意味する。「全て許可」プリセットがこの形を出力する。逆に Disallow: / はサイト全体の巡回を拒否する指定になる。
Q. robots.txt でブロックすればページは検索結果から消えますか?
A. robots.txt はクロール(巡回)の可否を伝えるもので、インデックス削除を保証するものではない。外部リンク経由で URL 自体が結果に載ることはある。確実に検索結果から外したい場合は noindex メタタグや認証で対処する。
Q. Allow と Disallow が両方マッチしたらどちらが優先されますか?
A. 主要な検索エンジンは「より長く(具体的に)一致するパス」を優先する。たとえば /folder/ を Disallow しつつ /folder/public/ を Allow すると、/folder/public/ 配下だけが許可される。
Q. Crawl-delay は Google に効きますか? A. Crawl-delay は一部のクローラーが解釈する指定で、Google はこの行を無視する(巡回頻度は Search Console 側で調整する)。Bing など対応するクローラー向けに残す値と考えるとよい。
Q. User-agent を複数指定したいときは?
A. ルールごとに User-agent 名を変えて追加すれば、それぞれ別グループとして出力される。全クローラー共通の指定には * を使う。
📚 robots.txt の豆知識
robots.txt は「Robots Exclusion Protocol(ロボット排除プロトコル)」と呼ばれる取り決めで、長年デファクト標準として使われたのち RFC 9309 として正式に文書化された。ファイルは必ずサイトのルート直下(https://example.com/robots.txt)に置く必要があり、サブディレクトリに置いても読まれない。
近年は生成 AI のクローラー対策として、GPTBot や CCBot、検索とAI学習を分ける Google-Extended といった User-agent 名を robots.txt に書いて学習用クロールを拒否する運用が広がっている。ただし robots.txt はあくまで「お願い」であり、規約を守らないボットには技術的な強制力がない点は押さえておきたい。