Generador de robots.txt | Editor Visual para Crear Reglas de Rastreo
Crea un robots.txt apilando reglas Allow/Disallow por user-agent, con línea de sitemap y crawl-delay opcionales. Las plantillas de un clic cubren permitir todo, bloquear todo, un esquema estándar y el bloqueo de bots de IA, para que obtengas la sintaxis correcta sin memorizar el formato.
💡 Sobre esta herramienta
El archivo robots.txt vive en la raíz del sitio e indica a los rastreadores qué rutas pueden visitar. La sintaxis parece sencilla, pero los detalles importan: las reglas se agrupan por User-agent, la prioridad entre Allow y Disallow depende de la longitud de la coincidencia, y una barra final de más o de menos cambia lo que se bloquea. Editarlo a mano es donde aparecen casi todos los errores.
Este editor reconstruye la salida cada vez que cambias una regla. Las reglas que comparten user-agent se agrupan automáticamente, y la línea Sitemap: se añade al final. La plantilla "Estándar (recomendado)" bloquea las rutas habituales /admin/, /private/ y /tmp/; "Bloquear bots de IA" añade GPTBot, ChatGPT-User, CCBot y Google-Extended de una sola vez. Copia el texto del cuadro de salida y guárdalo como robots.txt en la raíz de tu dominio.
🧐 Preguntas Frecuentes
¿Bloquear una página en robots.txt la quita de Google?
No. robots.txt controla el rastreo, no la indexación. Una URL bloqueada todavía puede aparecer en resultados si otras páginas la enlazan, aunque sin descripción. Para mantenerla fuera de los resultados usa una etiqueta meta noindex o protección con contraseña.
¿Qué significa un Disallow vacío?
Disallow: sin nada detrás significa "no bloquear nada", es decir, permitir todo. Eso es lo que emite la plantilla Permitir todo. En cambio, Disallow: / indica a los rastreadores que no entren en todo el sitio.
Allow y Disallow coinciden con la misma URL, ¿cuál gana?
Los grandes buscadores usan la regla coincidente más específica (la más larga). Así, Disallow: /carpeta/ junto con Allow: /carpeta/publico/ bloquea la carpeta pero permite todo lo que hay bajo /carpeta/publico/.
¿Crawl-delay funciona con Googlebot?
Google ignora la línea Crawl-delay; la frecuencia de rastreo se ajusta en Search Console. Algunos rastreadores como Bing sí la respetan, así que conserva un valor si te diriges a ellos.
¿Puedo escribir reglas para varios bots?
Sí. Agrega una regla por cada nombre de user-agent y cada uno será su propio grupo en la salida. Usa * para una regla que aplique a todos los rastreadores.
📚 Cómo funciona robots.txt por dentro
La convención robots.txt —formalmente el Protocolo de Exclusión de Robots— fue un estándar de facto durante décadas antes de quedar documentada como RFC 9309. Un detalle que confunde a muchos: el archivo solo funciona desde la raíz del host (https://example.com/robots.txt); colocarlo en una subcarpeta no surte efecto.
Conviene entender la lógica de coincidencia para aprenderla bien: cuando varias reglas encajan, gana la ruta más específica, y el comodín * dentro de una ruta permite patrones como /*.pdf$. En la era de la IA, muchos sitios añaden user-agents como GPTBot, CCBot o Google-Extended para excluir su contenido del entrenamiento de modelos, aunque robots.txt sigue siendo una petición y no un candado: un bot puede ignorarla.