Robots.txt es un archivo importante que controla cómo los rastreadores de los motores de búsqueda interactúan con su sitio web. Este archivo se encuentra en el directorio raíz de su sitio web e indica a los robots a qué contenido pueden acceder y a cuál no, lo que afecta a la indexación y clasificación de su sitio web. A continuación le ofrecemos una guía completa para comprender y utilizar robots.txt de forma eficaz.
Robots.txt es un archivo de texto que se adhiere al Protocolo de Exclusión de Robots (REP). Contiene instrucciones para los rastreadores web sobre qué partes de su sitio web no deben rastrear o indexar. Este archivo es importante para controlar el acceso de los robots y proteger el contenido sensible.
Coloque el archivo robots.txt en el directorio raíz de su sitio web (por ejemplo, https://www. ejemplo.com/robots.txt)
. Esta ubicación garantiza que los robots de los motores de búsqueda puedan encontrar y leer fácilmente el archivo.
El archivo contiene directivas que indican a los robots qué áreas de su sitio web no están autorizadas. Un archivo robots.txt sencillo podría tener este aspecto
Agente de usuario: *
No permitir: /privado/
Permitir: /público/
Aquí User-agent
especifica a qué bot se aplican las reglas (por ejemplo, *
para todos los bots), Disallow
bloquea el acceso a las rutas especificadas y Allow
permite el acceso.
La directiva
user-agent se dirige a motores de búsqueda o bots específicos. Por ejemplo
Agente de usuario: Googlebot
Esta regla sólo se aplica al rastreador de Google. Para dirigirse a todos los robots, utilice *
:
Agente de usuario: *
Esto bloquea el acceso al directorio /private/
.
La directiva Allow
se utiliza para permitir el acceso a rutas específicas, incluso si otras reglas más amplias sugieren lo contrario:
Permitir: /public/
Permite a los robots acceder al directorio /public/
.
Inserte un enlace a su mapa del sitio para facilitar a los motores de búsqueda la búsqueda e indexación de sus páginas:
Mapa del sitio: https://www.example.com/sitemap.xml
Asegúrese de no bloquear accidentalmente contenido importante, como su página de inicio o páginas de destino importantes, ya que esto puede afectar negativamente a la optimización para motores de búsqueda.
Utilice herramientas como el comprobador de robots.txt de Google Search Console para comprobar si el archivo contiene errores y asegurarse de que está configurado correctamente antes de activarlo.
Para obtener un control más detallado de las páginas individuales, puede utilizar metaetiquetas para robots además del archivo robots.txt. Las metaetiquetas proporcionan instrucciones detalladas para cada página.
Compruebe regularmente los datos de rastreo y los informes de indexación en herramientas como Google Search Console. Esto le permitirá determinar si se está bloqueando contenido importante o si se producen errores de rastreo.
Actualice su archivo robots.txt cuando cambie su sitio web. Añada nuevas reglas o ajuste las existentes para reflejar las actualizaciones de la estructura de su sitio web.
Robots.txt puede ocultar contenido de los motores de búsqueda, pero no debe utilizarse para proteger datos confidenciales. Utilice medidas de seguridad adecuadas para este fin.
Agente de usuario: *
No permitir: /
Bloquea todos los robots para que no rastreen una parte del sitio web.
Agente de usuario:*No permitir:/admin/No permitir: /login/
Permite todos los bots, pero bloquea el acceso a /admin/
y /login/
.
Agente de usuario: Bingbot
No permitir: /no-bing/
Sólo bloquea el acceso al directorio /no-bing/
al crawler Bing.
El archivo Robots.txt es una herramienta importante para controlar cómo interactúan los motores de búsqueda con su sitio web. Si sabe cómo configurar y utilizar este archivo de forma eficaz, podrá controlar el acceso de los rastreadores, proteger el contenido confidencial y optimizar la indexación de su sitio web. Revise y actualice su archivo robots.txt con regularidad para adaptarlo a su estrategia SEO y a los cambios realizados en su sitio web.