Mantente al día en tendencias tecnológicas con IA, blockchain y Web3.

Comprender y usar Robots.txt: Guía completa

Escrito por Anders Lange | 14-sep-2024 21:00:00

 

Robots.txt es un archivo importante que controla cómo los rastreadores de los motores de búsqueda interactúan con su sitio web. Este archivo se encuentra en el directorio raíz de su sitio web e indica a los robots a qué contenido pueden acceder y a cuál no, lo que afecta a la indexación y clasificación de su sitio web. A continuación le ofrecemos una guía completa para comprender y utilizar robots.txt de forma eficaz.

¿Qué es Robots.txt?

Robots.txt es un archivo de texto que se adhiere al Protocolo de Exclusión de Robots (REP). Contiene instrucciones para los rastreadores web sobre qué partes de su sitio web no deben rastrear o indexar. Este archivo es importante para controlar el acceso de los robots y proteger el contenido sensible.

Configuración del archivo Robots.txt

Ubicación del archivo

Coloque el archivo robots.txt en el directorio raíz de su sitio web (por ejemplo, https://www. ejemplo.com/robots.txt). Esta ubicación garantiza que los robots de los motores de búsqueda puedan encontrar y leer fácilmente el archivo.

Estructura básica

El archivo contiene directivas que indican a los robots qué áreas de su sitio web no están autorizadas. Un archivo robots.txt sencillo podría tener este aspecto

Agente de usuario: *
No permitir: /privado/
Permitir: /público/

Aquí User-agent especifica a qué bot se aplican las reglas (por ejemplo, * para todos los bots), Disallow bloquea el acceso a las rutas especificadas y Allow permite el acceso.

Directivas clave

Agente de usuario

La directiva user-agent se dirige a motores de búsqueda o bots específicos. Por ejemplo

Agente de usuario: Googlebot

Esta regla sólo se aplica al rastreador de Google. Para dirigirse a todos los robots, utilice *:

Agente de usuario: *

Esto bloquea el acceso al directorio /private/.

Permitir

La directiva Allow se utiliza para permitir el acceso a rutas específicas, incluso si otras reglas más amplias sugieren lo contrario:

Permitir: /public/

Permite a los robots acceder al directorio /public/.

Mapa del sitio

Inserte un enlace a su mapa del sitio para facilitar a los motores de búsqueda la búsqueda e indexación de sus páginas:

Mapa del sitio: https://www.example.com/sitemap.xml

Prácticas recomendadas para Robots.txt

Evite bloquear contenido importante

Asegúrese de no bloquear accidentalmente contenido importante, como su página de inicio o páginas de destino importantes, ya que esto puede afectar negativamente a la optimización para motores de búsqueda.

Compruebe su archivo robots.txt

Utilice herramientas como el comprobador de robots.txt de Google Search Console para comprobar si el archivo contiene errores y asegurarse de que está configurado correctamente antes de activarlo.

Utilice metaetiquetas para un control más preciso

Para obtener un control más detallado de las páginas individuales, puede utilizar metaetiquetas para robots además del archivo robots.txt. Las metaetiquetas proporcionan instrucciones detalladas para cada página.

Supervise la actividad de rastreo

Compruebe regularmente los datos de rastreo y los informes de indexación en herramientas como Google Search Console. Esto le permitirá determinar si se está bloqueando contenido importante o si se producen errores de rastreo.

Mantenga el archivo actualizado

Actualice su archivo robots.txt cuando cambie su sitio web. Añada nuevas reglas o ajuste las existentes para reflejar las actualizaciones de la estructura de su sitio web.

No confíe en la seguridad de robots.txt

Robots.txt puede ocultar contenido de los motores de búsqueda, pero no debe utilizarse para proteger datos confidenciales. Utilice medidas de seguridad adecuadas para este fin.

Ejemplos habituales de robots.txt

Bloquear todo el contenido

Agente de usuario: *
No permitir: /

Bloquea todos los robots para que no rastreen una parte del sitio web.

Permitir todo excepto rutas específicas



Agente de usuario:*No permitir:/admin/No permitir: /login/

Permite todos los bots, pero bloquea el acceso a /admin/ y /login/.

Bloquear determinados bots

Agente de usuario: Bingbot
No permitir: /no-bing/

Sólo bloquea el acceso al directorio /no-bing/ al crawler Bing.

Conclusión

El archivo Robots.txt es una herramienta importante para controlar cómo interactúan los motores de búsqueda con su sitio web. Si sabe cómo configurar y utilizar este archivo de forma eficaz, podrá controlar el acceso de los rastreadores, proteger el contenido confidencial y optimizar la indexación de su sitio web. Revise y actualice su archivo robots.txt con regularidad para adaptarlo a su estrategia SEO y a los cambios realizados en su sitio web.