Archivo Robots.txt
El archivo Robots.txt es uno de los elementos más famosos dentro del ámbito del SEO. Más concretamente en la optimización del presupuesto de rastreo o «crawl budget». Este archivo recomienda a las arañas de Google, cuáles son los contenidos que debe indexar y cuáles no.
¿Qué es el archivo Robots.txt?
La definición oficial de Google para este archivo es:
«Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web (como los rastreadores móviles o los rastreadores de ordenador)».
Los robots son muy usados por los motores de búsqueda para organizar y categorizar los contenidos de un sitio web.
Este archivo de texto son una serie de directrices que se especifican a los bots de Google cuando estos acceden a una página web. De esta forma puedes gestionar cuáles son los contenidos de tu web que quieres que indexe Google en su índice.
Como explica en la definición, este archivo debe estar alojado en la propia raíz de tu sitio web, es decir, colgando directamente del dominio. De esta forma, cuando los bots de Google quieran entrar a tu página web, lo primero que encontrarán será este archivo que les indicará qué contenidos revisar y cuáles no.
En este sentido, el robots.txt actúa como un «portero» cuando llegas a una sala. Verifica tu entrada y te indica si puedes pasar y dónde puedes pasar.
¿Cómo funciona el Robots.txt?
Foto Fuente Freepik
El robots.txt es un simple archivo de texto plano, como el que creas con un editor de texto normal. Con ello, debe seguir un protocolo estándar de exclusión de robots.
Aún así, estas directrices de las que hablamos para indexar un contenido o no, son más bien recomendaciones que, por lo general, los bots rastreadores de Google suelen atender, sin embargo otros buscadores como yandex o bing, no tienen por qué hacerlo.
Si bien es cierto que el archivo robots txt es común, es bueno considerar que cada motor de búsqueda es diferente.
El archivo robots.txt contiene los estándares internacionales sin embargo, es necesario saber la sintaxis de cada uno de ellos, en este caso no solo de Google sino también de Bing, Yahoo u otro motor de búsqueda.
Las «directrices o recomendaciones» están escritas en el archivo y cumplen con normas de ejecución concretas, es decir, no puedes escribir las directrices como quieras. Estas funcionan mediante comandos reconocidos por el motor de búsqueda y con expresiones regulares para especificar los directorios o rangos para las indicaciones.
Principalmente Google diferencia entre dos tipos de bots:
– User-Agent: Se emplea para buscar y dar instrucciones, para usar este bot se escribe el comando user-agent:*.
– Googlebots: estos son los bots más comunes de Google, existen varios, como el bot de imágenes, mobile (para móviles)…
¿Cómo crear el archivo robots.txt correctamente?
Lo primero ante todo, es crear un nuevo documento de texto sin formato.
Para realizar las directrices en el robots.txt de forma correcta, se emplean comandos para dictar la orden y expresiones regulares para determinar el acceso se quiere dar a los bots de Google.
El primer bot que se necesita declarar es el user-agent con el «*» para indicar que el usuario administrador pueda acceder a todos los contenidos, directorios etc. Quedaría así:
user-agent:*
Después hay que especificar los lugares donde no quieres que entren los bots de google. Para ello existen principalmente 2 comandos, «Allow» y «Disallow».
Foto Fuente Freepik
– Comando Allow en robots.txt:
Es el comando de «permitir», es decir, el comando «allow», indica al bot de Google que puede analizar e indexar los contenidos que especifiques para ese comando.
por ejemplo:
allow:/ «este comando indica a los bots de google que pueden tener acceso a todo, puesto que la «/» indica «todos los directorios».
Si, sugerimos «allow: /imagenes», estarás indicando que los bots pueden acceder a los directorios y subdirectorios que cuelguen de «imágenes».
De forma contraria, la directriz «disallow» recomienda a los bots de Google que no accedan o no «hagan caso» a esas direcciones específicas.
EJEMPLOS DE USO PARA EL ROBOTS.TXT
Casos más frecuentes para el robots.txt
Como podrás imaginar, en robots.txt no consiste en denegar el acceso a todo o activarlo, este archivo funciona precisamente para personalizar el acceso de los bots. Te dejamos las situaciones más usuales de configuración de este archivo.
1- Negar todo el acceso a los bots de Google
User-agent: *
Disallow: /
Ahí, el comando «disallow» niega el acceso a todos los bots, y la barra «/» a todos los archivos y directorios del directorio raíz.
2 – Permitir el acceso de un solo bot
User-agent: nombredelbot#
Disallow:
User-agent: *
Disallow: /
De esta forma, solo un bot (el que especifiques) podrá acceder a tus contenidos.
3 – Denegar el acceso a un bot específico a un directorio específico
User-agent: nombredelbot#
Disallow: /private/
En este caso, el bot que especifiques no entrará al directorio private ni a sus subcarpetas
4 – Denegar el acceso de todos los bots a un directorio concreto
User-agent: *
Disallow: /directory/file.html
En este caso, indicamos a todos los bots de Google, no entrar al archivo concreto «/directory/file.html»
5 – Denegar acceso a todas las imágenes de tu web (desindexar las imágenes en Google imágenes)
User-agent: Googlebot-Image
Disallow: /
De esta forma, ordenamos al bot de google imágenes que no acceda a nada, con lo que acabará por no indexar ninguna imágen en «Google imágenes»
6 – Comentar un archivo robots.txt
En caso de que necesites especificar qué directrices estás implementando en un robots.txt, puede usar los comentarios. Estos se crean introduciendo el símbolo «#» antes del propio comentario o al final de un directorio.
De esta forma, el comentario no formará parte de las directrices o ejecuciones.
User-agent: * # todos los bots
Disallow: / # impedir su entrada
Con este ejemplo, «#todos los bots» e «#impedir su entrada», no forman parte del código de instrucciones, son solo mera información.
COMANDOS ÚTILES EN ROBOTS.TXT
– Declarar la dirección del Sitemap:
«url donde se encuentra tu sitemap.xml»
Es muy recomendable indicar en el robots.txt cual es la dirección de tu sitemaps. Con ello, ayudas a que google pueda reconocer toda la estructura de tu web más fácilmente y en primera instancia, antes de que entre realmente a tu sitio web.
– Gestionar el Crawl Budget con la directriz Crawl Delay
Este comando indica al bot de Google cuánto tiempo (en segundos) debe permanecer a la espera en la carga entre página y página. Es un comando muy recurrido en SEO para optimizar la velocidad de carga del servidor.
Ejemplo de robots txt
Este es un ejemplo de robots.txt real. En él se ve cómo están especificados los directorios donde se deniega el acceso a los bots de Google, y al final, se especifica cuál es la dirección del mapa del sitio (sitemaps).
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://tudominio.com/sitemap.xml
Disallow:
/*.pdf$
/*.docx$
/area-privada/
/tutorial/*
/privado*
/blog/page/
/oxy_testimonial/
/oxy_swatch/
/equipo/
/author/
/portfolio/
/registro/
/login/
/our-services/
/oxy_portfolio_features/
/woocommerce-tienda-online-wordpress/top-10-ecommerce-world/
/woocommerce-tienda-online-wordpress/producto-variable-woocommerce*/
/woocommerce-tienda-online-wordpress/informacion-producto-woocommerce*/
/woocommerce-tienda-online-wordpress/atributos-woocommerce/
/woocommerce-tienda-online-wordpress/ajustes-woocommerce-envio*/
/woocommerce-tienda-online-wordpress/ajustes*/
/velocidad-carga-rapida-wordpress/p3*/
/seguridad-y-proteger-wordpress/permisos-carpeta-wordpress/
/guia-tutorial-facebook-ads-anuncios/fb*/
/aumentar-ventas-tienda-online/redes-sociales/
Robots.txt
Ya conoces qué es el robots.txt y en qué casos se suele emplear más, ahora te toca a ti crearlo para tu web. Si necesitas ayuda tanto para crear tu robots.txt como para cualquier otra necesidad en marketing digital, en posición web estamos encantados de ayudarte. Contacta con nosotros y Podremos asesorarte sin compromiso y ayudarte a crecer con tu negocio online.
Somos agencia de marketing digital y Google Partner, estarás en buenas manos.