El archivo robots.txt es importante desde el punto de vista de WordPress y de cualquier otro Sitio Web en general. Su importancia reside en que es el primer contacto entre tu blog y los buscadores, un pequeño archivo que indica a Google y otros cómo tiene que indexar la información de tu blog para que aparezca en las páginas de resultados … así que es algo sobre lo que deberías preocuparte, a pesar de que es un archivo que normalmente no se ve.
Los motores de búsqueda como Google o Bing utilizan programas robots llamados spiders (arañas) que van recorriendo toda la red en busca de sitios web y explorando todas las páginas. El archivo robots.txt les dice a estos programas automáticos cómo deben encontrar las páginas en tu blog y si hay alguna sección que esté vetada.
El archivo robots.txt se encuentra normalmente localizado justo en el directorio principal de tu Sitio Web y es un simple archivo de texto, no tiene formato ni códigos extra, solo caracteres. Eso significa que puedes utilizar un editor de texto normal y corriente, pero no un editor de texto avanzado del tipo Word o similares. Si optas por ésto último debes recordar que cuando grabes en disco el archivo debes hacerlo en texto plano, sin ningún tipo de formato.
La estructura de un archivo robots.txt básica optimizada para WordPress puede ser esta:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /comments Disallow: /author Disallow: /category Disallow: /feed/ Disallow: /trackback/ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.php$
Si te fijas en la primera línea: User-agent:* estamos indicando que todo lo que viene a continuación es válido para cualquier buscador (*).
Todas las líneas que aparecen a continuación comienzan con la palabra ‘Disallow’, que significa ‘No permitir’. Lo que le estamos diciendo a los buscadores es que no deben indexar lo que viene a continuación … como puedes ver las carpetas de wp-admin y similares de nuestra instalación de WordPress. Aparte el feed y los trackballs, esto puede ser importante para evitar que google considere que existe contenido duplicado y archivos de estilo CSS, JavaScript y demás.
Si existe alguna otra carpeta o fichero que quieres que quede fuera de los buscadores solo tienes que añadir más líneas. Si quieres permitir que google rastree las páginas de categorías (cateogory) solo tienes que eliminar la línea correspondiente en el ejemplo anterior.
Google Images
Google Images tiene su propio robot para indexar las imágenes que aparecen en páginas web a lo largo y ancho de Internet. Puedes definir si quieres que las imágenes de tu blog aparezcan en Google Images de esta forma:
User-agent: Googlebot-Image
Allow: /*
Con estas dos líneas permites a Google Images el acceso a todas las imágenes de tu blog. Si quieres que no tenga acceso solo cambia ‘Allow’ por ‘Disallow’:
User-agent: Googlebot-Image
Disallow: /*
Si quieres no permitir solo algunas imágenes, por ejemplo el logotipo o cualquier otra:
User-agent: Googlebot-Image
Disallow: /logo.jpg
* Solo modifica logo.jpg por el nombre de la imagen que quieras.
Adsense
Si quieres decirle algo al robot de AdSense puedes hacerlo así:
User-agent: Mediapartners-Google
Allow: /*
Usando Plugins para crear un robots.txt para WordPress
Como siempre, una ventaja de WordPress es que nos permite utilizar plugins para realizar muchas tareas … en el caso de la creación de un robots.txt también. Algunos plugins que pueden evitarte hacer el trabajo a mano en el caso de que lo prefieras son estos:
KB Robots.txt: Este plugin te permite crear un archivo robots.txt desde el mismo panel de control de WordPress, sin tener que editar archivos de ningún tipo. No parece funcionar en blogs instalados en carpetas.
PC Robots.txt: Crea un fichero robots.txt virtual en el sistema. Puedes editar las opciones desde la página del plugin en tu instalación de WordPress.
iRobots.txt SEO: Este plugin pretende estar optimizado y es bastante configurable. Igual que los anteriores te permite configurar y crear un robots.txt de forma automática y virtual.
¿Cuál es mejor de los tres? obviamente, cada uno tiene su criterio, lo ideal es que los pruebes y elijas el que mejor vaya con tu blog y el que veas más adecuado.
En cualquier caso, tienes la opción de crear el archivo por ti mismo de forma manual y configurarlo exactamente como te interese.
¡suerte!