Archivos del Martes, 2 de Mayo de 2006

Robots.txt

Martes, 2 de Mayo de 2006 a las

Hace días en la charla de Google comentaron acerca del fichero robots.txt. Yo conocía de su existencia y para qué se utilizaba, pero nunca había hecho uso de él porque no lo creía necesario.

Sin embargo un par de días después tuve un problemilla con el blog, y entre otras actuaciones ahora he recurrido a ese ficherito famoso.

robots.txt

Basicamente, el fichero robots.txt es un fichero de texto que obtienen los distintos crawlers antes de indexar tu web. En él indicamos qué páginas o directorios de tu sitio no queremos que sean indexados o a qué robot le damos acceso a tal directorio. Esto último parece ser que la gente lo utiliza para posicionarse en los distintos buscadores, por ejemplo, dejar que el bot de Altavista te rastree tal directorio pero no el Googlebot.

Este fichero tiene el siguiente aspecto:

User-Agent:
Disallow:

User-Agent hace referencia a los distintos bots de los buscadores. Aquí podemos encontrar al Googlebot, al Slurp de Inktomi o al MSNBot… y así una enorme lista de bots. Indica qué bot no queremos que indexe el contenido del campo Disallow

Si queremos prohibir que un bot específico nos indexe debemos indicar en el campo User-Agent el nombre de ese robot. Si por el contrario queremos denegar la indexación de un determinado directorio a todos los bots, podemos usar el * como wildcard.

Un par de apuntes: debemos escribir Disallow con dos eles, fallo común escribirla con una sola ele, debemos especificar una solo directorio por cada Disallow que aparezca en nuestro fichero, y no podemos usar comodines en este mismo campo, tan solo en el User-Agent. Si queremos denegar el acceso a una determinada carpeta, en vez de poner Disallow: /gallery/* debemos indicar Disallow: /gallery/.

Ni qué decir tiene que podemos escribir tantos User-Agent y Disallows como necesitemos, y hacer uso comentarios, siempre precedidos de una #.

Toda la información acerca de las especificaciones del Robots.txt está disponible en The Web Robots Pages.

¿Pero qué pasa si no queremos ser indexados por los buscadores y no podemos poner un robots.txt? Podemos jugar con el metatag robots, en la cabecera del documento HTML. No importa si lo escribimos en mayúsculas o minúsculas, ya que el bot no lo distingue.

<meta name="robots" content="index"> para ser indexado.

<meta name="robots" content="follow"> para que el buscador siga los enlaces.

<meta name="robots" content="noindex"> para que los robots no indexen el documento.

<meta name="robots" content="nofollow"> para que el robot no siga los enlaces.

Si vamos a usar más de un atributo podemos combinarlos entre ellas de 2 en 2, por ejemplo:


<meta name="robots" content="index, follow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="noindex, nofollow">

Otra opción que podemos utilizar, en el campo content es all y none. all se refiere a index, follow y none a noindex, nofollow.

De nuevo, mirando la guia de la etiqueta robots podemos encontrar toda la información necesaria así como la sintaxis:


content = all | none | directives
all = "ALL"
none = "NONE"
directives = directive ["," directives]
directive = index | follow
index = "INDEX" | "NOINDEX"
follow = "FOLLOW" | "NOFOLLOW"

Vale, ya tenemos todo preparado e indicado para que no se nos indexen ciertas páginas, pero imaginemos que tenemos unas páginas en la caché de cierto buscador y queremos que en un futuro no se guarde en la caché.

Según Google, debemos indicar en el campo content de la etiqueta robots el atributo noarchive:

<meta name="robots" content="noarchive">

Ya para terminar este artículo comentar que Google nos da la opción de eliminar contenidos de su índice, para lo cual simplemente debemos registrarnos en este servicio de Google (sí, no vale con tener cuenta de Google, tienes que registrarte para esto específicamente) y seguir las instrucciones que se nos da en su web. En mi caso, para borrar una web de la caché me daban 5 días mínimo de plazo para procesar mi petición, pero no ha transcurrido ni un día y ya la han eliminado:

2006-05-01 00:00:06 GMT :
removal of cached copy of http://direccion.a.eliminar
complete

Lamentablemente no he encontrado esa misma opción en otros buscadores como Yahoo o MSN. Ahí se demuestra quien está al mando de las búsquedas en la red.

Pues nada, cuidadín con lo que publicamos y a seguir adelante :-)

Archivado en Web
por elsamu