El
archivo robots.txt.
El
archivo robots.txt
Muchas veces el problema no es sólo conseguir que
nuestras páginas aparezcan indexadas en buscadores,
sino que algunas de ellas no lo sean. Para ello existe
un protocolo alrededor del archivo robots.txt, que se
coloca en la carpeta raiz de nuestro sitio web. El archivo
se edita con cualquier programa de bloc de notas como
el Notepad y se compone de las siguientes líneas:
User-agent:
Disallow:
Tras "User-agent:" hemos de
colocar el código del robot al que queramos prohibir
la lectura de determinados documentos o directorios. El
de Google por ejemplo es "googlebot" y el de
Altavista "Scooter". Si queremos que la prohibición
se haga extensiva a cualquier robot deberemos poner un
asterisco.
Existe
un listado completo de robots con sus especificaciones
en
http://www.robotstxt.org/wc/active/all.txt
Tras "Disallow" debemos especificar los directorios
o documentos que queremos ocultar a la curiosa mirada
de los robots seguidos del símbolo "/"
Así si queremos que ningún robot husmee
en nuestro dominio el archivo debería configurarse
como:
User-agent: *
Disallow: /
Por el contrario, para invitarles a un acceso completo:
User-agent: *
Disallow:
lo
que sería equivalente a crear robots.txt como archivo
en blanco
Si quisiéramos excluirles de los directorios "secreto"
y "confidencial"
User-agent: *
Disallow: /secreto/
Disallow: /confidencial/
Si queremos vetar a un robot en concreto (Google en este
caso):
User-agent: googlebot
Disallow: /
O por el contrario, invitar exclusivamente a uno (Web
Crawler en este caso):
User-agent: WebCrawler
Disallow:
Finalmente,
si no quisiéramos que entrasen o indexaran los
archivos PDF
User-agent: *
Disallow: /*.pdf/
Durante un tiempo pareció que se impondría
la metatag "robots" para cumplir las funciones
del protocolo de exclusión. Sin embargo, hoy casi
ningún robot las acepta mientras que el archivo
robots.txt está completamente establecido y aceptado.
En cualquier caso, aquí van unas directrices generales
sobre su sintaxis:
La metatag de robots contiene un par de instrucciones
separadas por comas. Estas instrucciones son "index",
que invita al robot a analizar la página ("noindex"
si queremos prohibírselo) y "follow"
que le invita a seguir los enlaces que encuentre en ella
(o "nofollow" que se lo prohibe).
Los
valores ALL y NONE pueden usarse para dar todos los permisos
o denegarlos de ese modo <meta name="robots"
content="index,follow"> sería equivalente
a <meta name="robots" content="all">
y por el contrario <meta name="robots" content="noindex,nofollow">
produciría los mismos efectos que <meta name="robots"
content="none">
|