Googlebot,
robot de Google
Los
robots, crawlers o spiders son pequeños programas mandados
por Google que investigan, analizan y escanean millones de páginas
en la red, y van generalmente de una a la otra, vinculándose
mediante los enlaces que las páginas les ofrecen.
¿Esto que significa?
Mas que nada, que van por la red buscando documentos, una vez
encontrado uno, continúan su búsqueda e indexación
con los documentos a los que hace referencia el primero que
encontraron.. ¿Para qué se usan?
•Se
utilizan para Indexar.
•Para la validación HTML.
•La validación de links.
•El monitoreo de novedades o “que agregaron nuevo?”.
•Y para el mirroring.
¿Son
malos estos pequeños bichos?
En
realidad no, pero hay que tener en cuenta que estos robots son
programados por humanos, y los humanos por lo general cometemos
muchos errores. Por eso al realizar la programación la
gente a cargo de los robots debe ser muy cuidadoso y los autores
de los robots tienen que programarlos de modo que sea difícil
que la gente cometa errores con consecuencias graves. De todas
formas, en general, la mayoría de robots esta diseñado
bastante responsable e inteligentemente, no causan grandes problemas
y proveen de un servicio bastante valioso que de otra forma
sería demasiado tosco. Por lo que decimos, que los robots
no son malos ni buenos, solo hay que prestarles la debida atención
que requieren.
¿Por
dónde empiezan?
Suelen comenzar por una base de datos fija de direcciones y
de ahí parten expandiéndose basándose en
las referencias. Algunos buscadores te ofrecen una sección
en la que puedes mandarles tu página para que ellos manden
un pequeño robot a indexarla y agregarla a su base de
datos.
¿Cómo dirigir a los robots y ordenarles
que indexen o no?
Mediante ciertos archivos uno puede restringir o no, la actividad
de los robots, ya que uno como administrador de un sitio puede
a veces querer que un robot haga que aparezcamos en los buscadores,
o tal vez no, o a veces preferimos que cierto contenido no sea
indexado o que por ejemplo sólo ciertos buscadores nos
indexen, las variantes van de acuerdo a lo que nosotros queramos
y son posibilidades bastante grandes. Es entonces cuando entra
en juego el famoso archivo robots.exe. Este archivo deberá
ser colocado en la raíz de nuestro servidor ya que al
momento que un robot llega a nuestro servidor, por lo general
busca este archivo para saber que restricciones le hemos dado
y como debe actuar. Digamos que nosotros tenemos a nuestra disposición
las ordenes pertinentes para dejarlo actuar libremente o no,
dependerá de lo que nosotros le dejemos agendado para
que cuando el robot entre sepa exactamente que hacer.
|