Robots o motores de búsqueda

12 de febrero de 2006 - 13:02 - Buscadores

Robots o motores de búsqueda

La búsqueda de información en Internet es muy complicada por la ingente cantidad de información que viaja a través de la red. Encontrar algo de forma rápida es una tarea ardua y difícil. Por eso necesitamos mecanismos o dispositivos que nos ayuden en nuestra búsqueda a modo de páginas amarillas. Estos mecanismos son los buscadores o motores de búsqueda. Son aplicaciones informáticas que rastrean la Web catalogando la información y clasificándola para luego ofrecerla a los navegantes.

Para realizar la búsqueda debemos contactar a través de la Web con estos buscadores.

Los buscadores funcionan:

Mediante programas que buscan en bases de datos que se mantienen de forma automática por los denominados robots. En este tipo de búsqueda basta con introducir el término sobre el que deseamos buscar la información
A través de índices que catalogan la información por temas.

El robot o motor de búsqueda aparece en la Red entre 1993 y 1994. Estos motores de búsqueda se utilizan con distintos propósitos: indexación, comprobación de enlaces, monitorización de nuevas páginas web, mirroring, etc. Las tareas que realizan se dividen en tres categorías principales (Koster 1994):

Tareas estadísticas. El robot puede, por ejemplo, contar el número de páginas web de los servidores de la Red, el número de páginas por servidor, etc.
Tareas de mantenimiento. Detecta la presencia de lugares muertos, es decir, aquellos que no aparecen en ningún sitio porque han desaparecido o han cambiado de dirección (o URL).
Tareas de transferencia y servicio público. Copian información de un sitio a otro, además de servir al usuario en la búsqueda de información.

Una de las funciones más interesantes de los robots es la recuperación de información, examinando de forma automática la Web. El robot puede atravesar de forma automática la estructura del hipertexto del Web extrayendo recurrentemente todos los documentos que estén referenciados. El término “recurrente” no limita la definición a ningún algoritmo específico; incluso si un robot aplica algo de heurística a la selección y orden de los documentos a visitar y delimita mucho las peticiones en el tiempo, sigue siendo un robot. Los browsers normales no son robots, porque funcionan por acción de un ser humano, y no extraen automáticamente los documentos referidos (con excepción de imágenes de línea). A los robots a veces se les llama Web Wanderers, Web Crawlers o Spiders (arañas). Estos nombres dan la impresión de que el software tiene vida propia; esto no es exactamente así, un robot simplemente visita lugares solicitando documentos. En numerosas ocasiones se utiliza la palabra agente, relacionado con los robots. La palabra “agente” tiene muchos significados en estos días. Algunos de ellos son:

Agentes autónomos. Son programas que viajan a través de la Red, decidiendo por sí mismos cuándo moverse y qué hacer.
Agentes inteligentes. Son programas que ayudan a los usuarios a realizar determinadas acciones, eligiendo productos o guiando al usuario a rellenar formularios correctamente o para encontrar cosas. Por lo general, tienen poco que hacer en el entramado de la Red.
Agentes de usuario. Es un nombre técnico para los programas que realizan tareas de red para un usuario, por ejemplo, agentes de usuario para Web como Netscape, Internet Explorer, agentes de usuario para e-mail como Qualcomn Eudora, etc.

Algunos robots perjudican a la Web colapsando las redes y los servidores. Esto es debido a los errores de configuración cometidos por los diseñadores de los robots. Aunque hemos de comentar que la mayoría de los robots están bien diseñados por profesionales y no causan problemas.

Los robots necesitan una atención especial y un mantenimiento adecuado. Cada uno de ellos tiene sus propias estrategias de búsqueda, aunque responden a algunas pautas comunes. En general empiezan por un listado “histórico” de URLs, especialmente de documentos que tienen enlaces a muchas webs, como listas de servidores, páginas de novedades y las webs más populares de Internet. La mayoría de los servicios de indexación permiten mandar URLs manualmente, que entran a formar parte de una cola para que el robot las visite. A veces, se usan otras fuentes de URLs: grupos de USENET, archivos de listas de distribución públicos, etc. Una vez dados estos puntos de comienzo, un robot selecciona las URLs a visitar e indexar y tomarlas como fuentes para otras URLs. Si un robot que indexa tiene constancia de la existencia de un documento, decide indexarlo y añadirlo a su base de datos. Cómo lo haga, depende del robot: algunos, indexan los títulos HTML o los primeros párrafos, o miran todo el código HTML e indexan todas las palabras, con un peso determinado que depende de las construcciones HTML, etc. Algunos tienen en cuenta los META tags u otras etiquetas ocultas especiales.

Los robots encuentran información variada (por URL, título, palabras claves, etc.). Con la información encontrada, construyen bases de datos, actualizando los “lugares muertos”. En la recuperación de la información, determina la calidad y la cantidad de la información que almacena en sus bases de datos. Otros robots buscan en las bases de datos generadas por otras utilidades de búsqueda. Uno de estos tipos de robots es Knowbot (Knowledge robot), que busca de forma automática la información en función de los criterios del usuario y la envía por correo electrónico.

Podemos encontrar información relativa a los motores de búsqueda en la web http://www.robotstxt.org/wc/active.html

Robots o motores de búsqueda

Otros artículos en este blog:

0 comentarios