Blogia
Internet como recurso educativo

Buscadores

La pantalla indiscreta

La pantalla indiscreta

   Se trata de una ventana casi sin límites. La reciente e innovadora herramienta "Street View" de Google Maps nos muestra la foto de una calle al pinchar sobre ella, podemos recorrer la calle y girar los edificio

   Algunas voces se han quejado porque lo ven como una amenaza a la intimidad de las personas. Aunque otros usuarios están encantados con las vistas que ofrece esta herramienta. El entusiasmo por este sistema ha llegado incluso a algunos medios digitales, que retan a los internautas a hacer de mirones po estas ciudades. Así, animan a enviar las mejores o más curiosas imágenes del servicio a sus portales digitales. Luego, y se sabe, las publican, se votan y... a circular por el ciberespacio. Páginas como Wired (http://www.wired.com) o CNet (http://news.com) son algunos de ellos. En estos sitios están colgadas las imágenes encontradas por los internautas, en una práctica denominada "streetspotting". Las calles españolas, de momento, están a salvo.

Google Universal Search

Google Universal Search

   Los buscadores se encuentran en continua evolución debido a la utilización constante que hacen los internautas de sus servicios. Google, obra de Larry Page y Sergey Brin, no ha parado de introducir cambios y mejoras (Gmail, Picasa, Google Earth, etc.). Un mundo de prestaciones que ha puesto en marcha una nueva iniciativa denominada "Búsqueda universal"  o "Google Universal Search", concepto que pretende englobar en los resultados de una búsqueda el mayor número posible de información, integrando respuestas de diferentes sitios que cubren libros, información local, imágenes, periódicos, mapas, noticias y vídeo.

   Un proyecto de dos años que ha dado lugar a que las palabras clave introducidas en el buscador produzcan respuestas multimedia de todas las fuentes posibles, y clasificadas por pertinencia. La idea supone que al introducir un término podamos acceder a vídeos, blogs y libros relacionados con el término.

    La compañía también estudia otros servicios como "Google Hot Trends" que permite observar los hábitos de búsqueda de los internautas. Una lista de las cien primeras tendencias de búsqueda más populares que se actualizará varias veces en el día y utilizará los datos de millones de búsquedas hechas en la web de Google.

Buscadores más utilizados.

Buscadores más utilizados.

A continuación os propongo una tabla con los buscadores más utilizados, además de otras direcciones de interés:

Nombre del buscador

Dirección

Yahoo                                                            

http://www.yahoo.com

Altavista

http://www.altavista.com

Lycos

http://www.lycos.com

Infoseek

http://www.infoseek.com

Open Text
http://www.opentext.com
WebCrawler
http://www.webcrawler.com
MetaCrawler
http://www.metacrawler.com
Search
http://www.serarch.com
Dónde
http://www.donde.uji.es
Fantástico
http://www.fantastico.com
Elcano
http://www.elcano.com
Olé
http://www.ole.es
Trovador
http://www.trovador.combios.es
Ozú
http://www.ozu.com
Intercom
http://www.intercom.es/navegador

El índice

http://www.globalcom.es/Indice

País Vasco

http://www.PaisVasco.com/info.htm 

El Inspector de Telépolis

http://www.telepolis.com

HotBot

http://www.hotbot.com

A2Z

http://www.a2z.lycos.com

DejaNews

http://www.dejanews.com

Pathfinder

http://www.pathfider.com

Linkstar

http://www.linkstar.com

100hot

http://www.100hot.com

Electric Library
http://www.elibrary.com
Yellow Web
http://www.yweb.com
Savy Searchg
http://www.es.colostate.edu
Starting Point
http://www.stpt.com
Google
http://www.google.com

Direcciones de interés

 

Robots o motores de búsqueda

Robots o motores de búsqueda

    La búsqueda de información en Internet es muy complicada por la ingente cantidad de información que viaja a través de la red. Encontrar algo de forma rápida es una tarea ardua y difícil. Por eso necesitamos mecanismos o dispositivos que nos ayuden en nuestra búsqueda a modo de páginas amarillas. Estos mecanismos son los buscadores o motores de búsqueda. Son aplicaciones informáticas que rastrean la Web catalogando la información y clasificándola para luego ofrecerla a los navegantes.

   Para realizar la búsqueda debemos contactar a través de la Web con estos buscadores.

   Los buscadores funcionan:

  1. Mediante programas que buscan en bases de datos que se mantienen de forma automática por los denominados robots. En este tipo de búsqueda basta con introducir el término sobre el que deseamos buscar la información
  2. A través de índices que catalogan la información por temas.

   El robot o motor de búsqueda aparece en la Red entre 1993 y 1994. Estos motores de búsqueda se utilizan con distintos propósitos: indexación, comprobación de enlaces, monitorización de nuevas páginas web, mirroring, etc. Las tareas que realizan se dividen en tres categorías principales  (Koster 1994):

  • Tareas estadísticas. El robot puede, por ejemplo, contar el número de páginas web de los servidores de la Red, el número de páginas por servidor, etc.
  • Tareas de mantenimiento. Detecta la presencia de lugares muertos, es decir, aquellos que no aparecen en ningún sitio porque han desaparecido o han cambiado de dirección (o URL).
  • Tareas de transferencia y servicio público. Copian información de un sitio a otro, además de servir al usuario en la búsqueda de información.

  Una de las funciones más interesantes de los robots es la recuperación de información, examinando de forma automática la Web. El robot puede atravesar de forma automática la estructura del hipertexto del Web extrayendo recurrentemente todos los documentos que estén referenciados. El término “recurrente” no limita la definición a ningún algoritmo específico; incluso si un robot aplica algo de heurística a la selección y orden de los documentos a visitar y delimita mucho las peticiones en el tiempo, sigue siendo un robot. Los browsers normales no son robots, porque funcionan por acción de un ser humano, y no extraen automáticamente los documentos referidos (con excepción de imágenes de línea).  A los robots a veces se les llama Web Wanderers, Web Crawlers o Spiders (arañas). Estos nombres dan la impresión de que el software tiene vida propia; esto no es exactamente así, un robot simplemente visita lugares solicitando documentos. En numerosas ocasiones se utiliza la palabra agente, relacionado con los robots. La palabra “agente” tiene muchos significados en estos días. Algunos de ellos son:

  • Agentes autónomos. Son programas que viajan a través de la Red, decidiendo por sí mismos cuándo moverse y qué hacer.
  • Agentes inteligentes. Son programas que ayudan a los usuarios a realizar determinadas acciones, eligiendo productos o guiando al usuario a rellenar formularios correctamente o para encontrar cosas. Por lo general, tienen poco que hacer en el entramado de la Red.
  • Agentes de usuario. Es un nombre técnico para los programas que realizan tareas de red para un usuario, por ejemplo, agentes de usuario para Web como Netscape, Internet Explorer, agentes de usuario para e-mail como Qualcomn Eudora, etc.

   Algunos robots perjudican a la Web colapsando las redes y los servidores. Esto es debido a los errores de configuración cometidos por los diseñadores de los robots. Aunque hemos de comentar que la mayoría de los robots están bien diseñados por profesionales y no causan problemas.

   Los robots necesitan una atención especial y un mantenimiento adecuado. Cada uno de ellos tiene sus propias estrategias de búsqueda, aunque responden a algunas pautas comunes. En general empiezan por un listado “histórico” de URLs, especialmente de documentos que tienen enlaces a muchas webs, como listas de servidores, páginas de novedades y las webs más populares de Internet. La mayoría de los servicios de indexación permiten mandar URLs manualmente, que entran a formar parte de una cola para que el robot las visite. A veces, se usan otras fuentes de URLs: grupos de USENET, archivos de listas de distribución públicos, etc. Una vez dados estos puntos de comienzo, un robot selecciona las URLs a visitar e indexar y tomarlas como fuentes para otras URLs. Si un robot que indexa tiene constancia de la existencia de un documento, decide indexarlo y añadirlo a su base de datos. Cómo lo haga, depende del robot: algunos, indexan los títulos HTML o los primeros párrafos, o miran todo el código HTML e indexan todas las palabras, con un peso determinado que depende de las construcciones HTML, etc. Algunos tienen en cuenta los META tags u otras etiquetas ocultas especiales.

   Los robots encuentran información variada (por URL, título, palabras claves, etc.). Con la información encontrada, construyen bases de datos, actualizando los “lugares muertos”. En la recuperación de la información, determina la calidad y la cantidad de la información que almacena en sus bases de datos. Otros robots buscan en las bases de datos generadas por otras utilidades de búsqueda. Uno de estos tipos de robots es Knowbot (Knowledge robot), que busca de forma automática la información en función de los criterios del usuario y la envía por correo electrónico.

    Podemos encontrar información relativa a los motores de búsqueda en la web http://www.robotstxt.org/wc/active.html