Robots como motor de búsqueda

La mayoría de los usuarios o visitantes comunes utilizan diferentes motores de búsqueda disponibles para buscar la información que necesitan. Pero, ¿cómo proporcionan esta información los motores de búsqueda? ¿De dónde han recogido esta información? Básicamente, la mayoría de estos motores de búsqueda mantienen su propia base de datos de información. Esta base de datos incluye los sitios disponibles en el mundo de la web que, en última instancia, mantienen la información detallada de las páginas web para cada sitio disponible. Básicamente, los motores de búsqueda realizan un trabajo de fondo utilizando robots para recopilar información y mantener la base de datos. Hacen un catálogo de la información recopilada y luego la presentan públicamente o a veces para uso privado de mantas ignifugas

En este artículo hablaremos de las entidades que merodean en el entorno global de Internet o de los rastreadores web que se mueven en el espacio de la red. Aprenderemos

– De qué se trata y para qué sirven.
– Los pros y los contras de utilizar estas entidades.
– ¿Cómo podemos mantener nuestras páginas alejadas de los rastreadores?
– Las diferencias entre los rastreadores comunes y los robots.

En la siguiente parte dividiremos todo el trabajo de investigación en las siguientes dos secciones:

I. Araña del motor de búsqueda : Robots.txt.
II. Robots de los motores de búsqueda: explicación de las metaetiquetas.

I. Araña del motor de búsqueda : Robots.txt

¿Qué es el archivo robots.txt?

Un robot web es un programa o software de motor de búsqueda que visita los sitios de forma regular y automática y rastrea la estructura de hipertexto de la web buscando un documento y recuperando recursivamente todos los documentos a los que se hace referencia. A veces, los propietarios de los sitios no quieren que todas las páginas de su sitio sean rastreadas por los robots web. Por esta razón, pueden excluir algunas de sus páginas para que sean rastreadas por los robots utilizando algunos agentes estándar. Por ello, la mayoría de los robots se rigen por la «Norma de exclusión de robots», un conjunto de restricciones para limitar el comportamiento de los robots.
La «Norma de exclusión de robots» es un protocolo utilizado por el administrador del sitio para controlar el movimiento de los robots. Cuando los robots de los motores de búsqueda llegan a un sitio, buscan un archivo llamado robots.txt en el dominio raíz del sitio (http://www.anydomain.com/robots.txt). Se trata de un archivo de texto sin formato que implementa los «Protocolos de exclusión de robots» permitiendo o desautorizando archivos específicos dentro de los directorios de archivos. El administrador del sitio puede desautorizar el acceso a directorios cgi, temporales o privados especificando los nombres de los agentes de usuario del robot.

El formato del archivo robot.txt es muy sencillo. Consta de dos campos: el agente de usuario y uno o varios campos disallow.

¿Qué es el agente de usuario?

Es el nombre técnico de un concepto de programación en el entorno de la red mundial y se utiliza para mencionar el robot específico del motor de búsqueda dentro del archivo robots.txt.
Por ejemplo:

User-agent: googlebot

También podemos utilizar el carácter comodín «*» para especificar todos los robots :
User-agent: *

Significa que todos los robots pueden venir a visitarnos.

¿Qué es Disallow?

En el archivo robot.txt el segundo campo se conoce como disallow: Estas líneas guían a los robots, a qué archivo debe ser rastreado o a cuál no. Por ejemplo, para evitar la descarga de email.htm la sintaxis será

 

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *