Excluir una página web o sitio de los motores de búsqueda utilizando un archivo de texto robots

Puede utilizar un archivo de texto robots para bloquear una araña motor de búsqueda de rastreo de su sitio Web o una parte de su sitio. Por ejemplo, usted puede tener una versión en desarrollo de su sitio web en el que trabaja en los cambios y adiciones a probarlos antes de que se conviertan en parte de su sitio Web en vivo. Usted no quiere que los motores de búsqueda para indexar este " en progreso " copia de su sitio Web, ya que podría causar un conflicto duplicado-contenido con tu sitio web real. También no quiere a los usuarios encontrar sus páginas en curso. Así que hay que bloquear los motores de búsqueda de ver esas páginas.

los texto robots El trabajo del fichero es la de dar a los motores de búsqueda instrucciones sobre lo que no a la araña dentro de su sitio web. Este es un archivo de texto simple que puede crear usando un programa como el Bloc de notas y guarde el archivo robots.txt nombre de archivo. Coloque el archivo en la raíz de su sitio Web (por ejemplo, yourdomain.com / robots.txt), que es donde las arañas esperan encontrarlo. De hecho, cada vez que las arañas de los motores de búsqueda a su sitio, lo primero que buscan es su archivo de texto robots. Es por eso que debe siempre tener un archivo de texto robots en su sitio, incluso si es en blanco. Usted no quiere que la primera impresión de su sitio las arañas 'a ser un 404 error (el error que aparece cuando un archivo no puede ser localizado).

Con un archivo de texto robots, puede excluir selectivamente determinadas páginas, directorios o todo el sitio. Tienes que escribir el código HTML tal cual, o las arañas lo ignora. La sintaxis del comando es necesario utilizar viene del Protocolo de Exclusión de Robots (REP), que es un protocolo estándar para todos los sitios Web. Y está muy exacta- sólo comandos específicos están autorizados, y debe estar escrito correctamente con la colocación específica, letras mayúsculas / minúsculas, puntuacion, y el espaciamiento. Este archivo es un lugar donde usted no quiere que su Webmaster conseguir creativo.

Un archivo de texto robots muy simple podría tener este aspecto:

User-agent: * Disallow: / personal /

Este archivo de texto robots dice todos los robots de los buscadores que son bienvenidos a arrastrarse en cualquier lugar en su sitio Web excepto para el directorio denominado / / personal.

Antes de escribir una línea de comandos (como Disallow: / personal /), primero hay que identificar qué robot (s) que está abordando. En este caso, la línea User-agent: * Las direcciones de todos los robots, ya que utiliza un asterisco, que se conoce como la comodín carácter, ya que representa cualquier carácter. Si quieres dar instrucciones diferentes para diferentes motores de búsqueda, ya que muchos sitios hacen, escribir líneas de agente de usuario separados seguido de sus líneas de comandos específicos. En cada User-agent: línea, debería reemplazar el carácter asterisco (*) con el nombre de un robot específico:

User-agent: Googlebot sería llamar la atención de Google.

User-agent: Slurp abordaría Yahoo !.

User-agent: MSNBot abordaría Microsoft Live Search.

Tenga en cuenta que si el archivo de texto a sus robots tiene User-agent: * instrucciones, así como otra User-agent: especificando la línea un robot específico, el robot específico sigue las órdenes que le dio forma individual en lugar de las instrucciones más generales.

Puede escribir a pocos comandos diferentes en un archivo robots.txt:

  • Excluyendo todo el sitio. Para excluir el robot de todo el servidor, utilice el comando:

    Disallow: /

    Este comando realidad elimina todas las páginas web de su sitio desde el índice de búsqueda, así que ten cuidado no para hacer esto a menos que eso es lo que realmente quieres.

  • La exclusión de un directorio. (. Una palabra de precaución - por lo general, quiere ser mucho más selectivo que excluir un directorio completo) Para excluir un directorio (incluyendo todo su contenido y subdirectorios), lo puso dentro de barras:

    Disallow: / personal /
  • Excluyendo una página. Usted puede escribir un comando de excluir sólo una página en particular. Sólo se utiliza una barra al principio y debe incluir la extensión de archivo al final. He aquí un ejemplo:

    No permitir: /private-file.htm
  • Dirigir las arañas a su mapa del sitio. Además de Disallow :, otro comando útil para sus esfuerzos de SEO especifica dónde el robot puede encontrar su mapa del sitio - la página que contiene enlaces a través de su organización de sitio, como una tabla de contenido:

Mapa del sitio: http://yourdomain.com/sitemap.xml 

Cabe señalar que, además de los comandos enumerados anteriormente, Google reconoce Permita también. Esto es aplicable sólo a Google y puede confundir a otros motores, por lo que debe evitar el uso de la misma.

Siempre debe incluir al final de su texto robots presentar un mapa del sitio: línea de comandos. Esto asegura que los robots a encontrar el mapa del sitio, que ayuda a navegar con más detalle a través de su sitio para que más de su sitio se indexe.

Algunas notas sobre la sintaxis robots archivo de texto:

  • Los comandos son mayúsculas y minúsculas, por lo que necesita un D de capital en Inhabilitar.

  • Siempre debe haber un espacio después de los dos puntos después del comando.

  • Para excluir un directorio completo, poner una barra inclinada después al igual que antes de el nombre del directorio.

  • Si está ejecutando en una máquina UNIX, todo entre mayúsculas y minúsculas.

  • Todos los archivos que no estén excluidas específicamente están disponibles para rastreo y la indexación.

Para ver una lista completa de los comandos, nombres de robot, y las instrucciones sobre cómo escribir robots archivos de texto, vaya a las páginas Web del robot.

Como medida de seguridad adicional, que sea parte de su mantenimiento del sitio semanalmente para revisar su archivo de texto robots. Es un poderoso interruptor on / off para tales esfuerzos de SEO de su sitio que merece un vistazo regularmente para asegurarse de que sigue siendo " en " y funciona correctamente.




» » » » Excluir una página web o sitio de los motores de búsqueda utilizando un archivo de texto robots