Todas las páginas web bien diseñadas disponen de una guía que sirve a los buscadores para saber qué indexar, y qué no. Esta guía es un archivo de texto especial que se llama robots.txt, y que contiene las recomendaciones para los crawlers, esos ‘robots’ de los buscadores que intentarán, si no se lo impide nada, rastrear e identificar todas y cada una de las páginas de nuestro sitio.
El archivo robots.txt está escrito en un lenguaje determinado, que sigue el protocolo Robots Exclusion Protocol, o Protocolo de exclusión de robots. Se puede utilizar para recomendar la exclusión de cualquier índice de archivos, páginas o directorios completos de nuestra web. ¿Qué razón podríamos tener para excluir nada de los buscadores?
Por poner ejemplos conocidos, podemos querer que nuestra página no aparezca en los motores de búsqueda, o podemos creer que determinado contenido podría ser irrelevante para la categorización del sitio en su totalidad. Es decir, podemos pensar que ciertos contenidos pueden perjudicarnos para el posicionamiento, y por tanto sugerimos a dichos robots que no los examinen.
Esto es importante porque, como vemos, robots.txt influye en el SEO, y de hecho es una herramienta SEO muy útil. Cualquier parte de nuestra web que sospechemos que puede ser malinterpretada por los buscadores, puede ser eliminada. Aunque esto, tiene matices.
El protocolo de exclusión de robots es un protocolo que recomienda, no que prohíbe. Es decir, un robot puede hacer caso de las instrucciones del archivo, o no. Si es bienintencionado, hará caso a las instrucciones y no indexará lo que no deseemos. Si es malintencionado, indexará todo, o quizás empiece precisamente por los archivos o directorios que excluimos.
Es muy poco probable que los robots web maliciosos respeten lo que contiene robots.txt. De hecho, ocurrirá lo que comentamos antes, que usarán el archivo robots.txt como una guía para encontrar enlaces no permitidos y dirigirse directamente a ellos. A veces se dice que esto puede ser un problema de seguridad, pero en realidad no lo es: nadie en su sano juicio basaría la seguridad de su página web en robots.txt.
El interés de robots.txt es el de disponer de una guía para los buscadores, de forma que mostremos las páginas y directorios adecuados a su guía de estilo, y «ocultemos» todos aquéllos ficheros que sabemos que no cumplen. Más ejemplos pueden ser el impedir la indexación de contenido duplicado en el sitio (como pruebas, diferentes versiones, etc.), y también sirve para indicar la localización del sitemap de la web.
El sitemap es otra herramienta muy útil para los buscadores. Literalmente es un mapa del sitio web, en el que se indica dónde está cada página y con cuáles se relaciona directamente. Entre robots.txt y el sitemap, una web está optimizada y preparada para aparecer en los buscadores que te interesan.
Vía | Ignacio Santiago
Nos encantará conocer tu opinión, pero primero tenemos que indicarte que los comentarios están moderados, y no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos a los autores, a cualquier otro comentarista o la empresa propietaria de esta página. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades o suplantando a otros comentaristas. También, procura que tus opiniones estén relacionadas con lo que se comenta en esta entrada. Los comentarios off-topic, promocionales, o que incumplan todas estas normas básicas serán eliminados.