Con esto consiguen que las arañas de Google, Bing o cualquier otro buscador bien educado no acceda a lo que los creadores de la página no quieran, y por lo tanto cuando tú busques en su índice, estas páginas no se muestren en los resultados. Pero este archivo nos puede facilitar a nosotros descubrir cosas interesantes, y como buen curioso que soy, decidí probar cosas en webs al azar, y aquí os traigo algunos de los resultados.
El formato de estos archivos es un texto plano que cualquiera puede leer. Cada linea es una entrada, y suelen contener un Allow o Disallow seguido del directorio que no desean que sea indexado. Por ejemplo si estamos consultando miweb.com y hay un Disallow:/privado quiere decir que la url miweb.com/privado no va a ser indexada por el buscador (si este respeta el robots.txt obviamente, no está obligado).
Pongo aquí unas pocas webs, que están a disposición pública usando el navegador. Si dichos archivos no quisieran ser encontrados hay medios para hacerlo, como en el caso de la RAE que no permite el acceso a ese documento.
SGAE
Hace ya tiempo, como ya sabréis, sufrieron un ataque que hacía que si buscaras "ladrones" en Google, el primer resultado en aparecer fuese la SGAE, pues parece que les ha preocupado y en su robots.txt han impedido que Google indexe estas palabras como parte de su url, pero quedan bastante ridículos si alguien le da por mirar:
Disallow:/?SGAE=LADRONES=MONOPOLIOwww.sgae.es/robots.txt
Disallow:/?ladrones
Disallow:/?mafiosos
Genbeta
Este caso es curioso sobre todo porque plantea un fallo de seguridad bastante grave a mi parecer, ya que en su robots.txt enseña su acceso a la administración y además da información de que usan WordPress (aunque esto se puede sacar por otros medios):
User-agent: *Si visitamos www.genbeta.com/wp-admin/ podemos acceder a la web de login de la administración. Ya hemos encontrado la puerta, ahora sólo queda abrirla, pero eso os lo dejo a vosotros...
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpi/
Disallow: /trackback/
Disallow: /*/*/*/feed.xml
www.genbeta.com/robots.txt
BOE
En la web del BOE, que debería de ser 100% pública y disponible, se omiten de la búsqueda ciertos boletines en concreto. En general son indultos, pero hay de todo y habría que preguntarse porque se ocultan:
# 2009 838 3Esto ha creado algún que otro conflicto con la Agencia de Protección de Datos
Disallow: /diario_boe/txt.php?id=BOE-A-2009-838
Disallow: /boe/dias/2009/01/17/
Disallow: /boe/dias/2009/01/17/index.php
Disallow: /boe/dias/2009/01/17/pdfs/BOE-S-2009-15.pdf
Disallow: /boe/dias/2009/01/17/pdfs/BOE-A-2009-838.pdf
http://www.boe.es/robots.txt
El País
El periódico El País por ejemplo limita el acceso a la versión de sólo texto, lo que haría que si accediésemos a sus noticias por ahí no veríamos su publicidad y dejarían de ganar dinero (aunque es más cómoda su lectura).
Disallow:/bandaancha/http://www.elpais.com/robots.txt
Disallow:/solotexto/Disallow:/archivo/Disallow:/loultimo/efe/
En conclusión
Como veis, esta medida de seguridad frente a los buscadores puede ser una vulnerabilidad para la página web, pues estás exponiendo mucha información hacia el exterior y el usuario puede cogerla tranquilamente. Hay remedios para exponer lo menos posible este archivo, como ya he mencionado anteriormente, se puede redirigir el intento de acceso o prohibir su acceso desde un navegador.
Como nota curiosa Google tiene un humans.txt que te enlaza a su web de empleo ; )
Así que ahora ya sólo queda que vosotros lo probéis, si encontráis algo divertido, ¡comentadlo!
¡Buen fin de semana!
No hay comentarios:
Publicar un comentario