8 jul. 2011

Descubriendo lo que no quieren que descubramos

Un buscador web funciona mediante dos fases, la primera se basa en un programa que rastrea webs y las almacena en un índice. La segunda parte consiste en las consultas a ese índice. A estos programas que van indexando la web se les denomina arañas y como buen programa que son, lo indexan prácticamente todo. Y digo prácticamente todo, porque hay un estándar de facto que promueve que este programa primero compruebe un archivo llamado robots.txt, el cual contiene una lista de las páginas a no indexar.

Con esto consiguen que las arañas de Google, Bing o cualquier otro buscador bien educado no acceda a lo que los creadores de la página no quieran, y por lo tanto cuando tú busques en su índice, estas páginas no se muestren en los resultados. Pero este archivo nos puede facilitar a nosotros descubrir cosas interesantes, y como buen curioso que soy, decidí probar cosas en webs al azar, y aquí os traigo algunos de los resultados.


El formato de estos archivos es un texto plano que cualquiera puede leer. Cada linea es una entrada, y suelen contener un Allow o Disallow seguido del directorio que no desean que sea indexado. Por ejemplo si estamos consultando miweb.com y hay un Disallow:/privado quiere decir que la url miweb.com/privado no va a ser indexada por el buscador (si este respeta el robots.txt obviamente, no está obligado).

Pongo aquí unas pocas webs, que están a disposición pública usando el navegador. Si dichos archivos no quisieran ser encontrados hay medios para hacerlo, como en el caso de la RAE que no permite el acceso a ese documento.

SGAE

Hace ya tiempo, como ya sabréis, sufrieron un ataque que hacía que si buscaras "ladrones" en Google, el primer resultado en aparecer fuese la SGAE, pues parece que les ha preocupado y en su robots.txt han impedido que Google indexe estas palabras como parte de su url, pero quedan bastante ridículos si alguien le da por mirar:

Disallow:/?SGAE=LADRONES=MONOPOLIO
Disallow:/?ladrones
Disallow:/?mafiosos
www.sgae.es/robots.txt

Genbeta

Este caso es curioso sobre todo porque plantea un fallo de seguridad bastante grave a mi parecer, ya que en su robots.txt enseña su acceso a la administración y además da información de que usan WordPress (aunque esto se puede sacar por otros medios):

User-agent: *
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpi/
Disallow: /trackback/
Disallow: /*/*/*/feed.xml

Si visitamos www.genbeta.com/wp-admin/ podemos acceder a la web de login de la administración. Ya hemos encontrado la puerta, ahora sólo queda abrirla, pero eso os lo dejo a vosotros...

www.genbeta.com/robots.txt

BOE

En la web del BOE, que debería de ser 100% pública y disponible, se omiten de la búsqueda ciertos boletines en concreto. En general son indultos, pero hay de todo y habría que preguntarse porque se ocultan:
# 2009 838 3
Disallow: /diario_boe/txt.php?id=BOE-A-2009-838
Disallow: /boe/dias/2009/01/17/
Disallow: /boe/dias/2009/01/17/index.php
Disallow: /boe/dias/2009/01/17/pdfs/BOE-S-2009-15.pdf
Disallow: /boe/dias/2009/01/17/pdfs/BOE-A-2009-838.pdf
Esto ha creado algún que otro conflicto con la Agencia de Protección de Datos
http://www.boe.es/robots.txt

El País

El periódico El País por ejemplo limita el acceso a la versión de sólo texto, lo que haría que si accediésemos a sus noticias por ahí no veríamos su publicidad y dejarían de ganar dinero (aunque es más cómoda su lectura).
Disallow:/bandaancha/

Disallow:/solotexto/
Disallow:/archivo/
Disallow:/loultimo/efe/
http://www.elpais.com/robots.txt

En conclusión

Como veis, esta medida de seguridad frente a los buscadores puede ser una vulnerabilidad para la página web, pues estás exponiendo mucha información hacia el exterior y el usuario puede cogerla tranquilamente. Hay remedios para exponer lo menos posible este archivo, como ya he mencionado anteriormente, se puede redirigir el intento de acceso o prohibir su acceso desde un navegador.

Como nota curiosa Google tiene un humans.txt que te enlaza a su web de empleo ; )

Así que ahora ya sólo queda que vosotros lo probéis, si encontráis algo divertido, ¡comentadlo!

¡Buen fin de semana!


No hay comentarios:

Publicar un comentario

Related Posts Plugin for WordPress, Blogger...