Big Stat is watching you, oui you !

Les beaux esprits du web sont en pleine effervescence... L'anonymat cyberconstitutionnel propice à toutes les turpitudes est menacé par un quarteron de députés félons. Les hébergeurs, tels de vulgaires marchands de sommeil, seraient contraints à l'identification symbolique de leurs chers hébergés. Ils seraient même dans l'obligation sous peine de "pas d'amende" de répondre aux plaintes des personnes mises en cause sur leurs pages ! Scandales, émotions, cris, fermetures, bains de mer...
Au delà de cette agitation franco-anecdotique, les sombres affaires d'identification de l'internaute baladeur reviennent nous occuper le devant de la scène internet à intervalles réguliers. Penchons-nous donc sur cette surprenante réactualisation de l'éternelle histoire de la paille dans le nez et la poutre dans l'œil. 
De nombreux webmasters réalisent quotidiennement des statistiques sur la fréquentation de leur site avec des outils bien connus (webalyzer, webtrends et autres weblogs).  Certains, partisans de la transparence totale, mettent leurs chiffres en ligne. D'autres enfouissent leurs stats dans les profondeurs de leur site à l'abri des regards indiscrets comme un vulgaire footballeur enterre le magot de la trahison dans le jardin de ses beaux-parents.
Or que racontent ces stats ? Beaucoup. Vraiment beaucoup. Je ne vais pas vous refaire la démonstration de la CNIL sur les traces que vous laissez en vous baladant sur le web. Mais à chaque page, vous laissez plus de traces qu'une horde de sangliers en goguette dans le jardin des beaux-parents du footballeur sus-mentionné. Et toute personne un peu curieuse (il y a des curieux professionnels et des professionnels curieux) est susceptible d'exploiter cette mine de renseignements gracieusement mise à disposition par les défenseurs de l'anonymat.
Prenons les sites underground (comme au bon vieux temps) genre Madchat ou Taz. Ils sont assez peu suspects de vouloir diffuser l'information anonymaticide à destination des autorités que ça pourrait intéresser. Et pourtant ! Et pourtant ! Madchat met ses stats directement à disposition du visiteur et Taz, même si c'est pas immédiat, y a pas longtemps à chercher. Même sur les sites à stats enfouies, une manipulation triviale permet souvent de localiser la page indiscrète. ZipiZ vous donne la recette incompréhensible à 2 balles : les fichiers de log enregistrent les pages contenant le lien sur lequel a cliqué le visiteur pour parvenir sur le site. Le terme jargonnant est "referrer" (en français "référant"). 
Pour obtenir l'adresse de la page de stats du site désiré, il suffit de se créer une page sur un autre site, d'y placer un lien vers le site toujours désiré et de cliquer plusieurs fois sur ce lien. Cette manipulation placera votre page en bonne place dans la liste des "referrers" dans les stats du site encore désiré. Que fait le webmaster standard en voyant cette adresse qui pointe vers son site dans sa page de stats. Hein ? ben, pardiche, il clique dessus pour voir ce que c'est, pardiche. Et par cette manipulation, il place sa propre page de stats dans vos referrers à vous ! 
Et la voilà, l'adresse de la page impudique... pardiche ! Hein ? J'ai pas été clair ? Bon je recommence. Non je déconne. Relisez calmement. Mais ça n'a pas vraiment d'importance. Pour résumé, il est en général extrêmement simple d'obtenir les stats en ligne des sites qui en font.

Et avec ces stats, vous pouvez apprendre beaucoup plus que ce que les hébergeurs sus-cités avec leur pudeur de jeune fille prépubère s'outrent de devoir dévoiler aux autorités requérantes. Exemple : les plus fréquents visiteurs d'un site sont très souvent ceux qui le font. Normal. Sur un site underground, découvrir les adresses d'origine des contributeurs, ça fait mauvais genre. Madchat a par exemple une fréquentation irlandaise assez atypique :-) (Hé oui faut suivre). Vous me rétorquerez, l'adresse IP, y'a pas mort d'homme. Ben tiens ! En croisant l'ensemble des informations disponibles dans les logs sur plusieurs sites de même "sensibilité" (provider, adresse des pops, navigateur, OS, heures de visites) en récupérant les headers de messages, les headers des posts dans les newsgroups, les IP loggués dans les forums, les adresses loggués par les proxies et autres informations plus subtiles, nul besoin de s'appeler Echelon pour se constituer une formidable base d'informations si on en a l'envie, le besoin ou... la mission. Un petit logiciel d'exploration des données, un petit univers par là-dessus, un microcube, je te drille je te downe, un méta-moteur de recherche et roule Raoul, ça déballe...

Alors, Messieurs, avant de vous offusquer des atteintes intolérables à la liberté fondamentale d'afficher n'importe quoi sur le web, vérifiez si par hasard dans un coin de votre site ne se trouvent pas une page avec vos visiteurs à poil sur internet.

ZipiZ