Détection et analyse d’une thématique rare dans de grands ensembles de requêtes : l’activité pédophile dans le P2P

Raphaël Fournier-S'niehotta, soutenance de thèse
vendredi 21 décembre 2012 à 12h, salle 25-26/105
Abstract

L'objectif de cette thèse est d'utiliser de grands ensembles de requêtes collectés sur des systèmes P2P pour étudier l'activité pédophile au sein de ces réseaux. En effet, malgré l'importance de ce problème pour la société, il existe peu de connaissances fiables en la matière.

Nous procédons dans un premier temps à la mise au point d'un outil capable de détecter les requêtes qui ciblent des contenus à caractère pédopornographique, en assez faible quantité dans l'ensemble des requêtes. Après avoir identifié quatre catégories de requêtes pédophiles, nous établissons les listes de mots-clefs et tests lexicaux requis pour les distinguer. Nous faisons ensuite classer des requêtes à un ensemble d'experts, afin d'évaluer les performances de notre outil. Celui-ci disposant d'une précision élevée et d'un bon rappel, nous l'utilisons pour estimer de façon fiable la fraction de requêtes pédophiles, proche de 0,25%.

Nous abordons ensuite la quantification des utilisateurs entrant ces requêtes. Dans un tel contexte, où l'on ne dispose que de l'adresse IP et éventuellement d'un port de communication, identifier des utilisateurs est difficile. Nous proposons plusieurs méthodes pour ne pas mélanger les requêtes d'utilisateurs différents. La fraction d'utilisateurs pédophiles est proche de 0,22%.

Nous analysons ensuite la dynamique temporelle de l'activité pédophile. La fraction de requêtes pédophiles a significativement augmenté entre 2009 et 2012. Nous examinons également l'intégration sociale des utilisateurs pédophiles et constatons qu'ils privilégient la fin de la nuit pour effectuer ce type de requêtes, ce en quoi ils diffèrent des autres utilisateurs, notamment ceux soumettant des requêtes pornographiques.

Enfin, nous confrontons les résultats obtenus sur le réseau eDonkey avec ceux du réseau KAD, après avoir défini une méthodologie permettant d'obtenir des données comparables. Nous supposons initialement que le niveau d'anonymat offert par KAD, complètement décentralisé, permet aux utilisateurs de participer à davantage d'échanges pédopornographiques. Nous constatons au contraire que l'activité pédophile est plus importante sur eDonkey et estimons que la fraction de requêtes pédophiles sur KAD est proche de 0.1%.

This entry was posted in Events