Détection et analyse d’une thématique rare dans de grands ensembles de requêtes : l’activité pédophile dans le P2P

Raphaël Fournier-S’niehotta

vendredi 21 décembre 2012 à 12h, salle 25-26/105

L’objectif de cette thèse est d’utiliser de grands ensembles de requêtes collectés sur des systèmes P2P pour étudier l’activité pédophile au sein de ces réseaux. En effet, malgré l’importance de ce problème pour la société, il existe peu de connaissances fiables en la matière. Nous procédons dans un premier temps à la mise au point d’un outil capable de détecter les requêtes qui ciblent des contenus à caractère pédopornographique, en assez faible quantité dans l’ensemble des requêtes. Après avoir identifié quatre catégories de requêtes pédophiles, nous établissons les listes de mots-clefs et tests lexicaux requis pour les distinguer. Nous faisons ensuite classer des requêtes à un ensemble d’experts, afin d’évaluer les performances de notre outil. Celui-ci disposant d’une précision élevée et d’un bon rappel, nous l’utilisons pour estimer de façon fiable la fraction de requêtes pédophiles, proche de 0,25%. Nous abordons ensuite la quantification des utilisateurs entrant ces requêtes. Dans un tel contexte, où l’on ne dispose que de l’adresse IP et éventuellement d’un port de communication, identifier des utilisateurs est difficile. Nous proposons plusieurs méthodes pour ne pas mélanger les requêtes d’utilisateurs différents. La fraction d’utilisateurs pédophiles est proche de 0,22%. Nous analysons ensuite la dynamique temporelle de l’activité pédophile. La fraction de requêtes pédophiles a significativement augmenté entre 2009 et 2012. Nous examinons également l’intégration sociale des utilisateurs pédophiles et constatons qu’ils privilégient la fin de la nuit pour effectuer ce type de requêtes, ce en quoi ils diffèrent des autres utilisateurs, notamment ceux soumettant des requêtes pornographiques. Enfin, nous confrontons les résultats obtenus sur le réseau eDonkey avec ceux du réseau KAD, après avoir défini une méthodologie permettant d’obtenir des données comparables. Nous supposons initialement que le niveau d’anonymat offert par KAD, complètement décentralisé, permet aux utilisateurs de participer à davantage d’échanges pédopornographiques. Nous constatons au contraire que l’activité pédophile est plus importante sur eDonkey et estimons que la fraction de requêtes pédophiles sur KAD est proche de 0.1%.

Analyse de grands graphes aléatoires

Emilie Coupechoux

lundi 10 décembre 2012 à 10h30, salle du Conseil (4ème étage), antenne parisienne de l’INRIA, 23 avenue d’Italie, 75013 Paris

Plusieurs types de réseaux du monde réel peuvent être représentés par des graphes dont les sommets représentent des individus (dans le cas des réseaux sociaux) ou des pages Web (dans le cas du World Wide Web), pour ne citer que ces exemples. Chaque arête du graphe correspond à une interaction entre sommets: dans les réseaux sociaux, une arête est présente entre deux sommets si les individus quils représentent sont amis; dans le World Wide Web, les arêtes représentent les liens hypertextes entre les pages Web. Comme il sagit de réseaux de très grande taille, leur topologie détaillée est généralement inconnue, et nous les modélisons par de grands graphes aléatoires ayant les mêmes propriétés statistiques locales que celles des réseaux observés. Un exemple de telle propriété est la présence de regroupements dans les réseaux réels: si deux individus ont un ami en commun, ils ont également tendance à être amis entre eux. tudier des modèles de graphes aléatoires qui soient à la fois appropriés et faciles à aborder dun point de vue mathématique représente un challenge, cest pourquoi nous considérons plusieurs modèles de graphes aléatoires possédant ces propriétés. La propagation dépidémies dans les graphes aléatoires peut être utilisée pour modéliser plusieurs types de phénomènes présents dans les réseaux réels, comme la propagation de maladies, ou la diffusion dune nouvelle technologie. Le modèle épidémique que nous considérons dépend du phénomène que nous voulons représenter : un individu peut contracter une maladie par un simple contact avec un de ses amis (ces contacts étant indépendants), mais une nouvelle technologie est susceptible dêtre adoptée par un individu lorsque beaucoup de ses amis ont déjà la technologie en question. Nous étudions essentiellement ces deux différents cas de figure. Dans chaque cas, nous cherchons à savoir si une faible proportion de la population initialement atteinte (ou ayant la technologie en question) peut propager lépidémie à une grande partie de la population: si cest le cas, on dit quune cascade est possible. La transition de phase de ce phénomène est étroitement liée à lapparition dune composante géante dans un graphe aléatoire (il y a une composante géante dans un graphe aléatoire si la taille de sa plus grande composante connexe augmente de façon linéaire avec la taille totale du graphe). Létude des graphes aléatoires permet notamment la prédiction de propriétés globales (savoir dans quel cas une cascade est possible ou non) pour des grands réseaux sur lesquels nous ne disposons que de données locales.

Déterminisme et non-déterminisme au service de la détection de communautés dynamiques

Jean-Loup Guillaume

lundi 19 novembre 2012 à 14h, salle 25-26/105

De nombreux systèmes, tels que des réseaux sociaux ou des réseaux informatiques, peuvent être modélisés par des graphes, que lon appelle alors graphes de terrain. Un certain nombre de travaux ont montré que ces graphes, bien que différents par bien des aspects, sont aussi semblables par beaucoup dautres et notamment ils possèdent tous une structure communautaire assez forte, cest-à-dire quils sont formés de sous-ensembles de sommets densément connectés. Si lon se restreint à une partition en communautés, on dispose de méthodes efficaces pour calculer cette structure, notamment la méthode de Louvain que jai contribué à créer et qui est la plus efficace dans le domaine. Or, la plupart de ces réseaux réels sont dynamiques et évoluent au cours du temps par lajout ou la suppression de sommets et de liens. Cette dynamique touche naturellement les communautés et il faut donc proposer de nouvelles méthodes pour les calculer et les analyser. Nous nous sommes intéressés dans ce mémoire à lapproche naturelle qui consiste à considérer un graphe dynamique comme une succession de graphes statiques, puis à calculer une partition en communautés à chaque instant et, enfin, à essayer de faire le lien entre les communautés à différents instants. Nous avons montré que cette approche nest pas utilisable directement car une modification mineure de la topologie peut engendrer des modifications très importantes de la structure communautaire, doù un phénomène dinstabilité. Nous avons alors proposé deux approches pour tenter de résoudre ce problème. La première approche considère que si le graphe évolue peu, ses communautés devraient rester globalement stables. Nous avons donc tout dabord tenté de stabiliser un algorithme existant en gardant la mémoire des calculs passés, ce qui a donné des résultats bien meilleurs mais avec toujours une instabilité résiduelle. Puis, nous avons étendu cette solution en calculant des partitions multi-pas de bonne qualité sur plusieurs instants de temps. Nous avons couplé cela avec une méthode de décomposition hiérarchique du temps afin de calculer des plages temporelles sur lesquelles ces partitions multi-pas ont un sens. Cette méthode à été appliquée avec succès à des données réelles. La seconde approche considère que même sil y a de nombreuses partitions de qualité, elles ne sont pas complètement différentes. Nous avons donc proposé une méthode pour calculer en pratique ces similitudes, qui permettent de définir des coeurs de communautés. Nous avons montré que les coeurs sont pertinents dans les graphes de terrain et permettent de les distinguer des graphes sans réelle structure communautaire (comme les graphes aléatoires par exemple). Nous avons également entamé des travaux pour montrer que les coeurs peuvent être utilisés dans le cas dynamique et quils sont naturellement stables et que les modifications quils peuvent subir sont cette fois très corrélées aux modifications topologiques.

Convergence de quelques opérateurs sur les bicliques d’un graphe multiparti

Christophe Crespelle

Jeudi 22 novembre 2012 à 11h, salle 25-26/101

Nous étudions un procédé itératif de factorisation de bicliques dans un graphe multiparti, venant de la modélisation des graphes de terrain. Ce procédé itératif, qui prend en entrée le biparti d’incidence cliques-sommets d’un graphe, ne termine pas pour tous les graphes. Et dans les cas où il ne termine pas, il ne fournit pas un objet adéquat de modélisation. Ici, nous cherchons donc à contraindre ce procédé, aussi légèrement que possible, pour obtenir sa terminaison sur tout graphe. Nous définissons trois variantes de ce procédé. Pour deux d’entre elles, appelées facteur propre et facteur fort, nous montrons qu’elles terminent toujours. Pour la troisième de ces variantes, appelée facteur faible, nous exhibons un graphe sur laquelle elle ne termine pas. Nous montrons également que le graphe multiparti sur lequel termine la série des facteurs propres a une propriété remarquable: ses sommets sont en bijection avec les éléments du demi-treillis inférieur des intersections des cliques maximales du graphe de départ.

Analysis of Modular Organisation of Interaction Networks Based on Asymptotic Dynamics

Franck Delaplace

Jeudi 18 octobre 2012 à 10h30, salle 25-26/101

Slides

In this talk, we investigate the questions related to modularity in biological interaction networks. We develop a discrete theoretical framework based on the analysis of the asymptotic dynamics of biological interaction networks. More precisely, we exhibit formal conditions under which agents of interaction networks can be grouped into modules, forming a modular organisation. Our main result is that the conventional decomposition into strongly connected components fulfills the formal conditions of being a modular organisation. We also propose a modular and incremental algorithm for an efficient equilibria computation.

Temporal Reachability Graphs

J. Whitbeck and M. Dias de Amorim and V. Conan and J.-L. Guillaume

The 18th Annual International Conference on Mobile Computing and Networking, Mobicom’12, pp. 377-388

While a natural fit for modeling and understanding mobile networks, time-varying graphs remain poorly understood. Indeed, many of the usual concepts of static graphs have no obvious counterpart in time-varying ones. In this paper, we introduce the notion of temporal reachability graphs. A (tau, sigma)-reachability graph is a time-varying directed graph derived from an existing connectivity graph. An edge exists from one node to another in the reachability graph at time t if there exists a journey (i.e., a spatiotemporal path) in the connectivity graph from the first node to the second, leaving after t, with a positive edge traversal time tau, and arriving within a maximum delay sigma. We make three contributions. First, we develop the theoretical framework around temporal reachability graphs. Second, we harness our theoretical findings to propose an algorithm for their efficient computation. Finally, we demonstrate the analytic power of the temporal reachability graph concept by applying it to synthetic and real-life data sets. On top of defining clear upper bounds on communication capabilities, reachability graphs highlight asymmetric communication opportunities and offloading potential.

Download

Réseaux dynamiques : de la mesure à la modélisation

Alain Barrat

Vendredi 21 septembre 2012 à 14h, salle 25-26/101

Slides

Dans la dernière décennie, une importante activité de recherche s’est développée au sujet des réseaux complexes, en grande partie motivée par le fait que de nombreux systèmes peuvent être représentés par des réseaux, c’est-à-dire un ensemble de sites ou sommets reliés par des liens. Je présenterai ici la problématique concernant les réseaux complexes dynamiques, via divers exemples : les réseaux d’infrastructure et les réseaux sociaux. Dans ce dernier cadre, je présenterai en particulier le projet SocioPatterns (http://www.sociopatterns.org/), qui a développé dans les dernières années une infrastructure capable de mesurer les interactions sociales en temps réel dans un espace limité, comme une conférence, des bureaux, un hôpital…, et étudie les réseaux sociaux dynamiques correspondants. Je présenterai les résultats obtenus par les déploiements de cette infrastructure, qui révèlent des régularités inattendues dans les interactions sociales. Je présenterai également un modèle de dynamiques sociales qui reproduit un certain nombre de faits observés empiriquement, et je discuterai quelques conséquences de la dynamique du réseau sur les processus qui s’y déroulent. Je conclurai par les perspectives qu’offre le domaine des réseaux dynamiques.

Towards multi-ego-centered communities: a node similarity approach

M. Danisch, J.-L. Guillaume and B. Le Grand

Int. J. of Web Based Communities, Vol. 9, No. 3, pp. 299-322, 2012

The community structure of a graph is defined in various ways in the literature: (i) Partition, where nodes can belong to only one community. This vision is unrealistic and may lead to poor results because most nodes belong to several communities in real-world networks. (ii) Overlapping community structure, which is the most natural view, but is often very difficult to identify in practice due to the complex structure of real-world networks, and the huge number of such possible communities. (iii) Ego-centered community which focuses on individual nodes’ communities and seems to be a good compromise. In this paper we investigate the third vision; we propose a new similarity measure between nodes based on opinion dynamics to unfold ego-centered communities. We call it the carryover opinion. In addition to be parameter-free, the carryover opinion can be calculated in a very time-efficient way and can thus be used in huge graphs. We also go further in the idea of ego-centered communities by introducing the new concept of multi-ego-centered communities, i.e., focusing on the communities of a set of nodes rather than of a single node. A key idea is that, although one node generally belongs to numerous communities, a small set of appropriate nodes can fully characterize a single community.

Download

Diffusion Cascades: Spreading Phenomena in Blog Network Communities

Abdelhamid Salah Brahim, Bénédicte Le Grand and Matthieu Latapy

Parallel Processing Letters 22(1): (2012)

A diffusion cascade occurs when information spreads from one node to the rest of the network through a succession of diffusion events. So far diffusion phenomena have been mostly considered at a macroscopic scale i.e. by studying all nodes of the network. We give a complementary way to analyse network interactions by considering the problem at different scales. To that purpose, we use the community structure of the network to characterize diffusion between nodes (and between communities) and to identify interactions behaviour patterns.

Download

Modèles de graphes aléatoires pour l’analyse de réseaux

Pierre Latouche

Jeudi 14 Juin 2012 à 11h, salle 26-00/101

Slides

Les réseaux sont largement utilisés en sciences sociales afin de décrire les intéractions entre individus. Dans ce contexte, de nombreuses méthodes non-supervisées de clustering ont été développées afin d’extraire des informations, à partir de la topologie des réseaux. La plupart d’entre elles partitionne les noeuds dans des classes disjointes, en fonction de leurs profils de connection. Récemment, des études ont mis en évidence les limites de ces techniques. En effet, elles ont montré qu’un grand nombre de réseaux « réels » contenaient des noeuds connus pour appartenir à plusieurs groupes simultanément. Pour répondre à ce problème, nous proposons le modèle à blocs stochastiques chevauchants, Overlapping Stochastic Block Model (OSBM) en anglais. Cette approche autorise les noeuds à appartenir à plus d’une classe et généralise le très connu Stochastic Block Model, sous certaines hypothèses. Nous proposons un algorithme d’inférence permettant de classer les nouds d’un réseau, ainsi qu’un critère de sélection de modèles pour estimer le nombre de classes. Nous utilisons ces travaux pour analyser la blogosphère politique française.

Deciding on the type of the degree distribution of a graph from traceroute-like measurements

Xiaomin Wang, Matthieu Latapy, Michèle Soria

International Journal of Computer Networks & Communications (IJCNC), May 2012, Volume 4. Number 3

The degree distribution of the Internet topology is considered as one of its main properties. However, it is only known through a measurement procedure which gives a biased estimate. This measurement may in first approximation be modeled by a BFS (Breadth-First Search) tree. We explore here our ability to infer the type (Poisson or power-law) of the degree distribution from such a limited knowledge. We design procedures which estimate the degree distribution of a graph from a BFS of it, and show experimentally (on models and real-world data) that this approach succeeds in making the difference between Poisson and power-law degree distributions.

Download

Relevance of SIR Model for Real-world Spreading Phenomena: Experiments on a Large-scale P2P System

Daniel F. Bernardes, Matthieu Latapy, Fabien Tarissan

Proceedings of the 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012), Istanbul, Turkey

Understanding the spread of information on complex networks is a key issue from a theoretical and applied perspective. Despite the effort in developing theoretical models for this phenomenon, gauging them with large-scale real-world data remains an important challenge due to the scarcity of open, extensive and detailed data. In this paper, we explain how traces of peer-to-peer file sharing may be used to this goal. We also perform simulations to assess the relevance of the standard SIR model to mimic key properties of spreading cascade. We examine the impact of the network topology on observed properties and finally turn to the evaluation of two heterogeneous versions of the SIR model. We conclude that all the models tested failed to reproduce key properties of such cascades: typically real spreading cascades are relatively “elongated” compared to simulated ones. We have also observed some interesting similarities common to all SIR models tested.

Download

Outskewer: Using Skewness to Spot Outliers in Samples and Time Series

Sébastien Heymann, Matthieu Latapy, Clémence Magnien

Proceedings of the 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012), Istanbul, Turkey

Finding outliers in datasets is a classical problem of high interest for (dynamic) social network analysis. However, most methods rely on assumptions which are rarely met in practice, such as prior knowledge of some outliers or about normal behavior. We propose here Outskewer, a new approach based on the notion of skewness (a measure of the symmetry of a distribution) and its evolution when extremal values are removed one by one. Our method is easy to set up, it requires no prior knowledge on the system, and it may be used on-line. We illustrate its performance on two data sets representative of many use-cases: evolution of ego-centered views of the internet topology, and logs of queries entered into a search engine.

Download

Complex Networks approach to Mutualistic Ecosystems

Laura Hernandez

Jeudi 24 mai 2012 à 11h, salle 25-26/101

Mutualistic ecosystems are usually groups of animals and plants, helping each other to fulfil essential biological functions such as feeding or reproduction as in seed dispersal or pollination networks. Such systems may be described in terms of a complex network, where the nodes represent the animal or plant species and the links represent the existence of a contact between a plant and an animal species. As only contacts between nodes belonging to different guilds are allowed, the corresponding network is bipartite. Coding this information in a bipartite adjacency matrix, it is observed that real ecosystems are not a random collection of interacting species, but they display instead, a high degree of internal organization. Different hypothesis are discussed in the ecological literature to explain this particular order. It is fairly obvious that a detailed explanation of the interaction behaviour of individual species can be of little help to understand the generalized pattern that is found across ecological systems of very different sizes and types, that involve plants of different nature and animals that range from insects to birds. The tools commonly used by ecologists to study these systems are based on the statistical analysis of observed data. In this talk I will present an alternative way to study this problem, by introducing an algorithm that allows us to try different supposed hypothesis in the form of a Contact Preference Rule (CPR) that governs the dynamics of the system. Starting from a random configuration the system is evolved under the studied CPR and the comparison of the order state reached by this artificial system with the order observed in real systems allows us to decide whether a CPR may be considered or not as responsible for the observed order. In particular, I will introduce a new way to measure the order of mutualistic ecosystems and I will discuss about the relationship between the phylogenetic proximity of the members of each guild and the observed order.

How to detect causality effects on large dynamical communication networks: A case study

Tabourier, L. and Stoica, A. and Peruani, F.

Communication Systems and Networks (COMSNETS), 2012 Fourth International Conference on

Here we propose a set of dynamical measures to detect causality effects on communication datasets. Using appropriate comparison models, we are able to enumerate patterns containing causality relationships. This approach is illustrated on a large cellphone call dataset: we show that specific patterns such as short chain-like trees and directed loops are more frequent in real networks than in comparison models at short time scales. We argue that these patterns – which involve a node and its close neighborhood – constitute indirect evidence of active spreading of information only at a local level. This suggests that mobile phone networks are used almost exclusively to communicate information to a closed group of individuals. Furthermore, our study reveals that the bursty activity of the callers promotes larger patterns at small time scales.

Download

Classifying Relationships in Social Networks

Aline Carneiro Viana

Lundi 14 mai 2012 à 11h, salle 25-26/101

Slides

The constant advancement of information systems has allowed more data to be generated and stored from the most diverse situations. It is fascinating that, behind these records, we see the reflection of the environment itself, since every record represents a decision made by some entity. In this work, we modeled real-world scenarios of mobility from using temporal complex networks. The analysis assumes that these systems are composed of entities able to interact in a rational manner, reflecting their interests and activity dynamic. In this direction, we propose a technique for analyzing mobility scenarios from random graphs. This technique examines how the real system would evolve if the agents decisions were random, and from there, you can check, for example, which edges are random and which are derived from social relationships, such as friendship or professional.

Stable community cores in complex networks

Massoud Seifi, Jean-Loup Guillaume, Ivan Junier, Jean-Baptiste Rouquier and Svilen Iskrov

Proceedings of the 3rd Workshop on Complex Networks (CompleNet 2012), Melbourne, Florida

Complex networks are generally composed of dense sub-networks called communities. Many algorithms have been proposed to automatically detect such communities. However, they are often unstable and behave non-deterministically. We propose here to use this non-determinism in order to compute groups of nodes on which community detection algorithms agree most of the time.We show that these groups of nodes, called community cores, are more similar to Ground Truth than communities in real and artificial networks. Furthermore, we show that in contrary to the classical approaches, we can reveal the absence of community structure in random graphs.

Download

Community Cores in Evolving Networks

Massoud Seifi and Jean-Loup Guillaume

Proceedings of the Mining Social Network Dynamic 2012 Workshop (MSND), Inconjunction with the international conference World Wide Web WWW 2012, Lyon,France, pp. 1173-1180

Community structure is a key property of complex networks.Many algorithms have been proposed to automatically detect communities in static networks but few studies haveconsidered the detection and tracking of communities in anevolving network. Tracking the evolution of a given community over time requires a clustering algorithm that producesstable clusters. However, most community detection algorithms are very unstable and therefore unusable for evolvingnetworks. In this paper, we apply the methodology proposedin [14] to detect what we call community cores in evolvingnetworks. We show that cores are much more stable than »classical » communities and that we can overcome the disadvantages of the stabilized methods.

Download

R tip: Make a ggplot output ready for publication

Team pad