Local community identification in social networks

Blaise Ngonmang

Jeudi 22 mars 2012 à 11h, salle 25-26/101

Slides

In social networks, the detection of communities has gained considerable interest because it can be used for instance for visualization, recommendation in business applications or the analysis of the spread of infectious diseases. Many methods proposed in the litera- ture for the solution of this problem, assume that the structure of the entire network is known, which is not realistic for very large and dynamic networks. For this reason, approaches have been introduced recently to find the local community of a node. Most of these methods often fail when the starting node is at the boundary of a community. In addition, they are not able to detect overlapping communities. In this work, we propose new methods to find local communities that don’t have these drawbacks. Experiences on real and computer generated social networks such as Netscience, Amazon 2006 and Lan- cichinetti et al.’s benchmark show that these methods perform better than the solutions with which the comparisons were performed.

Impact of power-law topology on IP-level routing dynamics: simulation results

Amélie Medem, Clémence Magnien and Fabien Tarissan

Fourth International Workshop on Network Science for Communication Networks (NetSciCom), 2012

This paper focuses on the Internet IP-level routing topology and proposes relevant explanations to its apparent dynamics.We first represent this topology as a power-law random graph. Then, we incorporate to the graph two well known factors responsible for the observed dynamics, which are load balancing and route evolution. Finally, we simulate on the graph traceroute-like measurements. Repeating the process many times, we obtain several graph instances that we use to model the dynamics. Our results show that we are able to capture on power-law graphs the dynamic behaviors observed on the Internet. We find that the results on power-law graphs, while qualitatively similar to the one of  Erdös-Rényi  random graphs, highly differ quantitatively; for instance, the rate of discovery of new nodes in power-law graphs is extremely low compared to the rate in Erdös-Rényi graphs.

Download

Internal links and pairs as a new tool for the analysis of bipartite complex networks

Oussama Allali, Lionel Tabourier, Clémence Magnien, Matthieu Latapy

Social Network Analysis and Mining, March 2013, Volume 3, Issue 1, pp 85-91.

Many real-world complex networks are best modeled as bipartite (or 2-mode) graphs, where nodes are divided into two sets with links connecting one side to the other. However, there is currently a lack of methods to analyze properly such graphs as most existing measures and methods are suited to classical graphs. A usual but limited approach consists in deriving 1-mode graphs (called projections) from the underlying bipartite structure, though it causes important loss of information and data storage issues. We introduce here internal links and pairs as a new notion useful for a bipartite analysis, and which gives insights on the information lost by projecting the bipartite graph. We illustrate the relevance of theses concepts on several real-world instances illustrating how it enables to discriminate behaviors among various cases when we compare them to a benchmark of random graphs. Then, we show that we can draw benefit from this concept for both modeling complex networks and storing them in a compact format.

Download

On Pagerank, teleportation and modelling dynamics in complex networks

Renaud Lambiotte

Jeudi 16 février 2012 à 11h – salle 55-65/211

Slides

In this talk, I will present recent results from 2 recent papers. i) Random teleportation is a necessary evil for ranking and clustering directed networks based on random walks. Teleportation enables ergodic solutions, but the solutions must necessarily depend on the exact implementation and parametrization of the teleportation. For example, in the commonly used PageRank algorithm, the teleportation rate must trade off a heavily biased solution with a uniform solution. Here we show that teleportation to links rather than nodes enables a much smoother trade-off and effectively more robust results. We also show that, by not recording the teleportation steps of the random walker, we can further reduce the effect of teleportation with dramatic effects on clustering. ii) The traditional way of studying temporal networks is to aggregate the dynamics of the edges to create a static weighted network. This implicitly assumes that the edges are governed by Poisson processes, which is not typically the case in empirical temporal networks. Consequently, we examine the effects of non-Poisson inter-event statistics on the dynamics of edges, and we apply the concept of a generalized master equation to the study of continuous-time random walks on networks. We show that the equation reduces to the standard rate equations when the underlying process is Poisson and that the stationary solution is determined by an effective transition matrix whose leading eigenvector is easy to calculate. We discuss the implications of our work for dynamical processes on temporal networks and for the construction of network diagnostics that take into account their nontrivial stochastic nature.

Dynamics on networks for communities, centralities and consensus

Jean-Charles Delvenne

Lundi 6 février 2012 à 11h – salle 25-26/105

Dynamical systems taking place on networks, such as opinion dynamics, synchronization, consensus or random walks, reveal a lot about their structure. In particular we show, through a dynamical reinterpretation of well-known concepts, how centrality measures (such as pagerank, eigencentrality, etc.) and community detection quality functions (such as modularity, Potts, model, stability, etc.) are intimately related. The dynamical interpretation allows to design new centrality or community detection measures tailored for every particular application.

I Know Where You are and What You are Sharing: Exploiting P2P Communications to Invade Users’ Privacy

Arnaud Legout

Mardi 31 janvier 2012 à 11h – salle 25-26/101

Slides

In this presentation, we show how to exploit real-time communication applications to determine the IP address of a targeted user. We focus our study on Skype, although other real-time communication applications may have similar privacy issues. We first design a scheme that calls an identified-targeted user inconspicuously to find his IP address, which can be done even if he is behind a NAT. By calling the user periodically, we can then observe the mobility of the user. We show how to scale the scheme to observe the mobility patterns of tens of thousands of users. We also consider the linkability threat, in which the identified user is linked to his Internet usage. We illustrate this threat by combining Skype and BitTorrent to show that it is possible to determine the filesharing usage of identified users. We devise a scheme based on the identification field of the IP datagrams to verify with high accuracy whether the identified user is participating in specific torrents. We conclude that any Internet user can leverage Skype, and potentially other real-time communication systems, to observe the mobility and filesharing usage of tens of millions of identified users.

Modèle d’optimisation pour les réseaux radio maillés

Hervé Rivano

Vendredi 20 janvier 2012 – salle 203-205 (bât 41)

Slides

Les réseaux radio maillés sont une solution d’extension des infrastructures cellulaires. Ils permettent de densifier simplement le réseau en collectant le trafic d’utilisateurs vers un point d’accès à l’infrastructure via des communications radio multi-saut. Cette densification permet une diminution des puissances d’émission, donc des consommations énergétiques, et un accroissement de la capacité offerte aux utilisateurs. Durant ce séminaire, nous présenterons des formulation en programmation linéaire et génération de colonnes de l’optimisation du routage et de la configuration de tels réseaux et nous en servons pour étudier le compromis entre consommation énergétique du système et capacité du réseau sur des modèles au réalisme croissant. Nous concluons sur les perspectives d’une étude prenant en compte de manière détaillée l’environnement urbain dans lequel ces réseaux ont vocation à être déployés.

Directedness of Information Flow in Mobile Phone Communication Networks

Fernando Peruani and Lionel Tabourier

PLoS ONE, Vol 6(12), 2011

Without having direct access to the information that is being exchanged, traces of information flow can be obtained by looking at temporal sequences of user interactions. These sequences can be represented as causality trees whose statistics result from a complex interplay between the topology of the underlying (social) network and the time correlations among the communications. Here, we study causality trees in mobile-phone data, which can be represented as a dynamical directed network. This representation of the data reveals the existence of super-spreaders and super-receivers. We show that the tree statistics, respectively the information spreading process, are extremely sensitive to the in-out degree correlation exhibited by the users. We also learn that a given information, e.g., a rumor, would require users to retransmit it for more than 30 hours in order to cover a macroscopic fraction of the system. Our analysis indicates that topological node-node correlations of the underlying social network, while allowing the existence of information loops, they also promote information spreading. Temporal correlations, and therefore causality effects, are only visible as local phenomena and during short time scales. Consequently, the very idea that there is (intentional) information spreading beyond a small vicinity is called into question. These results are obtained through a combination of theory and data analysis techniques.

Download

Gendarmerie, cybercriminalité et lutte contre les botnets

Eric Freyssinet

Jeudi 5 janvier 2012 à 11h – salle 25-26 / 101

Slides

Présentation générale des activités contre la cybercriminalité de la gendarmerie nationale. Projet de recherche sur le cas spécifique des botnets.

Détection de communautés dans les réseaux dynamiques

Thomas Aynaud

Mercredi 30 novembre 2011 à 14h en salle 25-26 / 105

La plupart des graphes de terrain ont une structure particulière constituée de communautés. Les noeuds sont organisés suivant des groupes appelés des communautés avec beaucoup de connexions internes mais peu entre eux. L’identification des communautés apporte un éclairage nouveau sur la structure du graphe et est importante dans de nombreux contextes. Elle a, par exemple, déjà été utilisée pour la visualisation de graphes et pour étudier différents types de réseaux comme des réseaux sociaux ou biologiques. Nous allons étudier cette structure dans le cas des réseaux dynamiques. Pour cela, nous allons suivre deux approches. La première consiste à suivre des communautés au cours du temps en les détectant à chaque instant et en suivant leur évolution. Nous verrons que bien que très naturelle, cette approche pose de nombreuses questions de stabilité : les algorithmes ont tendance à modifier beaucoup leur résultat même si le réseau change peu. Cela implique que les transformations observées dans les communautés sont en fait liées à l’algorithme et non à l’évolution de la structure du réseau. Nous proposerons donc une analyse de l’instabilité de trois algorithmes et une solution que nous validerons sur plusieurs graphes de terrain. La deuxième approche consiste à détecter la structure communautaire non pas juste pour un instant mais pour une période donnée appelée la fenêtre de temps. La durée de la période est alors un problème crucial et nous proposons une méthode de décomposition en fenêtres de temps dans un graphe dynamique. Une particularité de la méthode est que le résultat est un regroupement hiérarchique : les fenêtres de temps sont elles-mêmes susceptibles d’en contenir. En outre, les fenêtres n’ont pas besoin d’être contiguës ce qui permet par exemple de détecter une structure se répétant. Enfin, nous conclurons par des applications à la détection d’événements sur Internet et la segmentation de vidéos. Nous montrerons que l’on peut détecter des événements en trouvant les moments où la structure change brutalement et montrerons que nous détectons à la fois de nouveaux événements et des événements déjà identifiés par d’autres méthodes. Pour la segmentation de vidéos, nous avons aussi eu des problème de stabilité et nous avons donc développé une méthode plus stable de suivi et de détection.

Dynamique des graphes de terrain : caractérisation et étude du biais lié à la mesure

Lamia Benamara

Mardi 29 novembre 2011 à 11h, en salle 25-26 / 105

Les graphes de terrain apparaissent dans de nombreux contextes : réseaux informatiques, réseaux biologiques, réseaux sociaux, graphes issus du web, etc. Jusqu’à récemment ces objets étaient principalement étudiés sous un angle statique. Or, la plupart de ces graphes sont en réalité des graphes dynamiques. Cette dynamique peut apparaître d’une façon différente selon les contextes : réseaux sociaux dans lesquels des connexions entre individus apparaissent et disparaissent au cours du temps, graphes du web dans lesquels des pages sont créées ou supprimées, etc. Un grand nombre de résultats de ces 10 dernières années ont introduit un ensemble d’outils pour l’analyse et la description des graphes statiques, mais peu a été fait pour l’étude de leur dynamique. Nous avons abordé dans cette thèse la problématique de la caractérisation de la dynamique des graphes de terrain tout en prenant en compte le biais lié à la mesure, en nous appuyant sur des cas concrets de graphes dynamiques. Nos contributions se sont orientées dans deux directions. Nous nous somme tout d’abord intéressés à l’étude du biais dans l’observation de la dynamique induit par le fait que la période d’observation est finie. Nous avons proposé une nouvelle méthodologie qui permet de déterminer si la longueur de la période d’observation est suffisante pour une caractérisation rigoureuse d’une propriété donnée. Cette méthodologie est générique et peut être appliquée à n’importe quelle propriété caractérisant un graphe de terrain dynamique. Pour démontrer la pertinence de notre méthodologie, nous l’avons appliquée à l’étude de différentes propriétés dans un système P2P. Notre deuxième contribution consiste en une approche pour étudier des graphes dynamiques. Nous avons cherché à la fois à caractériser la dynamique globale de ces systèmes, et à identifier les éventuels nœuds ayant un comportement particulier. Nous avons étudié plusieurs jeux de données issus de réseaux de contacts entre personnes et nous avons montré que chaque jeu de données a ses particularités. Nous avons également constaté que certaines caractéristiques sont partagées par tous les jeux de données. En particulier, la dynamique globale du réseau change en fonction de la période d’observation et le comportement de certains nœuds diffère du comportement global du système.

Diffusion dinformation et structure en communautés dans un réseau de blogs

Abdelhamid Salah Brahim

Jeudi 8 décembre 2011 à 10h30 – salle 25-26 / 105

On peut modéliser de nombreux objets issus du monde réel par des graphes. Ces objets sont issus de contextes très différents (ex. réseaux informatiques, sociaux ou biologiques), cependant ils se ressemblent au sens de certaines propriétées statistiques. On les désigne sous le terme général de graphes de terrain (complex networks en anglais) ou grands graphes d’interaction. L’analyse des graphes de terrain est probablement le plus grand champ de recherche du domaine et l’étude des phénomènes de diffusion constitue un des axes importants dans la compréhension de ces objets. Beaucoupde précédentes études ont été menées sur la diffusion avec une approche théorique mais avec l’apparition de données issues du monde réel de plus en plus riches, une approche empirique de l’analyse de ces réseaux est apparue comme une nécessité. La diffusion peut être de différentes natures: diffusion d’information, d’idées ou d’opinion. Cette diffusion est vue dans la plupart des travaux comme le résultat de l’interaction entre les éléments du réseau (i.e. les nœuds du graphe). En complément de cette vision, nous considérons dans cette thèse que la diffusion, en plus de se produire entre les nœuds, est aussi le résultat de l’interaction entre des groupes de nœuds, appelés communautés, qui ont des propriétés en commun. On dit que le réseau possède une structure en communautés. Cette approche ouvre de nouvelles perspectives pour la compréhension et la caractérisation des graphes de terrain. L’objectif de cette thèse est d’étudier les phénomènes de diffusion de manière empirique non seulement à l’échelle des nœud mais à différents niveaux de la structure en communautés. A l’aide d’une approche statistique, nous proposons un ensemble de méthodes et de métriques pour aborder la diffusion sous un nouvel angle et aller plus loin dans la caractérisation de ces phénomènes .Nous nous proposons d’étudier les liens de diffusion au sein d’un réseau de blogs francophones. Nous montrons en premier lieu l’impact des communautés sur la popularité des blogs et distinguons des classes de comportement. Cela nous conduit à investiguer les interactions entre les communautés. Pour ce faire, nous définissons deux mesures: la distance communautaire et l’Homophilie. En dernier lieu, nous étudions la diffusion de proche on proche dans le graphe, caractérisée par des cascades de diffusion. Nous montrons que notre approche permet de détecter et d’interpréter les différents comportements de diffusion et de faire le lien entre les propriétés topologiques, temporelles et communautaires.

Deciding on the type of the degree distribution of a graph (network) from traceroute-like measurements

Xiaomin Wang

Mardi 13 décembre 2011 à 10h – salle 25-26 / 105

The degree distribution of the Internet topology is considered as one of its main properties. However, it is only known through a measurement procedure which gives a biased estimate. This measurement may in first approximation be modeled by a BFS (Breadth-First Search) tree. We explore here our ability to infer the type (Poisson or power-law) of the degree distribution from such a limited knowledge. We design procedures which estimate the degree distribution of a graph from a BFS or multi-BFS trees, and show experimentally (on models and real-world data) that our approaches succeed in making the difference between Poisson and power-law degree distribution and in some cases can also estimate the number of links. In addition, we establish a method, which is a diminishing urn, to analyze the procedure of the queue. We analyze the profile of the BFS tree from a random graph with a given degree distribution. The expected number of nodes and the expected number of invisible links at each level of BFS tree are two main results that we obtain. Using these informations, we propose two new methodologies to decide on the type of the underlying graph.

Génomique comparée et fouille de données enzymatiques

Olivier Lespinet

Jeudi 1er Décembre 2011, 11h, Amphi Herpin (bât. Esclangon)

Les champignons possèdent une très grande variété d’enzymes aux nombreuses applications potentielles. Nos travaux visent à étudier l’ensemble de cette diversité enzymatique afin de comprendre comment elle a pu prendre place et se maintenir au cours du temps. En utilisant des méthodes d’apprentissage et de fouille de données nous essayons également de voir dans quelle mesure la capacité enzymatique des champignons permet de rendre compte de leur évolution.

PORGY : Un environement interactif et visuel pour la réécriture de graphes adapté aux systèmes complexes

Bruno Pinaud

Jeudi 17 Novembre 2011, 11h, salle 25-26/105

Les systèmes de réécriture de graphes sont simples à expliquer : ils réalisent des modifications sur un graphe en remplaçant des sous-graphes sélectionnés au préalable sur la base de règles de transformations. Néanmoins, la combinaison des règles pour leur application transforme l’étude de ces systèmes en un problème complexe. A cause de cela, les experts de ces systèmes se satisfont bien souvent de représentations textuelles ou alors de dessins fait à la main pour représenter les règles de transformations. Au cours de cet exposé, je présenterai PORGY qui est un environnement visuel et interactif pour la réécriture de graphe. Cet environnement conçu avec des experts de réécritures de graphes qui avaient envie d’un véritable système interactif et visuel permet de construire, simuler et raisonner de façon visuelle et interactive sur le système complexe à étudier.

Evolutionary Modeling of Large Complex Networks

Telmo Menezes

Jeudi 17 Novembre 2011, 11h, salle 25-26/105

Complex networks are a powerful abstraction that fits a variety of phenomena across several scientific fields, including biology, sociology and economy. Analyzing and extracting insights from large complex networks is an ongoing goal of Complexity Science. In this presentation we present a novel approach based on evolutionary computation and genetic programming. Our method relies on using simple computer programs to represent network generative models, and then applying evolutionary search to find the best generators for observed networks. The final goal of this work is to be able to map large complex networks to plausible generators that have an high explanatory power. For this approach to be successful, a few obstacles have to be overcome. One of these is the measure of quality that guides evolutionary search, which has high overlap with another open problem in network theory: how to measure the distance between large networks with arbitrary sizes and topologies. We present our own solution to this problem using centrality metrics and a well known image recognition algorithm.

Détection visuelle dévénements dans des grands réseaux dinteraction dynamiques. Application à lInternet

Bénédicte Le Grand et Matthieu Latapy

Atelier EGC 2011 Visualisation et Extraction de Connaissances, Brest, France, Janvier 2011.

L’objectif des travaux présentés dans ce papier est de faciliter la détection visuelle d’événements dans des réseaux d’interaction dynamiques de grande taille. Deux méthodes de visualisation classiques et «exhaustives» ont été étudiées, qui repré-sentent l’évolution des liens du réseau au fil du temps. Les limites liées au facteur d’échelle nous ont conduits à proposer deux métaphores restreintes au suivi des noeuds du réseau. Les forces, les limites et la complémentarité de ces quatre métaphores nous ont permis de déga-ger une ébauche de méthodologie de détection d’événements dans la dynamique de grands réseaux d’interaction. Les visualisations et la méthodologie présentées dans cet article sont génériques et appli-cables à tout type de noeuds et de liens ; elles sont ici appliquées pour illustration à un sous-ensemble du réseau Internet.

Download

Extracting and Visualizing Tree-Like Structures from Concept Lattices

Cassio Melo, Benedicte Le Grand, Marie-Aude Aufaure, and Anastazia Berezianos

IV’2011 conference on Information Visualization, London, July 2011.

Concept lattices built with Formal Concept Analysis are usually represented by Hasse diagrams illustrating the groupings of objects described by common attributes. Hasse diagrams display the relations of partial order between concepts in a hierarchical fashion, where each concept may have several parent concepts. Lattice visualization becomes a problem as the number of clusters grows significantly with the number of objects and attributes. Interpreting the lattice through a direct visualization of the line diagram rapidly becomes impossible and more synthetic representations are needed. In this work we propose several methods to enhance the readability of concept lattices firstly though colouring and distortion techniques, and secondly by extracting and visualizing trees derived from concept lattices structures.

Download

Citations among blogs in a hierarchy of communities: method and case study

Abdelhamid Salah brahim, Bénédicte Le Grand, Lionel Tabourier, Matthieu Latapy

Journal of Computational Science, Vol 2(3), 2011

How does the structure of a network (e.g. its organization into groups or communities) impact the interaction among its nodes? In this paper we propose a generic methodology to study the correlation between complex networks interactions and their community structure. We illustrate it on a blog network and focus on citation links. We first define a homophily probability evaluating the tendency of blogs to ite blogs from the same communities. We then introduce the notion of community distance to capture if a blog cites (or is cited by) blogs distant or not from its community. We analyze the distribution of distances corresponding to each citation link, and use it to build maps of relevant communities which help interpreting blogs interactions. This community-oriented approach allows to study citation links at various abstraction levels, and conversely, enable us to characterize communities with regard to their citation behaviour.

Download

Extraction hiérarchique de fenêtres de temps basée sur la structure communautaire

Thomas Aynaud and Jean-Loup Guillaume

in Proceedings of MARAMI 2011

Dans cet article nous décrivons une méthode de décomposition du temps en fenêtres de temps dans un graphe dynamique. Une particularité de la méthode est que le résultat est un regroupement hiérarchique : les fenêtres de temps sont elles-mêmes susceptibles d’en contenir. En outre, les fenêtres n’ont pas besoin d’être contiguës ce qui permet par exemple de détecter une structure se répétant. De plus, chaque fenêtre est associée à une décomposition en communautés représentant la structure topologique du réseau durant cette fenêtre. Nous appliquons ensuite cette méthode à trois graphes de terrain dynamiques ayant des caractéristiques différentes pour montrer que les fenêtres identifiées correspondent bien à des phénomènes observables. In this paper, we describe a way to cluster the time in time windows in a dynamic network. The result is a tree and thus time windows can themselves contain smaller ones. Moreover, the windows do not have to be consecutive and this allows for instance to detect repeated structure. Each window is also associated to a community decomposition that represents the topological structure of the network during this window. We then apply the method to three dynamic networks to show that observed time windows correspond to observable phenomena.

Download