Détection de communautés recouvrantes dans des réseaux de terrain dynamiques

Qinna Wang

Jeudi 12 Décembre 2013 à 14h,salle 25-26/101

Slides

Dans le contexte des rĂ©seaux complexes, la structure communautaire du rĂ©seau devient un sujet important pour plusieurs domaines de recherche. Les communautĂ©s sont en gĂ©nĂ©ral vues comme des groupes intĂ©rieurement denses. La dĂ©tection de tels groupes offre un Ă©clairage intĂ©ressant sur la structure du rĂ©seau. Par exemple, une communautĂ© de pages web regroupe des pages traitant du mĂŞme sujet. La dĂ©finition de communautĂ©s est en gĂ©nĂ©ral limitĂ©e Ă  une partition de lensemble des nĹ“uds. Cela exclut par dĂ©finition quun nĹ“ud puisse appartenir Ă  plusieurs communautĂ©s, ce qui pourtant est naturel dans de nombreux (cas des rĂ©seaux sociaux par exemple). Une autre question importante et sans rĂ©ponse est lĂ©tude des rĂ©seaux et de leur structure communautaire en tenant compte de leur dynamique. Cettethèseporte sur lĂ©tude de rĂ©seaux dynamiques et la dĂ©tection de communautĂ©s recouvrantes. Nous proposons deux mĂ©thodes diffĂ©rentes pour la dĂ©tection de communautĂ©s recouvrantes. La première mĂ©thode est appelĂ©e optimisationde clique. L’optimisation de clique vise Ă  dĂ©tecter les nĹ“uds recouvrants granulaires. La mĂ©thode de l’optimisation de clique est une approche Ă  grain fin. La seconde mĂ©thode est nommĂ©e dĂ©tection floue (fuzzy detection). Cette mĂ©thode est Ă  grain plus grossier et vise Ă  identifier les groupes recouvrants. Nous appliquons ces deux mĂ©thodes Ă  des rĂ©seaux synthĂ©tiques et rĂ©els. Les rĂ©sultats obtenus indiquent que les deux mĂ©thodes peuvent ĂŞtre utilisĂ©es pour caractĂ©riser les nĹ“uds recouvrants. Les deux approches apportent des points de vue distincts et complĂ©mentaires. Dans le cas des graphes dynamiques, nous donnons une dĂ©finition sur la relation entre les communautĂ©s Ă  deux pas de temps consĂ©cutif. Cette technique permet de reprĂ©senter le changement de la structure en fonction du temps. Pour mettre en Ă©vidence cette relation, nous proposons des diagrammes de lignage pour la visualisation de la dynamique des communautĂ©s. Ces diagrammes qui connectent des communautĂ©s Ă  des pas de temps successifs montrent lĂ©volution de la structure et l’Ă©volution des groupes recouvrantes., Nous avons Ă©galement appliquer ces outils Ă  des cas concrets.

Une plus grande utilisation de la thĂ©orie des graphes dans l’analyse des rĂ©seaux

Bertrand Jouve

Jeudi 21 novembre 2013 Ă  11h, salle 25-26/101

A partir de deux exemples d’applications sur des donnĂ©es historiques (reconstruction de rĂ©seaux sociaux de la paysannerie mĂ©diĂ©vale et dynamiques de parcellaires anciens), nous montrerons comment il est possible d’amĂ©liorer nos outils de la thĂ©orie des graphes pour l’analyse des rĂ©seaux d’interactions. Nous baserons notre propos sur des recherches en thĂ©orie intervallaire et en topologie algĂ©brique.

Les capitalistes sociaux sur Twitter : détection, évolution, caractérisation

Nicolas Dugué

Jeudi 07 novembre 2013 Ă  11h, salle 25-26/101

Slides

Les capitalistes sociaux sont des utilisateurs particuliers de Twitter. Ces utilisateurs cherchent Ă  obtenir un maximum de followers par des mĂ©thodes que nous dĂ©crirons pour gagner de la visibilitĂ© sur ce rĂ©seau. La visibilitĂ© et la potentielle influence obtenues par ces utilisateurs ne sont pas basĂ©es sur le contenu de leurs tweets et la crĂ©dibilitĂ© de leur compte mais sur une accumulation de followers artificielle. Il est donc intĂ©ressant de dĂ©tecter ces utilisateurs afin d’Ă©tudier leur rĂ©elle influence sur le rĂ©seau. Nous proposons une mĂ©thode de dĂ©tection des capitalistes sociaux utilisant des mesures simples basĂ©es sur la topologie du rĂ©seau uniquement. Suite Ă  cela, nous montrons que les mĂ©thodes employĂ©es par ces utilisateurs font qu’ils forment un sous groupe densĂ©ment connectĂ© dans le graphe reprĂ©sentant le rĂ©seau. Par ailleurs, Ă  travers une Ă©tude sur l’Ă©volution de certains de ces comptes entre 2009 et 2013, nous dĂ©montrons l’efficacitĂ© de ces techniques pour accumuler des followers. Nous confirmons ensuite grâce Ă  un compte Twitter automatisĂ© qu’il est toujours possible d’appliquer ces mĂ©thodes. Enfin, nous nous intĂ©ressons Ă  la position des capitalistes sociaux dans le rĂ©seau. Nous nous basons ainsi sur la notion de rĂ´les communautaires introduite par GuimerĂ  et Amaral pour caractĂ©riser la position de ces utilisateurs au sein des communautĂ©s du rĂ©seau. Nous gĂ©nĂ©ralisons cette mĂ©thode, l’adaptons aux graphes orientĂ©s et montrons que les capitalistes sociaux occupent des rĂ´les spĂ©cifiques.

Analyse des rĂ©seaux et gĂ©ographie politique : l’ONU comme terrain de jeu

Laurent Beauguitte

Jeudi 24 octobre 2013 Ă  11h, salle 26-00/428

Slides

Si la gĂ©ographie a longtemps et de manière quasi exclusive privilĂ©giĂ© l’Ă©tude des rĂ©seaux techniques (rĂ©seaux de transport notamment, voir Barthelemy, 2011), l’analyse de rĂ©seau, entendue comme une boĂ®te Ă  outils mĂ©thodologiques plus que comme une thĂ©orie des phĂ©nomènes sociaux, permet d’enrichir les approches en gĂ©ographie Ă©conomique ou politique. Cette prĂ©sentation montre comment divers outils et mesures, issus de la Social network analysis comme des Complex network studies, peuvent ĂŞtre mobilisĂ©s pour une rĂ©flexion relative Ă  la rĂ©gionalisation politique du monde. La première partie prĂ©sente le cadre Ă©pistĂ©mologique et les emprunts disciplinaires effectuĂ©s. Diverses hypothèses relatives Ă  la rĂ©gionalisation politique sont ensuite exposĂ©es ainsi que les principaux rĂ©sultats obtenus avec des donnĂ©es issues de l’AssemblĂ©e gĂ©nĂ©rale de l’ONU (vote et parrainage de rĂ©solution, lien entre tats et groupes rĂ©gionaux). Enfin, une troisième partie souligne les limites conceptuelles et mĂ©thodologiques des choix effectuĂ©s et de possibles pistes de recherche permettant de les contourner. Si la pluri-disciplinaritĂ© paraĂ®t une voie prometteuse, les obstacles demeurent et ne se limitent pas Ă  des choix lexicaux divergents. RĂ©fĂ©rences Marc Barthelemy, 2011, Spatial networks, Physics reports, 499, 1-101. Laurent Beauguitte, 2011, L’AssemblĂ©e gĂ©nĂ©rale de l’ONU de 1985 Ă  nos jours. Essai de gĂ©ographie politique quantitative, Thèse de doctorat, UniversitĂ© Denis Diderot Paris 7, disponible sur TEL.

The Random Subgraph Model for the analysis of an ecclesiastical network in Merovingian Gaul

Charles Bouveyron

Jeudi 03 octobre 2013 Ă  11h, salle 25-26/101

Slides

In the last two decades, many random graph models have been proposed to extract knowledge from networks. Most of them look for communities or more generally clusters of vertices with homogeneous connection profiles. While the first models focused on networks with binary edges only, extensions now allow to deal with valued networks. Recently, new models were also introduced in order to characterize connection patterns in networks through mixed memberships. This work was motivated by the need of analyzing a historical network where a partition of the vertices is given and where edges are typed. A known partition is seen as a decomposition of a network into subgraphs that we propose to model using a stochastic model with unknown latent clusters. Each subgraph has its own mixing vector and sees its vertices associated to the clusters. The vertices then connect with a probability depending on the subgraphs only, while the types of the edges are assumed to be sampled from the latent clusters. A variational Bayes expectation-maximization algorithm is proposed for inference as well as a model selection criterion for the estimation of the cluster number. Experiments are carried out on simulated data to assess the approach. The proposed methodology is then applied to an ecclesiastical network in merovingian Gaul. An R package, called Rambo, implementing the inference algorithm is available on the CRAN. This is a joint work with Y. Jernite, P. Latouche, P. Rivera, L. Jegou & S. Lamassé. Preprint available at http://arxiv.org/abs/1212.5497.

Assessing Group Cohesion in Homophily Networks

Benjamin Renoust

Mardi 17 septembre 2013 Ă  11h, salle 25-26/101

Slides

The analysis and exploration of a social network depends on the type of relations at play. Borgatti had proposed a type taxonomy organizing relations in four possible categories. Homophily (similarity) relationships form an important category where relations occur when entities of the network link whenever they exhibit similar behaviors. Examples are networks of co-author, where homophily between two persons follows from co-authorship; or network of actors having played under the supervision of the same movie director, for instance. Homophily is often embodied through a bipartite network where entities of a given type A (authors, movie directors) connect through entities of a different type B (papers, actors). A common strategy is then to project this bipartite graph onto a single-type network with entities of a same type A , possibly weighting edges based on how the type A entities interact with the type B entities underlying the edge. The resulting single-type network can then be studied using standard techniques such as community detection using edge density, or the computation of various centrality indices. This paper revisits this type of approach and introduces three measures derived from past work by Burt. Two entities of type B interact when they both induce a same edge between two entities of type A . The homogeneity of a subgroup thus depends on how intensely and how equally interactions occur between entities of type B giving rise to the subgroup. The measure thus differentiates between subgroups of type A exhibiting similar topologies depending on the interaction patterns of the underlying entities of type B.

valuation et optimisation d’une partition hiĂ©rarchique de graphe

François Queyroi

Mardi 09 juillet 2013 Ă  14h, salle 25-26/101

Slides

Des travaux en sociologie, gĂ©ographie ou biologie suggèrent la prĂ©sence d’une structure de communautĂ©s multi-niveaux au sein des rĂ©seaux complexes. Cette structure peut ĂŞtre modĂ©lisĂ©e par un partitionnement hiĂ©rarchique des sommets d’un graphe. Plusieurs algorithmes ont Ă©tĂ© proposĂ©s rĂ©cemment pour rĂ©pondre Ă  ce problème. En revanche, la question de l’Ă©valuation d’une partition hiĂ©rarchique a Ă©tĂ© peu Ă©tudiĂ©e. Je prĂ©senterai une gĂ©nĂ©ralisation des mesures de qualitĂ© additives au partitionnements multi-niveaux. Cette gĂ©nĂ©ralisation sinterprète comme un parcours des nĹ“uds de l’arbre de partition rĂ©alisĂ© en propageant le « gain » de chaque groupe Ă  ses descendants. Je discuterai Ă©galement plusieurs applications possible utilisant ce nouveau type de mesure ; notamment l’optimisation de la hiĂ©rarchie produite lors du dĂ©roulement de l’algorithme de Louvain.

Using the Framework of Networks to Enhance Learning and Social Interactions

Dmitry Paranyushkin

Jeudi 27 juin 2013 Ă  11h, salle 55-65/211

Slides

The increasingly interconnected world brings up the new challenges related to rapid defragmentation of information and cognitive overload. The existing recommender systems and social networks tend to pack concepts and people into tightly-knit interest communities producing so-called filter bubbles » (Pariser 2011), making it difficult for such systems to evolve, adapt, and innovate. To address those challenges, we developed several social interaction strategies and online tools that are aimed at creating the new possibilities for communication and learning. The intention is to find out how the framework of networks can be used to enhance our learning strategies and expand ones capabilities for social interactions. Specifically, were interested in the notion of metastability the ability of a dynamical system to maintain several distinct latent states at once, which can interact and produce complex behavior on the global level. Metastable dynamics has been shown to be essential to adaptability of a complex system, which has to respond to the constantly changing environment. In this seminar we will present several case studies conducted by Nodus Labs. One of the projects we will present to exemplify our ideas is the online text network visualization tool – http://textexture.com – which can be used to represent any text as a network of interrelated concepts. The graph can then be used to get a general idea or a summary of the texts content, as well as the relations between the different topics present within the text. It can also be used for non-linear fast reading, allowing the users to create different narratives that are more relevant to their fields of interest. We will also present several case studies from our workshop and educational practice (see http://noduslabs.com for more information), where we created so-called constructed situations. In those carefully designed social settings we invited the participants to explore the basic ideas of network dynamics and metastability. The intention was to demonstrate how network thinking can be used to increase ones choices in any social or collaborative situation and lead to a better awareness of communicative dynamics within a group of people.

Scalable Analysis for Network Monitoring and Forensics Purposes

Jérôme François

Jeudi 06 juin 2013 Ă  11h30, salle 55-65/211

Slides

Security issues in Internet force the deployment of defensive measures to protect end users and Internet’s infrastructure itself. While a simple firewall would have been enough in the past, the trend is to promote a deeper analysis nowadays, in particular at the Internet operator level. Simple filtering has to be completed using more in-depth analysis tool. Detection of attacks may have to investigate multiple sources of data meantime and such sources, like network traffic captures, syslog, alerts or locations, may generate huge quantities of data. Forensics alleviates the real-time constraint but requires a perfect and global understanding of an intrusion to recover, protect in future and trigger legal actions as well. Hence, the problem is similar and finding evidences is like looking for a needle in a haystack. Therefore, the seminar will introduce several techniques to cope with big data issues in the context of security. Firstly, flow based methods will be presented as, for example, to track community of hosts participating to a botnet. This is possible by analyzing the traffic flow dependency in Internet and host relationships. Cyber-criminal organizations, like the Russian Business Network, are well organized and constructs their own Internet infrastructure and administrative domains which make them quite resistant to standard counter-measures like IP blacklisting. The seminar will then highlight how to reveal the underlying organization structure at a the Internet administrative domain level.

Social Network Analysis of Authority in the Blogosphere and its Application

Darko Obradovic

Lundi 3 juin 2013 Ă  11h, salle 25-26/101

Blogs are among the first social media sources in the Web 2.0, and they remain influential until today, with a broad coverage of topics and languages. Due to their decentralised structure, sampling of data and network analyses are different from online social networking sites. We present a possible method and evaluation for identifying and measuring authoritative blogs with SNA, using k-cores, random graphs and community identification. These results are then applied in a prototype tool for the monitoring of specific topics, in combination with text-based subtopic detection, polarity classification and a trend detection.

Partition en sous-graphes denses pour la détection de communautés

Julien Darlay

Jeudi 23 mai 2013 Ă  11h, salle 25-26/101

Slides

La dĂ©tection de communautĂ©s est un problème d’analyse de donnĂ©es oĂą les informations peuvent ĂŞtre reprĂ©sentĂ©es comme un graphe. Les sommets correspondent aux observations et les arĂŞtes reprĂ©sentent des interactions entre les observations. On cherche gĂ©nĂ©ralement une partition des sommets du graphe en classes induisant des sous-graphes denses, c’est-Ă -dire des groupes d’observations presque toutes deux Ă  deux similaires. Dans ce contexte, nous proposons une fonction objectif pour le problème de partition de graphe basĂ©e sur la densitĂ© dĂ©finie par Goldberg. La densitĂ© d’un graphe est le rapport entre le nombre d’arĂŞtes et le nombre de sommets. La densitĂ© d’une partition d’un graphe est alors dĂ©finie comme la somme des densitĂ©s des sous-graphes induits par chaque classe de la partition. Nous montrons que le problème consistant Ă  trouver la partition de densitĂ© maximale est un problème NP-difficile et non approximable. Lorsque le graphe est un arbre, nous montrons qu’il existe un algorithme polynomial pour trouver la partition optimale. Nous proposons une heuristique Ă  base de recherche locale Ă  l’aide de LocalSolver que nous Ă©valuons sur des instances de la littĂ©rature.

Wavelets on Graphs: a Tool for Multiscale Community Mining in Graphs

Nicolas Tremblay

Jeudi 11 avril 2013 Ă  11h, salle 25-26/101

Slides

For data represented by networks, the community structure of the underlying graph is of great interest. A classical clustering problem is to uncover the overall best partition of nodes in communities. We work on a more elaborate description in which community structures are identified at different scales. To this end, we take advantage of the local and scale-dependent information encoded in graph wavelets. We classify nodes according to their wavelets or scaling functions, using, for instance, a scale-dependent modularity function. I will give an introduction on spectral graph wavelets and scaling functions, and talk about our recent advances. I will show results obtained on a graph benchmark having hierarchical structure and on real social networks. This is joint work with my supervisor Pierre Borgnat.

Propriétés combinatoires et de robustesse de modèles discrets de réseaux biologiques

Sylvain Sené

Mercredi 13 mars 2013 Ă  14h, salle 25-26/105

Slides

Les rĂ©seaux d’automates sont des objets mathĂ©matiques mettant en jeu des entitĂ©s (dites automates) qui interagissent les unes avec les autres au cours d’un temps discret. En voyant ces rĂ©seaux comme des modèles potentiels de systèmes d’interactions biologiques, l’idĂ©e gĂ©nĂ©rale de cet exposĂ© est de montrer que l’informatique fondamentale permet d’accroĂ®tre la connaissance des lois gĂ©nĂ©rales qui rĂ©gissent le vivant. Plus prĂ©cisĂ©ment, nous utiliserons les rĂ©seaux d’automates boolĂ©ens comme modèles de rĂ©seaux de rĂ©gulation gĂ©nĂ©tique. Dans ce cadre, nous focaliserons notre attention sur deux thèmes, dĂ©veloppĂ©s en collaboration avec Mathilde Noual (I3S, UNS) et Damien Regnault (IBISC, UEVE) : – la combinatoire comportementale des cycles, objets dont on connaĂ®t l’importance sur la dynamique des rĂ©seaux depuis les travaux de RenĂ© Thomas (1981) et de François Robert (1986), et – la robustesse structurelle des rĂ©seaux, au sens de RenĂ© Thom (1972), que nous aborderons au travers de l’influence des modes de mise Ă  jour, et qui nous mènera Ă  l’Ă©tude d’une famille particulière de rĂ©seaux, les rĂ©seaux xor circulants.

Lois d’Ă©chelle des processus de trafic dans les rĂ©seaux de communications

Paulo Gonçalves

Jeudi 07 mars 2013 Ă  14h30, salle 25-26/101

Slides

Les travaux pionniers de Paxson (1994) et de Leland (1994), ont mis en Ă©vidence l’existence et identifiĂ© l’origine physique des propriĂ©tĂ©s d’auto-similaritĂ© et de dĂ©pendance Ă  longue portĂ©e dans les signaux de trafic agrĂ©gĂ©. Mais ces comportements ne sont pas les seules manifestations de phĂ©nomènes d’invariance d’Ă©chelle que l’on peut observer dans les rĂ©seaux de communications. Notamment, nous montrerons que le trafic agrĂ©gĂ© prĂ©sente en fait deux rĂ©gimes de dĂ©pendance Ă  long terme, d’origines diffĂ©rentes et correspondant chacun Ă  une gamme d’Ă©chelle d’agrĂ©gation propre. Nous nous intĂ©resserons ensuite Ă  un flot TCP individuel et montrerons que celui-ci vĂ©rifie un principe empirique de grandes dĂ©viations que l’on sait caractĂ©riser analytiquement via un modèle de Markov. Ce rĂ©sultat nous permet en particulier de gĂ©nĂ©raliser la relation dite de Padhye Ă  une distribution arbitraire des pertes de paquets. Dans un autre registre, nous proposerons enfin un modèle permettant de simuler la volatilitĂ© de charge d’un serveur de VidĂ©os Ă  la Demande, mais qui vĂ©rifie un principe analogue de grandes dĂ©viations. Pour finir, nous ouvrirons alors quelques pistes de rĂ©flexion sur l’exploitation de ces propriĂ©tĂ©s d’invariance d’Ă©chelle particulières pour dĂ©finir des politiques de management probabiliste des ressources. Travaux menĂ©s en collaboration avec P. Loiseau, S. Roy, T. Begin et J. Barral.

Connectivity of Bluetooth Graphs

Nicolas Broutin

Jeudi 28 mars 2013 Ă  11h, salle 25-26/101

Slides

One of the main models for wireless networks is the random geometric graph. In this model, the graph gets connected with high probability only when the average degree is of the order of the logarithm of the size. Although it is not enourmous, it still raises the question of the scalability. Other models (irrigation graphs or Bluetooth graphs) have been devised that sparsify the graph using a local rule and hope that it remains connected. We prove tight threshold for the number of edges necessary for connectivity in this model, showing that the average degree must in particular tend to infinity to expect connectivity. This is joint work with L. Devroye, N. Fraiman and G. Lugosi.

Trust-Based Service Discovery in Multi-Relation Social Networks

Joyce El Haddad

Jeudi 25 avril 2013 Ă  11h, salle 25-26/101

Slides

With the increasing number of services, the need to locate relevant services remains essential. To satisfy the query of a service requester, available service providers has first to be discovered. This task has been heavily investigated from both industrial and academic perspectives based essentially on registers. However, they completely ignore the contribution of the social dimension. When integrating social trust dimension to service discovery, this task will gain wider credibility and acceptance. If a service requester knows that discovered services are offered by trustworthy providers, he will be more confident. In this talk, we present a new discovery technique based on a social trust measure that ranks service providers belonging to the service requesters multi-relation social network. The proposed measure is an aggregation of three measures: the social position, the social proximity and the social similarity. To compute these measures, we take into account both semantic and structural knowledge extracted from the multi-relation social network. Semantic information includes service requestor and provider profiles and their interactions. Structural information includes among other the position of service providers in the multi-relation social network graph. This is joint work with A. Louati and S. Pinson.

Lutte contre les botnets

Eric Freyssinet, Guillaume Bonfante et Jean-Yves Marion

mardi 12 février 2013 à 10h30, salle 25-26/101

A l’occasion de ce sĂ©minaire, deux prĂ©sentations complĂ©mentaires sur la lutte contre les botnets sont prĂ©vues: AvancĂ©e de la rĂ©flexion sur la classification (Eric Freyssinet, PĂ´le judiciaire de la Gendarmerie Nationale, Chef de la division de lutte contre la cybercriminalitĂ© & LIP6): La classification des botnets ne fait pas encore l’objet d’une standardisation, contrairement aux logiciels malveillants eux-mĂŞmes ou encore les incidents de sĂ©curitĂ© informatique. Après une annĂ©e de suivi de l’activitĂ© et des informations publiĂ©es sur un grand nombre de botnets et leur inclusion dans un Wiki sĂ©mantique, notre rĂ©flexion permet d’envisager de faire des propositions pour contribuer aux standards de classification actuels. La prĂ©sentation portera sur les premières pistes de propositions, ainsi que sur quelques idĂ©es quant aux approches nĂ©cessaires pour assurer un suivi proactif du dĂ©ploiement de botnets. On detection methods and analysis of malware (Guillaume Bonfante and Jean-Yves Marion, University of Lorraine, LORIA, Nancy, France): This talk will present different research directions in malware analysis and detection. First, we will make a brief overview of the detection techniques and of the malware defenses. Then, we will essentially focus on (i) the analyze of cryptographic implementations, which are important for malware analysis where they are an integral part both of the malware payload and the unpacking code that decrypts this payload (presented at CCS this year) on (ii) behavior detection by means of model-checking (presented at Esoric this year) and (iii) on similarity detection by morphological analysis on which the current implementation of our home-made anti-virus is based.

e-Diasporas Atlas

Mathieu Jacomy

jeudi 10 janvier 2013 Ă  11h, salle 25-26/101

Slides

Le e-Diasporas Atlas est une expĂ©rimentation unique par ses rĂ©sultats scientifiques, sa mĂ©thode et son mode de publication. Historiquement, les e-diasporas ont Ă©mergĂ© avec la diffusion de linternet et le dĂ©veloppement de multiples services publiques en ligne. A la fin des annĂ©es 90, de nombreuses institutions se sont emparĂ© des e-technologies (e-administration, e-education…), entraĂ®nant dans leur sillage des associations de populations migrantes. Si les premiers sites ont Ă©tĂ© produits par des professionnels des technologies de linformation, toutes les communautĂ©s disporiques, et Ă  tous les niveaux, ont rapidement occupĂ© le terrain du web. Les dix dernières annĂ©es tĂ©moignent de lusage du web 1.0 comme du web 2.0, ainsi que de ladoption massive de diffĂ©rentes plateformes de rĂ©seaux sociaux (Facebook, LinkedIn…). Ces nouveaux moyens de communication et outils dorganisation ont produit un vaste e-corpus dont lexploration, lanalyse et larchivage navaient pas Ă©tĂ© tentĂ©s auparavant. Fruit des efforts de plus de 80 chercheurs Ă  travers le monde, le e-Diasporas Atlas est le premier de son espèce, avec près de 8000 sites migrants archivĂ©s et observĂ©s dans leurs interactions. Dana Diminescu, directrice scientifique du programme TIC-Migrations, et Mathieu Jacomy, responsable R&D, prĂ©senteront latlas et les Ă©tapes qui ont permis de le construire. DiffĂ©rentes questions mathĂ©matiques ou dingĂ©nierie ont trouvĂ© une rĂ©ponse originale, nĂ©cessitant souvent des dĂ©veloppements spĂ©cifiques. Cest par exemple au sein du programme TIC-Migrations que le logiciel Gephi a Ă©tĂ© créé et incubĂ©. Nous vous proposons de participer Ă  une discussion sur les mĂ©thodes numĂ©riques et lopĂ©rationnalisation du web-mining et de la thĂ©orie des graphes dans les humanitĂ©s numĂ©riques.

DĂ©tection et analyse d’une thĂ©matique rare dans de grands ensembles de requĂŞtes : l’activitĂ© pĂ©dophile dans le P2P

RaphaĂ«l Fournier-S’niehotta

vendredi 21 décembre 2012 à 12h, salle 25-26/105

L’objectif de cette thèse est d’utiliser de grands ensembles de requĂŞtes collectĂ©s sur des systèmes P2P pour Ă©tudier l’activitĂ© pĂ©dophile au sein de ces rĂ©seaux. En effet, malgrĂ© l’importance de ce problème pour la sociĂ©tĂ©, il existe peu de connaissances fiables en la matière. Nous procĂ©dons dans un premier temps Ă  la mise au point d’un outil capable de dĂ©tecter les requĂŞtes qui ciblent des contenus Ă  caractère pĂ©dopornographique, en assez faible quantitĂ© dans l’ensemble des requĂŞtes. Après avoir identifiĂ© quatre catĂ©gories de requĂŞtes pĂ©dophiles, nous Ă©tablissons les listes de mots-clefs et tests lexicaux requis pour les distinguer. Nous faisons ensuite classer des requĂŞtes Ă  un ensemble d’experts, afin d’Ă©valuer les performances de notre outil. Celui-ci disposant d’une prĂ©cision Ă©levĂ©e et d’un bon rappel, nous l’utilisons pour estimer de façon fiable la fraction de requĂŞtes pĂ©dophiles, proche de 0,25%. Nous abordons ensuite la quantification des utilisateurs entrant ces requĂŞtes. Dans un tel contexte, oĂą l’on ne dispose que de l’adresse IP et Ă©ventuellement d’un port de communication, identifier des utilisateurs est difficile. Nous proposons plusieurs mĂ©thodes pour ne pas mĂ©langer les requĂŞtes d’utilisateurs diffĂ©rents. La fraction d’utilisateurs pĂ©dophiles est proche de 0,22%. Nous analysons ensuite la dynamique temporelle de l’activitĂ© pĂ©dophile. La fraction de requĂŞtes pĂ©dophiles a significativement augmentĂ© entre 2009 et 2012. Nous examinons Ă©galement l’intĂ©gration sociale des utilisateurs pĂ©dophiles et constatons qu’ils privilĂ©gient la fin de la nuit pour effectuer ce type de requĂŞtes, ce en quoi ils diffèrent des autres utilisateurs, notamment ceux soumettant des requĂŞtes pornographiques. Enfin, nous confrontons les rĂ©sultats obtenus sur le rĂ©seau eDonkey avec ceux du rĂ©seau KAD, après avoir dĂ©fini une mĂ©thodologie permettant d’obtenir des donnĂ©es comparables. Nous supposons initialement que le niveau d’anonymat offert par KAD, complètement dĂ©centralisĂ©, permet aux utilisateurs de participer Ă  davantage d’Ă©changes pĂ©dopornographiques. Nous constatons au contraire que l’activitĂ© pĂ©dophile est plus importante sur eDonkey et estimons que la fraction de requĂŞtes pĂ©dophiles sur KAD est proche de 0.1%.

Analyse de grands graphes aléatoires

Emilie Coupechoux

lundi 10 dĂ©cembre 2012 Ă  10h30, salle du Conseil (4ème Ă©tage), antenne parisienne de l’INRIA, 23 avenue d’Italie, 75013 Paris

Plusieurs types de réseaux du monde réel peuvent être représentés par des graphes dont les sommets représentent des individus (dans le cas des réseaux sociaux) ou des pages Web (dans le cas du World Wide Web), pour ne citer que ces exemples. Chaque arête du graphe correspond à une interaction entre sommets: dans les réseaux sociaux, une arête est présente entre deux sommets si les individus quils représentent sont amis; dans le World Wide Web, les arêtes représentent les liens hypertextes entre les pages Web. Comme il sagit de réseaux de très grande taille, leur topologie détaillée est généralement inconnue, et nous les modélisons par de grands graphes aléatoires ayant les mêmes propriétés statistiques locales que celles des réseaux observés. Un exemple de telle propriété est la présence de regroupements dans les réseaux réels: si deux individus ont un ami en commun, ils ont également tendance à être amis entre eux. tudier des modèles de graphes aléatoires qui soient à la fois appropriés et faciles à aborder dun point de vue mathématique représente un challenge, cest pourquoi nous considérons plusieurs modèles de graphes aléatoires possédant ces propriétés. La propagation dépidémies dans les graphes aléatoires peut être utilisée pour modéliser plusieurs types de phénomènes présents dans les réseaux réels, comme la propagation de maladies, ou la diffusion dune nouvelle technologie. Le modèle épidémique que nous considérons dépend du phénomène que nous voulons représenter : un individu peut contracter une maladie par un simple contact avec un de ses amis (ces contacts étant indépendants), mais une nouvelle technologie est susceptible dêtre adoptée par un individu lorsque beaucoup de ses amis ont déjà la technologie en question. Nous étudions essentiellement ces deux différents cas de figure. Dans chaque cas, nous cherchons à savoir si une faible proportion de la population initialement atteinte (ou ayant la technologie en question) peut propager lépidémie à une grande partie de la population: si cest le cas, on dit quune cascade est possible. La transition de phase de ce phénomène est étroitement liée à lapparition dune composante géante dans un graphe aléatoire (il y a une composante géante dans un graphe aléatoire si la taille de sa plus grande composante connexe augmente de façon linéaire avec la taille totale du graphe). Létude des graphes aléatoires permet notamment la prédiction de propriétés globales (savoir dans quel cas une cascade est possible ou non) pour des grands réseaux sur lesquels nous ne disposons que de données locales.