Lionel Tabourier
Vendredi 11 avril 2014 Ă 11h, salle 25-26/101
Au cours de cet exposĂ©, je prĂ©senterai une mĂ©thode d’apprentissage supervisĂ© pour la prĂ©diction de liens dans les rĂ©seaux sociaux, et plus prĂ©cisĂ©ment pour dĂ©tecter des liens qui n’ont pas Ă©tĂ© collectĂ©s lors de l’acquisition des donnĂ©es.
Pour illustrer l’utilisation de la mĂ©thode, nous utilisons un CDR (Call Detail Record) portant sur environ 1 million d’utilisateurs de tĂ©lĂ©phone portable et simulons la situation dans laquelle se trouve un opĂ©rateur tĂ©lĂ©phonique: celui-ci a connaissance des appels entre ses clients, et entre ses clients et des clients de concurrents. Mais avoir accès aux interactions existant entre les clients de ses concurrents serait aussi avantageux, car le taux d’attrition est Ă©troitement liĂ© Ă la structure du rĂ©seau social d’un utilisateur.
Cependant, cette tâche est difficile: il s’agit de prĂ©dire des relations non-observĂ©es, dans un contexte oĂą les classes de prĂ©diction sont fortement asymĂ©triques: alors que beaucoup de liens sont possibles, peu existent. C’est pourquoi les mĂ©thodes non-supervisĂ©es classiques, qui utilisent diffĂ©rentes caractĂ©ristiques structurelles du rĂ©seau pour classer les paires de noeuds, sont peu performantes dans ce contexte.
Je dĂ©crirai RankMerging, une mĂ©thode d’apprentissage supervisĂ©e simple et peu coĂ»teuse computationnellement, qui agrège les classements issus de diffĂ©rentes sources d’information pour amĂ©liorer les performances de prĂ©diction. L’opĂ©rateur apprend les paramètres en utilisant les donnĂ©es de ses propres clients et les utilise ensuite sur les clients de ses concurrents. La mĂ©thode est adaptĂ©e Ă la situation dans laquelle nous nous trouvons: nous ne cherchons pas Ă obtenir une très bonne prĂ©cision sur un petit nombre de prĂ©dictions, mais plutĂ´t un bon compromis sur une bonne partie de l’espace Precision-Recall, permettant Ă l’opĂ©rateur d’ajuster sa stratĂ©gie.
Ensuite, je discuterai du cas des rĂ©seaux ego-centrĂ©s, pour lesquels l’utilisation de cet outil est pertinente. En effet, dans le cas oĂą l’on n’a accès qu’aux interactions d’un noeud avec ses voisins immĂ©diats, l’information structurelle est très pauvre et nous devrons donc chercher d’autres sources d’information puis les agrĂ©ger. Ici, nous discuterons comment la temporalitĂ© des interactions peut ĂŞtre exploitĂ©e comme source d’information pour amĂ©liorer les performances de la prĂ©diction.