La méthode derrière la technologie Karibu

Méthodologie de profilage basée sur les centres d’intérêts d’utilisateurs anonymes présents sur le leader des réseaux sociaux, identifiés en fonction de leur activité sur les pages publiques de ce réseau.

Posté le 27/11/2018
Introduction

En 2018, le leader des réseaux sociaux compte environ 150 millions d'utilisateurs actifs quotidiennement et plus de 50 millions de pages publiques. Il est alors intéressant de croiser ces deux types d'informations afin de connaître, par exemple, les centres d'intérêt des utilisateurs de ce réseau en fonction des pages publiques sur lesquelles ils sont actifs. Pour une entreprise possédant une page publique, l'intérêt de ce type de profilage est essentiellement marketing. Il peut notamment lui permettre de mieux connaître les goûts de ses clients et ainsi d'orienter ses opérations marketing.

Les données

Nous avons pu travailler avec un dataset de 743 pages publiques de domaines très variés (chaînes TV, sportifs, acteurs, agroalimentaire, etc.). Pour une page, les données correspondent à des utilisateurs (anonymisés) ayant cliqué (like, commentaire ou partage) au moins une fois sur une publication de cette page.

Afin d'élaborer une méthodologie de profilage à partir de ces données, nous avons imaginé que le fast-food Y France était notre client.

C'est donc la population engagée sur la page de ce fast-food Y France qui nous intéresse ; en d'autres termes, les clients fidèles à ce fast-food. Les goûts des clients sont identifiés grâce à leurs activités sur les publications des autres pages publiques collectées.

L'objectif est donc de développer une méthodologie permettant d'identifier les similitudes entre les goûts des utilisateurs engagés sur la page Fast-food Y France afin de définir des profils. Pour cela, nous avons construit le tableau de données suivant :

Lecture du tableau : l'utilisateur 1 (ID 1) a cliqué 17 fois parmi les publications de la page Skyrock, 2 fois parmi les publications de la page TF1 et 5 fois parmi les publications de la page Cristiano Ronaldo.

Ce tableau contient tous les utilisateurs ayant cliqué au moins une fois parmi les publications de la page fast-food Y France et parmi les publications d'au moins une des 743 pages.

La méthodologie
Les données utilisées sont de grandes dimensions. Il est donc primordial de les traiter afin d'optimiser les résultats.
1. Les traitements
Utilisateurs

Pour chaque utilisateur, nous avons calculé son nombre moyen de clics en fonction des pages sur lesquelles il a cliqué. Nous nous sommes rendus compte de la présence d'outliers. Ils correspondent à des utilisateurs "robots", c'est-à-dire à des utilisateurs qui ont cliqué, en moyenne, un nombre significativement plus élevé de fois que la majorité des utilisateurs. La présence d'outliers affecte généralement les résultats des algorithmes de clustering. Nous les avons donc supprimés.

Nous rappelons que nous souhaitons connaître les goûts des utilisateurs engagés sur la page Fast-food Y France. Nous ne pouvons pas considérer qu'un utilisateur ayant cliqué une seule fois parmi les publications d'une page est engagé sur cette page. Nous ne pouvons pas non plus déterminer avec précision à partir de quel seuil un utilisateur peut être engagé sur une page. Nous faisons l'hypothèse que ce seuil correspond au nombre moyen de clics sur la page Fast-food Y France, soit 2,33. Ainsi, nous décidons de supprimer tous les utilisateurs ayant cliqué moins de 3 fois (entier supérieur à la moyenne) sur la page fast-food Y France.

Parmi les utilisateurs engagés sur la page d'étude Fast-food Y France, très peu ont cliqué sur les autres pages. Par exemple, dans le tableau de données présenté précédemment, l'utilisateur 2 (ID 2) a cliqué uniquement sur la page Skyrock (et Fast-food Y France). Ce cas de figure est récurrent, le tableau de données contient donc énormément de 0. On dit qu'il est "sparse". Généralement, les données "sparses" nécessitent des algorithmes particuliers qui demandent des ressources technologiques significatives. Donc, pour simplifier notre processus computationnel, nous souhaitons supprimer les utilisateurs ayant la proportion de 0 la plus élevée, c'est-à-dire ayant cliqué sur le moins de pages. Ci-dessous est representée la répartition de 0 par utilisateur :

D'après cet histogramme, 100 134 utilisateurs (51 670 + 48 464) ont plus de 45% de 0, c'est-à-dire ont cliqué sur moins de 55% des pages. On décide de supprimer ces utilisateurs.

Pages

Afin d'identifier les goûts des clients de Fast-food Y France, nous souhaitons nous appuyer sur des pages publiques populaires. La popularité d'une page peut être mesurée grâce au PageRank, un célèbre algorithme créé en 1998 [1]. Il est notamment utilisé par le moteur de recherche Google afin de noter l'importance d'une page Web. La note est comprise entre 0 et 10 (0 étant la note la plus basse et 10 la plus élevée). Nous décidons de conserver les 48 pages ayant le PageRank le plus élevé.

2. Les méthodes de clustering appliquées

Dans la fiche technique "Moteur de profilage" présentée sur le site de 10h11, nous avons proposé 3 méthodes de clustering : K-means, K-modes et K-prototypes. En réalité, il en existe une multitude. Nous avons d'abord choisi d'appliquer la méthode des K-means sur notre dataset. Aux vues de la structure de celui-ci, nous avons trouvé intéressant d'implémenter une autre méthode appelée Cluster Correspondance Analysis. Ces méthodes permettent toutes deux de regrouper des observations similaires entre elles.

Méthode 1 : K-means

Nous avons appliqué une normalisation Z-score sur notre dataset afin de réduire les différences d'échelle. Nous avons appliqué la méthode des K-means sur ces données normalisées. Cette méthode permet d'affecter des observations à des groupes selon la distance Euclidienne qui sépare ces observations et le centre de gravité de chacun des groupes.

Méthode 2 : Cluster Correspondance Analysis CCA

Cette méthode a été proposée en 2017 par Michel Van de Velden [3]. L'algorithme itératif CCA commence par affecter aléatoirement des observations à des groupes. Ensuite, une méthode de réduction de dimensions appelée Analyse en Composantes Multiples (ACM) est appliquée à partir de la structuration en groupes obtenue à l'étape précédente. Enfin, l'algorithme des K-means est appliqué sur les résultats de l'ACM. Cette méthode nécessite un dataset de type qualitatif. Afin de pouvoir l'appliquer, nous avons transformé nos données quantitatives en qualitatives.

Notre idée première était de créer une grille de niveaux d'engagement. Pour exemple, nous aurions pu définir les niveaux suivants :

  • - A : pas ou peu engagé
  • - B : engagé
  • - C : fortement engagé

De part les différences de valeurs des clics entre les pages et les utilisateurs, nous n'avons pas pu valider une méthode statistique pertinente pour déterminer les seuils permettant d'attribuer ces niveaux A, B et C. Nous avons donc été contraints de laisser de côté cette idée.

Pour simplifier, nous avons finalement décidé de remplacer les valeurs de clics par des 0 ou des 1. Si la valeur est supérieure ou égale à 1 clic, alors la valeur est remplacée par 1. Si la valeur est 0, alors elle reste 0. Nous avons ensuite appliqué la méthode CCA sur notre nouveau dataset rempli de 0 et de 1. Cette méthode étant basée sur une ACM, le dataset est automatiquement transformé en tableau disjonctif. Chaque variable (page) a ainsi deux modalités : 1 pour les pages cliquées et 0 sinon. Le tableau disjonctif est de la forme suivante :

Lecture du tableau : l'utilisateur 1 (ID 1) n'a pas cliqué sur la page Skyrock (1 à la modalité 0) mais il a cliqué au moins une fois parmi les publications de la page TF1 (1 à la modalité 1).

Les résultats
Méthode 1 : K-means

À première vue, on ne visualise pas de nette séparation entre les groupes identifiés. En effet, les groupes 1, 2 et 4 se superposent. Néanmoins, on peut observer une séparation entre le groupe 3 représenté en vert et les trois autres groupes. À partir d'une Analyse en Composantes Principales, nous pouvons déterminer les pages qui contribuent le plus dans l'affectation des utilisateurs à un groupe. Ici, les résultats sont assez intéressants. Les utilisateurs du groupe 3 ont un point commun : ils apprécient le football. En effet, les 5 pages qui contribuent le plus dans la construction de ce groupe sont celles de Léo Messi, Cristiano Ronaldo, Neymar Jr, Real Madrid et FC Barcelone.

Méthode 2 : Cluster Correspondance Analysis CCA

Dans la méthode CCA, l'origine représente le profil moyen. Ici, on constate que toutes les observations sont regroupées autour de l'origine. Cela résulte du fait qu'il y a beaucoup de 1 pour les pages ayant la modalité 0 (non cliquées) et, par conséquent, beaucoup de 0 pour les pages ayant la modalité 1 (cliquées). Le profil moyen est donc ici dominé par les pages non cliquées.

Pour valider ces résultats, il faut pouvoir observer une nette séparation entre les groupes construits. Or dans ce cas, une frontière est dessinée entre les trois groupes mais les observations ne sont pas assez éloignées entre les groupes.

Malgré l'intérêt applicatif de cette méthode, la structure de nos données ne nous permet pas de prouver son efficacité, principalement à cause de son adaptabilité sur ce type de données.

Que retenir de ces travaux ?

Le croisement des données du leader des réseaux sociaux nous a permis de confirmer encore une fois l'intérêt de ce type de réseaux, et nous a challengé dans l'application et l'adaptation des techniques algorithmiques très connues et d'autres moins connues.

En analysant plus particulièrement les comportements et les goûts des consommateurs (dans notre cas, de la marque Fast-food Y France), nous analysons une forte hétérogénéité dans les 743 pages publiques considérées. Cela a résulté dans le développement d'un tableau de comportement (clics sur les pages) contenant un nombre élevé d'occurrences nulles, en d'autres termes une matrice sparse. L'application des techniques de traitement ou encore d'analyse de la popularité d'une page (PageRank), nous ont permis d'étudier cette particularité.

Afin de challenger des méthodes plus classiques comme les K-means, nous avons approfondi de nouvelles techniques de clustering déjà exploitées avec succès sur des données de réseaux sociaux (CCA).

La structure du dataset construit et, principalement, son aspect sparse, nous oblige à revoir la façon dont nous avons traité les données. Par exemple, nous pourrions envisager de traiter différemment la présence des 0. Plutôt que de les supprimer, nous pourrions au contraire nous en servir pour améliorer les résultats. La validation d'une grille de niveaux d'engagement présentée dans la méthode CCA pourrait être reprise en considération. Nous pourrions aussi tester de nouvelles méthodes de clustering parmi toutes celles qui existent (par exemple, "Non-negative Matrix Factorization").

Traiter et exploiter les données provenantes des réseaux sociaux devient aujourd'hui un must que toutes les entreprises doivent maîtriser d'un point de vue technique mais aussi éthique. L'utilisation de telles données nécessite de prendre des mesures pour garantir le respect de la vie privée des personnes concernées. Les données utilisées dans cette étude sont entièrement anonymes et ne permettent en aucun cas d'identifier indirectement ou par recoupement d'informations une personne précise.

Références

[1] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN systems, 30(1-7) :107–117, 1998.

[2] John A Hartigan and Manchek A Wong. Algorithm as 136 : A k-means clustering algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics), 28(1) :100–108, 1979.

[3] Michel van de Velden, A Iodice D’Enza, and Francesco Palumbo. Cluster correspondence analysis. Psychometrika, 82(1) :158–185, 2017.

Les 8 questions à se poser avant de créer son tableau de bord

Qu'est-ce-qui est vraiment important pour demain ? Il est important, dans le cadre de la réalisation d’un tableau de bord, de rester focus sur l’essentiel. I...
Lire l'article

10h11 obtient la note de 15/20 au standard Altares-Intuiz+

Intuiz+ déploie des solutions qui permettent d’évaluer et d’analyser le risque d’une entreprise afin d’anticiper et de sécuriser les interactions commerciale...
Lire l'article

Paris rues sportives : le big data au service des runners

Voir la ville sous le prisme du running, c’est repenser les rues, c’est changer de vision sur la circulation, c’est analyser les tracés directement connecté...
Lire l'article

KIKK 2017 - RETOUR D’EXPÉRIENCE

Du 2 au 4 novembre, designers, développeurs, makers, entrepreneurs et artistes se sont réunis à Namur en Belgique pour la 7e édition du Kikk Festival. 10h11 ...
Lire l'article

10h11.com utilise des cookies afin de vous proposer une expérience de navigation personnalisée.
Si vous désirez en savoir plus sur l’utilisation des cookies par 10h11, cliquez sur ce lien.

Refuser
Accepter