Par Jean-Luc MANISE

 

 

 

Les algorithmes qui font florès sur le Web ont deux fonctions principales. Tout d’abord, c’est une réponse à la surabondance. Des centaines de millions d’informations, de billets, d'articles, de films, de chansons, de jeux vidéos côtoient les milliards de produits disponibles dans les catalogues de commerçants en ligne. En analysant les usages des internautes, les algorithmes permettent de modéliser les préférences des utilisateurs et de leur recommander des contenus personna-lisés. Il ne restera dès lors plus qu’à vendre ces données de recommandation aux annonceurs très friands des centres d’intérêts de leurs clients. L'enjeu économique, publicitaire essentiellement, est énorme et c'est à celui qui proposera les formules mathématiques les plus efficaces pour anticiper les envies de consommation des internautes. De Netflix à Spotify en passant par Apple Music, Facebook ou Google, la course aux algorithmes et à l'intelligence artificielle est devenue effrénée...

35 millions de titres musicaux sur Deezer et autant sur Apple Music, 30 millions sur Spotify. Sur Wikipedia, on peut consulter plus de 40 millions d’articles en 288 langues. La démesure informationnelle d’Internet donne le vertige, et nous n’en sommes qu’aux prémisses. « Nous créons chaque minute en 48 heures plus de contenus qu’entre 2003 et le début de la civilisation ». Cette formule à l’emporte pièce d’Eric Schmit, le directeur de Google, a le mérite d’être frappante. Avec Google ou Yahoo News, on peut trouver des centaines de billets sur un sujet d’actualité. Les livres tombés dans le domaine public sont disponibles par milliers sur Wikibooks ou Google Books. Dès que l’on se connecte, on est submergé et le plus souvent, on se laisse aller au petit bonheur la chance, ou plus exactement on se laisse guider par les fameux algoritmes de recommandation.

 


Histoire de famille
Qui sont-ils ? Dominique Cardon s’est essayé à une classification. Il existe selon le sociologue quatre familles d'algorithmes dont le rôle est de séquencer et d'agencer les énormes flux d'informations que véhiculent le réseau Internet et bientôt les objets connectés. La première technique de calcul organise la popularité des sites et des contenus en fonction du nombre de clics et de vues. C'est l'effet boule de neige : l'audience nourrit l'audience et façonne des contenus dont la valeur ne tient qu'au nombre. Au risque, remarque Dominique Cardon, de privilégier de façon écrasante « les choix conformistes, consensuels et populaires ». Le désagrément n'est pas nouveau mais en même temps, il est à la base du succès du moteur de recherche de Google qui livre les résultats qui satisfont le plus grand nombre. Une ombre au tableau tout de même : cette popularité de masse peut être fabriquée artificiellement par des robots cliqueurs ou de faux avis d'internautes rémunérés pour augmenter le nombre de clics ou d'avis. De mauvaises langues évoquent encore un possible manque d'objectivité de Google lorsque ces recherches s'effectuent sur un terrain sensible pour son modèle économique. Dernière illustration en date : l'amende record de 2,4 milliards d'euros qui lui a été infligée en juillet dernier par l'Union Européenne pour avoir favorisé son comparateur de prix « Google Shopping ». Ce faisant, elle a selon Margrethe Vestager, Commissaire européenne à la concurrence, « empêché les consommateurs européens de bénéficier d'un réel choix de services ».

 


Une question d'autorité
La deuxième famille d'algorithmes opère une hiérarchisation de l'autorité des sites via les liens hypertextes qu'ils s'échangent. C'est la désormais célèbre technique PageRank de Google qui mesure l'influence sociale des sites. Cardon l'appelle la mesure méritocratique du fait que le nombre de liens (vus comme autant de reconnaissances) qu'un site reçoit des autres remplace le nombre de clics. Ici, l'information la plus visible n'est pas celle qui est la plus consultée, mais celle que les utilisateurs ont privilégiée en lui adressant le maximum de liens.

 


Le plus aimé est celui qu'on partage le plus
Avec l'e-réputation, on touche au « qualitatif émotionnel » : le nombre de « J'aime », de partages, d'amis sur Facebook et de suiveurs sur Twitter. Cette troisième technique de calcul se base sur la réputation numérique d'une information. Vont l'alimenter les internautes qui obtiendront le meilleur score. C'est l'explication à la course effrénée aux vidéos, photos et publications qui font le buzz, c'est le concours du titre le plus racoleur et du Tweet le plus ravageur. C’est l’information la plus partagée, que met aujourd'hui en avant le réseau social Facebook qui affine son algorithme de façon à n’afficher que les contenus les plus échangés. Un tri automatique s'effectue pour ne sélectionner que les publications à haut potentiel de likes ou, on le verra un peu loin, ce qui est « sponsorisé »...

 

 

Apprentissage machine
La dernière « variété » d'algorithmes pointée par Cardon a pour but d'enre-gistrer (de la façon la plus discrète possible), les traces que vous et moi laissons sur le net. Ce qu'on appelle l’algorithme d’apprentissage machine, autrement dit la prédiction de la façon dont vous allez vous comporter, formulée sur base de l'analyse de vos agissements antérieurs. But de l'exercice : vous suggérer des recommandations de choix sur des plates- formes comme Amazon, Netflix, E-bay, AppleStore ou Facebook, vous proposer des publicités personnalisées et vendre vos données d'usage aux annonceurs. Et ça marche : en 2016, les GAFA (Google, Apple, Facebook et Amazon) ont généré 68,5 milliards d'euros de bénéfice. Leur capitalisation boursière se monte à 1903,5 milliards d'euros!

 


La culture selon les algorithmes
Pour proposer des contenus sur mesure, Spotify a défini plus de 70.000 catégories qui classent les films et les séries proposées pour les associer automatiquement à chaque utilisateur en fonction de ses consultations. Au fur et à mesure de ses choix, ce profil sera affiné pour proposer des titres supposés retenir l'attention des utilisateurs. On retrouve ce principe de recommandation chez Facebook pour son newsfeed ou chez Amazon avec Amazon Prime. Pour le géant de la vente en ligne, l'algorithme réalise un mixte des tendances du marché, des meilleures ventes du site et des consultations de l'internaute. Business oblige, Amazon tient compte, dans son calcul, d'accords de promotion négociés avec les éditeurs. Ce qu'on appelle le système Co-op (cooperative advertising agreement) consiste à prendre un pourcentage supplémentaire à la vente du livre (de 3 à 5 % en plus) pour mettre en avant un ouvrage. Peu de consommateurs savent que les résultats de leurs recherches sur la plate-forme en ligne sont en partie guidés par ces accords de placement promotionnel de produits.

 


La force de la recommandation
Chez Netflix, on estime que plus de 80% des contenus visionnés par les utilisa-teurs le sont par recommandation algorithmique. Pour les analystes de Netflix, l’enjeu est de pouvoir déterminer si l’utilisateur accède à leur plate-forme parce qu’il souhaite découvrir de nouveaux contenus ou si son intention est de reprendre le visionnage d’un film entamé. S’il vient dans une optique de découverte, les algorithmes en place doivent être en capacité de lui proposer directement des films qui retiendront son attention. La décision s'effectue de façon automatique. Pour ce faire, les informaticiens ont introduit différentes variables (pays, genres regardés, notes laissées, fréquence de visionnage, âge, appareil utilisé, fréquence horaire,…) dans un algorithme d’apprentissage machine soumis aux utilisateurs de façon aléatoire afin de mesurer leur efficacité et la précision avec laquelle ils étaient capables de prédir le comportement des utilisateurs. Si le calcul aboutit à la conclusion que l’utilisateur vient pour du nouveau, ce sont des contenus déjà consultés qui figureront sur la page d’accueil. Dans l’autre option, ce sont des contenus déjà visualisés qui figureront sur la page d’accueil, la houlette de l’algorithme Continue Watching (CW). Différents calculs permettent ainsi de fixer la position de la rangée de titres proposés, leur position et de choisir les images, le tout afin de fidéliser au maximum les utilisateurs.

 


Intelligence artificielle appliquée à la musique
Chez Spotify, on parle de 600 ingénieurs qui ont planché sur un algorithme composé de pas moins de 76.897 catégories de genres. Elles sont appliquées aux contenus en ligne et croisées avec les données du comportement des utilisateurs qui recevront, en fonction de leurs consultations du site, des recommandations de plus en plus ciblées. Avec Amazon Prime d’Amazon, EdgeRank de Facebook, iTunes Radio ou Google Play, c’est la même logique de recommandation inscrite au coeur des plates-formes commerciales de contenus en ligne. Vincent Favrat est le directeur de Musimap, une société belge spécialisée dans l’intelligence artificielle appliquée à la musique. Au départ, Musimap a constitué une base de données de 1 million de titres expertisés et pondérés par 60 experts. Puis vint la phase d’analyse lexicale : que dit-on, comment parle-t-on de la musique sur Wikipedia, sur les sites spécialisés, sur Internet, quels « tags » utilise-t-on ?

 

 

Une langue à 11.332 mots
La société a abouti à 11.332 termes qui ont été introduits dans une lexicologie pour pouvoir être appliqués à chaque titre. La troisième étape a été l’analyse des signaux sonores, la quatrième le social, c'est à dire vos habitudes, vos commentaires, la durée d'écoute, le type d'équipement que vous utilisez, l'ordre des séquences, le genre de musique. Musimap parle de modélisation du fonctionnement du cerveau et des émotions humaines permettant de proposer une sélection musicale plus fine !

 


L'amitié a un prix
Restent que les algorithmes ne sont que des formules, et qu’elles peuvent être orientées, comme on le voit avec l’affaire Google et avec Amazon qui met certains livres en avant en vertu d’accords commerciaux avec les éditeurs. Les articles affichés via la fonctionnalité « Instant Article » de Facebook font eux aussi l’objet d’un échange: l’utilisateur reste dans le réseau social pour consulter la page et donc ne génére de flux vers le site du média. En échange, celui-ci touche 70% des revenus générés par les publicités affichées à côté des articles. On se trouve donc ici aussi devant des contenus sélectionnés non pas seulement pour leur pertinence, mais en fonction d’accords commerciaux. Autre distorsion: comme on l’a évoqué plus haut, la politique «éditoriale» de Facebook consiste à privilégier les contenus les plus susceptibles d’être partagés. Il faut donc pour toucher l’ensemble de sa communauté, ou s’orienter vers des contenus à buzz, ou acheter de la diffusion. Aujourd'hui, lorsque l'on poste un message sur sa page, seul un très petit pourcentage des amis sont touchés. On parle de 5 à 7 % ! Le réseau social conditionne donc la diffusion de contenus dans la Timeline de ses membres à leur buzz initial ou à l'achat d'espaces sponsorisés. Si l'on veut étendre sa sélection, il faut passer à la caisse. Sur Facebook, dorénavant, l'amitié a un prix et à l’évidence, il convient d’ajouter une famille d’algorithmes au classement de Cardon. Celle de la criée commerciale, dans un univers 2.0 où c’est l’information du plus offrant qui est privilégiée…

 

 


Sources & Infos
- A quoi rêvent les algorithmes. Nos vies à l’heure des big data. Dominique Cardon. Seuil. La république des idées. 2015
- La vie algorithmique. Critique de la raison numérique. Eric Sadin. L’échappée, collection « Pour en finir avec ». 2015
- L’écrivain social. La condition de l’écrivain à l’âge numérique. Frédéric Martel. Rapport au Président du Centre National du Livre. Septembre 2015
- Smart, Ces Internet qui nous rendent intelligents.  Frédéric Martel. Champs-Flammarion, 9 septembre 2015