Trop de données n'affine pas forcément la recommandation

Par 26 juillet 2010

L'université de l'Utah développe une méthode de calcul qui extrait des multiples informations sur un individu des lignes directrices sur lesquelles se focaliser. Le but : simplifier et accélérer le processus.

Les méthodes de calcul des systèmes de recommandation - qui mettent en avant les produits ou contacts les plus pertinents en fonction du profil de l'internaute - ont besoin d'être simplifiées, affirme une équipe de l'université de l'Utah. L'approche la plus utilisée, dite "multidimensionnelle", consiste à analyser conjointement différentes caractéristiques d'un internaute : son âge, ses goûts, ses contacts, ses achats précédents, etc. Plus il y a de critères, plus les résultats sont pertinents. Mais plus la tâche de calcul est complexe, également. Chaque ajout de critère démultipliant de façon exponentielle le travail de calcul des systèmes. Pour alléger celle-ci, les scientifiques ont conçu une méthode qui repère parmi l'ensemble des données les grandes lignes directrices qui caractérisent un individu.
Analyser les similarités entre certaines données
Plutôt que d'analyser la totalité des informations réunies, le système se concentre simplement sur ces lignes. "Chaque donnée a une valeur numérique", résume à L'Atelier Suresh Venkatasubramanian, l'un des scientifiques. "Si l'on considère ces données comme des points sur un graphique, possédant chacun des coordonnées, alors la distance entre ces points permet de repérer certaines similarités", précise-t-il. En clair, les scientifiques s'intéressent à la relation entre les données plus qu'aux données elles-mêmes. Par exemple, si l'on considère la taille et le poids d'un individu, il y a fort à parier qu'une personne de grande taille ait un poids plus important qu'une personne de petite taille. Ainsi, plutôt que de mesurer la taille et le poids de l'individu comme des variables indépendantes, il s'agit d'observer la corrélation entre ces critères, en l'occurrence la corpulence de l'individu.
Augmenter la rapidité des systèmes de calcul
"Notre approche consiste à ne s'intéresser qu'à la relation entre les données représentées par les points sur le graphique", précise le chercheur. "Cela en diminuant les coordonnées respectives de chacun d'entre eux, tout en préservant la même distance". L'objectif ? Réduire la "dimensionnalité" des données. "Les méthodes précédentes utilisées permettaient de traiter cinq mille personnes, environ", précise le chercheur. "Cette fois, il s'agit de prendre en compte plus de cinquante mille individus, dans le même temps", affirme-t-il. L'avantage de la méthode est ainsi non seulement d'accroître la rapidité du calcul mais aussi de réduire la quantité de mémoire nécessaire pour faire fonctionner les systèmes de recommandation.

Mentions légales © L’Atelier BNP Paribas