Des chercheurs de l’Institut de Technologie du Massachusetts, le MIT, ont dévoilé un nouvel algorithme qu’ils indiquent comme étant capable de prédire les tendances de Twitter longtemps à l’avance. Si on pourrait se croire dans Minority Report, et plus particulièrement en faisant appel aux précogs, ces chercheurs semblent ne pas fabuler.
L’algorithme est revendiqué à prédire avec exactitude 95% des sujets qui apparaîtront sur Twitter dans les trendings topics. Abrégés « TT » sur Twitter, les trendings topics sont les sujets tendances sur le réseau. Ce sont des mots, des hashtags ou des phrases qui sont tweetés de multiples fois sur un temps donné. Les TT indiquent également les tendances par régions du monde.
Une fois ce chiffre dévoilé, et cette définition, l’annonce faite par les chercheurs est de prédire le sujet comme une tendance, en moyenne une heure et demie avant que Twitter l’énumère. Parfois les prédictions des tendances pourraient être dévoilées quatre à cinq heures à l’avance. Dingue non ?
Devavrat Shah, professeur agrégé en génie électrique et informatique du département des sciences au MIT, et l’étudiant diplômé du MIT Stanislav Nikolov, vont présenter l’algorithme lors de l’atelier interdisciplinaire sur l’information et la décision dédiée aux réseaux sociaux ce mois-ci.
Shah a déclaré que l’algorithme compare l’évolution dans le temps du nombre de tweets sur un nouveau sujet avec les changements observés au fil du temps sur un ensemble donné. Autrement dit, à partir des sujets qui ont été partagés et ceux qui n’ont pas été mis en avant, l’algorithme analyse la formation des trending topics.
Comme le mentionne Shah, cette méthode est différente de l’approche standard, les chercheurs ont dû créer un modèle dont les spécificités doivent être déduites. En théorie, cette nouvelle approche pourrait s’appliquer à n’importe quelle quantité qui varie au cours du temps, y compris le marché boursier.
Pour leurs premières expériences Shah et Nikolov ont utilisé comme données, les 200 sujets de Twitter qui ont été répertoriés comme des tendances et les 200 qui ne l’étaient pas. « The training sets are very small, but we still get strong results », a déclaré Shah. En plus des taux de prédiction aux alentours de 95%, il a également eu seulement 4% de faux positifs.
La précision du système peut augmenter avec des ensembles supplémentaires, mais les coûts informatiques vont également augmenter. Cependant, Shah a révélé que l’algorithme a été conçu pour s’exécuter sur des machines distinctes, telles que les serveurs Web. « Il est parfaitement adapté au cadre moderne de calcul », a déclaré Shah.
De quoi accélérer les processus d’études si cet algorithme voit le jour ! Allons-nous vivre une évolution importante sur Twitter ?