Grâce au langage de programmation R, le Data Scientist Esteban Moro a trouvé le moyen de deviner presque l’intégralité des mots proposés par Wordle, le nouveau jeu en ligne qui fait vibrer la planète.
Connaissez vous le jeu Wordle ? Ce jeu en ligne consiste à deviner un mot de cinq lettres en six essais. Le créateur du jeu, Josh Wardle, publie un mot par jour. Charge ensuite aux joueurs du monde entier de découvrir ce mot. Au fur et à mesure des essais, les lettres correctes et placées au bon endroit apparaissent en vert. La bonne lettre au mauvais endroit apparait en jaune, et la mauvaise lettre au mauvais endroit apparaît en gris.
À première vue, cela peut paraître simple mais les nombreux partages sur les réseaux sociaux de joueurs en difficultés montrent qu’il n’en est rien.. Ces partages ont rendu le jeu particulièrement viral, de 90 en novembre dernier, le nombre d’utilisateurs s’essayant aux casse-tête est passé à plus de 300 000 en janvier, et le Data Scientist Esteban Moro a souhaité tester les capacité d’une machine à résoudre ces énigmes.
La Data Science pour venir à bout d’un jeu indomptable
En effet, non content de trouver les solutions du jeu lui-même, Esteban Moro, professeur, chercheur et Data Scientist à l’université Carlos III de Madrid, s’est essayé à la création d’un algorithme permettant de résoudre 99% des 206 énigmes proposées jusqu’ici par Josh Wardle. Sa stratégie repose sur deux facteurs : démarrer le jeu avec un mot identifié comme la meilleure option, et faire des tentatives successives en suivant toujours la même règle.
Comprendre le fonctionnement de Wordle grâce au langage R
En utilisant le langage de programmation R, Moro a tenté de reproduire Wordle sur son ordinateur et effectué différentes analyses statistiques. Dans sa version du jeu, Moro a repris les 12 972 mots de cinq lettres existant dans la langue anglaise. Le programme a ensuite simulé différentes parties successives commençant toujours par le mot « aeros », qui comporte les cinq lettres les plus couramment utilisées en anglais.
Dans les cinq tentatives suivantes, un mot au hasard est choisi parmi tous ceux qui pourraient correspondre à la solution, et le programme se base sur les informations obtenues au premier essai pour progresser dans sa requête. Ainsi, le programme a réussi à trouver la solution en moins de six essais 80% des fois où il a dû deviner un mot choisi au hasard, au bout de 5,1 tentatives en moyenne. Il a ensuite résolu près de 90% des énigmes, en 4,7 tentatives en moyenne, lorsqu’on lui a donné l’une des 206 énigmes déjà proposées par Wardle.
I wrote a simple blog post about how to play (and 99% win) Wordle with R https://t.co/stb33cBDDn The simple strategy is to exploit the bias in Wordle answers towards more frequent words in English, combined with a smart choice for the initial guess ("orate"). Enjoy! #RStats
— Esteban Moro (@estebanmoro) January 11, 2022
Une stratégie data pour atteindre 99% de résultat
Petit à petit, Moro a réussi à affiner ses statistiques. En comparant les bonnes réponses des précédentes énigmes de Wordle avec une liste des termes les plus utilisés en anglais, le Data Scientist espagnol a pu conclure que Wardle, l’inventeur du jeu, utilisait principalement des mots courants dans la langue anglaise. Il a donc programmé les simulations pour que, en commençant le jeu avec le mot « aeros », le programme choisisse ensuite le terme le plus utilisé en anglais parmi toutes les possibilités, grâce à un outil qui ordonne les mots selon leur fréquence d’utilisation.
Il découvre que les résultats ne s’améliorent pas forcément pour les mots choisis au hasard. En revanche, la stratégie s’avère bien plus efficace pour les mots que Wardle avait déjà proposés dans ses défis: le programme résout 97 % des énigmes en 3,9 tentatives en moyenne. En continuant ses comparaisons, Moro a remarqué que dans les plus de 200 solutions publiées jusqu’à présent dans la version originale du jeu, le « t » apparaissait plus souvent que le « s ». Il a donc changé le mot initial « aeros » en « orate » et, en continuant de choisir le mot le plus fréquemment utilisé en anglais – l’algorithme a fini par résoudre 99% des énigmes posées par Wardle.
En plus de trouver une stratégie optimale pour venir à bout des défis de Wardle, Moro s’est aussi demandé pourquoi Wordle était devenu si populaire. La réponse à cette deuxième question n’a rien à voir avec la Data Science! Le fait que Wardle ne publie qu’une seule énigme par jour, est en contraste avec nos vies à 100 à l’heure et nous apporte une interaction sociale calme et sereine. C’est l’une des raisons de réussite du jeu, selon lui.