Le 16 mars 1963, Wilt Chamberlain a inscrit 40 points, à 16/38 aux tirs, capté 17 rebonds et délivré 4 passes décisives dans la défaite de ses Warriors sur le parquet des Lakers. Malgré les 60 ans qui nous séparent de cette performance du pivot, deux ou trois clics suffisent pour mettre la main sur la ligne de stats, facilement accessible depuis « Basketball Reference ».
Ce site en ligne, qui séduit par sa simplicité d’utilisation, s’est imposé comme un incontournable pour tous les amateurs de la balle orange, avides de navigation statistique entre la NBA d’aujourd’hui et celle d’hier. ESPN le considère comme « le meilleur site d’histoire du basket au monde ». Il est « devenu le premier endroit où je me rends lorsque je cherche des statistiques sur la NBA », assure David Leonhardt du New York Times, en se faisant le porte-parole de toute une profession.
« Je crois qu’en termes d’historique NBA, WNBA… c’est dur de rivaliser », abonde Mike Lynch, directeur des données pour Sports Reference (une trentaine d’employés au total), la maison mère du site, joint par Basket USA. Lui aussi utilisait le site au quotidien à l’époque, il y a dix ans environ, où il évoluait à ESPN et d’autres médias sportifs US : « J’ai toujours trouvé que c’était ce qui faisait de mieux pour me permettre de faire mon job, pour trouver des choses complètes et bien organisées, avec les outils pour se plonger dedans. J’avais beaucoup de respect pour le site. Je crois vraiment en leur mission. C’est un régal d’y travailler tous les jours. »
La même année que Facebook
Au commencement, il y a un homme, Sean Forman, à l’origine de la première déclinaison de la marque : « Baseball Reference », lancé en 2000. Le site naît, comme le racontait le New York Times, alors que Forman cherche… à éviter de bosser sur sa thèse de doctorat en sciences mathématiques et informatiques appliquées à l’université de l’Iowa. Ce passionné avait entamé sa compilation de données grâce aux CD-ROM qui accompagnaient les encyclopédies « Total Baseball ». Sans se douter que son idée initiale allait faire des petits.
Justin Kubatko, diplômé en mathématiques et titulaire d’une maîtrise en statistiques à l’université d’Ohio State, veut reprendre son modèle pour le basket. Le site voit ainsi le jour en 2004, la même année que Facebook. « Au départ, ce n’était qu’un passe-temps, mais comme le site a rapidement gagné en popularité, j’ai réalisé qu’il pouvait devenir quelque chose de bien plus important », témoigne auprès de Basket USA, le fondateur, qui, à l’origine, n’imaginait pas non plus un tel développement de sa base de données, désormais régulièrement mentionnée par les médias américains.
Après quelques années d’existence, le site n’a évidemment pas l’allure graphique d’aujourd’hui mais donne déjà un bon aperçu de ce qu’il va être en mesure de renseigner sur chaque joueur (exemple ici avec la fiche de Baron Davis). Surtout, la plateforme fait déjà suffisamment d’émules pour que Justin Kubatko quitte, en 2007, son poste d’enseignant en statistiques à Ohio State pour se consacrer à plein temps à sa création.
La collection d’un amateur n’était pas une légende urbaine
Trouver des données actuelles est une chose ; des données lointaines dans le temps, une autre. « Beaucoup de journaux en ligne ajoutent très régulièrement de nouvelles pages. Ce n’est pas toujours utile. Parfois on y arrive tout seul. On a aussi des gens qui viennent en nous disant ‘Hey j’ai trouvé ça, ça peut vous intéresser ?’ », rapporte Mike Lynch à propos de cette chasse aux « box scores », véritables trésors du site.
C’est plutôt dans le cadre du second scénario que la plateforme va connaître une avancée majeure. Début 2012, Justin Kubatko annonce sur le blog du site qu’il dispose désormais d’une feuille de match… pour chaque match joué dans l’histoire de la NBA, précisant avoir récupéré des scans pour les saisons allant de 1946-47 à 1984-85 : « Je m’en voudrais de ne pas remercier Dick Pfander, qui s’est taillé la part du lion dans ce projet. Il y a plusieurs années, Dick nous a été recommandé par un tiers. Au début, cela ressemblait à une légende urbaine. Sérieusement, quelqu’un avait scanné toutes les box de tous les matchs de l’histoire ? »
À la grande surprise du fondateur, la réponse est oui. Passionné lui aussi de NBA et de statistiques, Dick Pfander avait commencé à découper les résultats des matchs dans les journaux lorsqu’il était adolescent dans le Michigan, à la fin des années 1940. Seul, à la main et à une époque où l’ordinateur n’existe pas. Son travail vire à l’obsession. À chaque voyage, il fouille dans la presse locale. Dans sa folle épopée chiffrée, cet amateur croise la route d’un certain Harvey Pollack, directeur de l’information statistique chez les 76ers, future figure majeure de la discipline, dont la propre collection de ‘box scores’ ne remonte pas aussi loin que celle de Dick Pfander.
Un champion de dactylographie sollicité !
« On a discuté pendant plusieurs semaines, on a conclu un accord et on a acheté ce qu’il avait », décrivait Justin Kubatko à FiveThirtyEight, qui a consacré un papier à la collecte de Dick Pfander. Le gérant du site récupère ainsi un disque contenant des dossiers pour chaque année et des sous-dossiers pour les mois et les jours. Problème : les résultats sont sauvegardés sous forme d’images, et non de feuilles de calcul ou de bases de données. Pas le plus simple donc, de les ajouter à une base de données statistiques. À moins de solliciter un champion hors catégorie de dactylographie. Capable de taper jusqu’à 200 mots à la minute (!), Sean Wrona contribue ainsi à la saisie des chiffres.
Dix ans après ce travail de fourmi, il est maintenant possible de remonter jusqu’aux débuts de la Grande Ligue et d’avoir accès à n’importe quelle feuille de match, parfois incomplète. « À un moment donné, on va sans doute atteindre un plafond où toutes les ressources auront été épuisées », remarque Mike Lynch en rappelant que certaines catégories n’étaient pas comptabilisées par le passé. Ainsi au début des années 1950, le total de rebonds est référencé mais sans faire la distinction entre les prises offensives ou défensives. Interceptions, contres ou ballons perdus n’apparaissent pas non plus.
Aujourd’hui et depuis plusieurs années, pour agréger les « box scores » actuelles ainsi que le « play by play » de chaque rencontre, le site fait appel à son partenaire, SportRadar, fournisseur exclusif des données statistiques de la NBA. Cette société spécialisée dans la technologie sportive a récemment prolongé son partenariat avec la Grande Ligue, sur plusieurs années, pour élargir le suivi statistique des joueurs et « révolutionner » le monde du pari sportif.
Pas les mêmes définitions
« Basketball Reference » n’a, lui, aucun lien officiel avec la NBA, dont le site de statistiques s’est largement étoffé ces dernières années. Les données trouvées sur l’une ou l’autre plateforme peuvent d’ailleurs parfois légèrement différer. Exemple avec les données avancées telles que le « Offensive Rating » (points inscrits sur 100 possessions) d’une équipe ou d’un joueur, tout simplement parce que la définition de « possession » n’est pas la même.
« À la différence de la NBA, on définit comment on calcule nos possessions. Notre méthode nous permet de comparer ce qui est comparable chaque saison jusqu’au milieu des années 1950, là où ce que fait la NBA a toujours été un peu flou », juge Mike Lynch dont la base de données délimite cette notion sur la base d’une imbuvable formule mathématique, là où le site de la ligue est bien plus vague en la matière.
Le site, qui permet désormais de suivre les évolutions des principaux championnats internationaux (Espagne, Grèce, France, Chine, Australie…), a également fabriqué sa propre formule pour évaluer sa fameuse probabilité pour chaque joueur d’intégrer le Hall of Fame. Ainsi, aujourd’hui, Kyle Lowry a 85% de chances d’être élu au panthéon du basket, du fait notamment de son titre remporté avec les Raptors en 2019, là où un joueur comme Derrick Rose, pourtant MVP de la ligue, n’a que 10% de l’être.
« En général, ce classement sous-estime le cas des joueurs internationaux puisqu’il ne prend en compte que les accomplissements en NBA », note par ailleurs Mike Lynch. Celui-ci dit n’avoir jamais entendu de joueurs se plaindre auprès du site. « En revanche, je crois que certains fans se sont plaints du faible pourcentage de Ben Wallace », ajoute le responsable en allusion aux 45% de l’ancien pivot, pourtant intronisé en 2021.
Une partie de l’outil devenue payante
Une fois n’est pas coutume, Mike Lynch ne veut pas donner des chiffres précis mais l’audience de Sports Reference « se compte en millions » d’utilisateurs quotidiens, avec une déclinaison basket qui « commence à rivaliser » avec celle dédiée au baseball. En 2020, en pleine crise du Covid, estimant pourtant ne pas générer suffisamment de visites, et subissant « l’effondrement complet du marché de la publicité », le site a lancé un outil payant, « Stathead ». Celui-ci reprend les fonctionnalités du « play index », initialement gratuit, qui permet d’effectuer des recherches spécifiques dans la carrière d’un joueur. Grâce à cette fonctionnalité payante, Mike Lynch et son équipe peuvent « mettre plus de ressources pour ajouter de nouveaux outils ».
En marge de la galaxie de chiffres récupérés, le travail quotidien sur le site consiste à mettre à jour manuellement la course aux différents trophées (joueurs de la semaine…), les effectifs selon les transferts, les fiches des joueurs y en ajoutant des liens vers des articles traitant d’une blessure… « Il n’y a pas que de la statistique sur le site mais on ne vient pas pour obtenir de l’opinion ou des articles. On a des articles assez longs, qui expliquent des concepts comme le ‘win share’, le ‘plus minus’… On pourrait probablement aller un peu plus en profondeur dans ce registre, aller dans cette direction plutôt que de faire de la ‘news’ », cadre Mike Lynch, qui tient lui-même un suivi précis des « buzzer beaters » NBA.
Ne pas abuser des chiffres
Selon lui, « plus il y a de stats, mieux c’est ». Mais ces données chiffrés doivent également être combinées avec ce qui se voit en jeu. « Parce que le basket n’est pas le baseball. La feuille de stats ne peut pas contenir la totalité du match. Il se passe tellement de choses sur le parquet qui ne se voient pas dans la ‘box’ ou le ‘play by play’. » Alors s’appuyer sur les stats pour se forger une opinion oui, mais ne pas « en abuser » non plus.
Justin Kubatko « déteste » par exemple lorsque certains indicateurs statistiques très aléatoires sont combinés pour donner l’illusion d’un authentique exploit. Le fondateur, qui a quitté le site il y a dix ans en raison de divergence de points en vue avec Sean Forman sur l’avenir, prend en exemple ce tweet d’Elias Sports, un autre acteur connu dans le monde de la statistique.
Luka Dončić put up 41 points, 10 rebounds and 9 assists in the Mavericks' win over the Warriors. #MFFL
Over the last 50 years, only one other player reached those minimums in a non-overtime win vs. a team that was 20 games above 500: LeBron James (47-12-9 vs. the Heat in 2006). pic.twitter.com/aIQGoMKmdv
— Elias Sports Bureau (@EliasSports) March 4, 2022
Il y a an, Josh Hart s’en était par exemple amusé au moment d’apprendre qu’il était le premier joueur de l’histoire à compiler plus de 40 points, 6 rebonds, 6 passes, 6 tirs à 3-points réussis et 4 interceptions à plus de 70% de réussite au tir. « Qu’est-ce qu’ils peuvent sortir comme merde de leur cul (sic). J’imagine qu’ils vont aussi parler du fait que le match était un samedi, à Portland et des trucs du genre. […] C’est cool. Je vais devoir mettre tout ça sur une petite carte où il y aura marqué : ‘Hey, je suis Josh Hart’ », avait ironisé le joueur des Blazers.
« Allez quoi, c’est ce genre de choses qui rebute les gens », s’agace Justin Kubatko, qui redoute par ailleurs qu’on devienne « de plus en plus insensibles » à certaines performances statistiques, comme le triple-double, « parce qu’elles sont trop courantes ». Mike Lynch rappelle, lui, que « le sport est censé être divertissant, les stats peuvent l’être aussi. Quelqu’un va estimer que (ce genre de compilation chiffrée) est insensé. Mais cela n’a pas besoin de signifier quoi que ce soit. Le sport est un divertissement. » Au sein duquel « Basketball Reference » occupe une place de choix.