Article écrit par Fonseca Francisco.
Introduction
Dans le premier billet, nous avons présenté les principales familles de données du football et quelques jeux de données ouverts accessibles à tous (Fonseca 2025). Dans celui-ci, nous nous intéressons davantage à ce qu’on fait concrètement avec ces données : comment elles sont capturées, transformées puis intégrées dans des workflows d’analyse.
Comment sont captées les données de match (et par qui) ?
Dans le football professionnel, une question précède l’open data : qui collecte les données sur un match, et comment ? Pour les grands championnats et compétitions internationales, les ligues mandatent un fournisseur officiel de tracking vidéo qui installe un système multi-caméras, suit automatiquement tous les joueurs et le ballon, puis fournit un flux de positions plusieurs dizaines de fois par seconde. En parallèle, de nombreux clubs collectent leurs propres données à l’aide de gilets équipés d’un capteur GPS portés par les joueurs, surtout à l’entraînement mais aussi pendant les matchs : distance parcourue, accélérations, charge de travail, tests physiques, etc. Les figures 1 et 2 illustrent ces deux familles de systèmes EPTS utilisés aujourd’hui.

Source : (FIFA 2025)

Source : (FIFA 2025)
Les clubs combinent ensuite ces sources avec des données d’événements et de vidéo fournies par des prestataires spécialisés (Opta/Stats, Wyscout, StatsBomb, etc.)(AGBrief Editorial 2023). Lorsqu’ils préparent un match, ils n’ont pas accès aux capteurs de l’équipe adverse, mais peuvent analyser ses comportements à partir des flux officiels de la ligue et des plateformes vidéo/statistiques.
Que font les chercheurs avec ces données ouvertes ?
Parmi les jeux de données ouverts, « A public data set of spatio-temporal match events in soccer competitions » (Pappalardo et al. 2019) publie, pour une saison complète de sept grandes compétitions, tous les événements de match au format JSON. Chaque action (passe, tir, faute, etc.) est décrite par un type, un temps, une position sur le terrain, un joueur et un résultat. Les auteurs montrent comment organiser ces fichiers pour reconstruire les matchs, produire des cartes de tirs ou des réseaux de passes. Autrement dit, ce n’est pas l’ouverture en soi, mais la combinaison d’un format clair et d’outils de lecture qui rend ces données réellement exploitables.

Source :(Pappalardo et al. 2019)
« An integrated dataset of spatiotemporal and event data in elite soccer » (Bassek et al. 2025) propose un jeu plus petit, mais qui combine suivi et événements : sept matches de Bundesliga (première et deuxième division) avec, pour chaque rencontre, trois fichiers XML (informations de match, événements, tracking x/y pour tous les joueurs et le ballon). Les données sont publiées sous licence CC BY 4.0, notamment via la bibliothèque Python floodlight (floodlight-sports 2025). Comme les événements sont annotés manuellement alors que les données de suivi proviennent d’un système multi-caméras TRACAB (Electronic Arts 2025), les deux horloges ne coïncident pas toujours et la synchronisation fine entre actions et trajectoires devient conséquemment un problème de recherche.

Source: (Wall Street Communications 2019)

Source: (Electronic Arts 2025)
Enfin, « OpenSTARLab: Open Approach for Spatio-Temporal Agent Data Analysis in Soccer » (Yeung et al. 2025) s’attaque à la diversité des formats entre fournisseurs (StatsBomb, Wyscout, DataStadium, Google Research Football, etc.). Le framework convertit ces fichiers hétérogènes vers des formats unifiés comme UIED (Unified and Integrated Event Data) pour les événements et SAR (State–Action–Reward) pour les tâches d’apprentissage par renforcement. Un module de prétraitement harmonise types d’actions et coordonnées du terrain, puis des modules de modélisation proposent des modèles pour prédire des événements ou simuler des décisions de jeu : ce n’est plus seulement la donnée qui est ouverte, mais toute une chaîne de traitement.

Source : (Yeung et al. 2025)
Leçons tirées d’un prototype à petite échelle
Dans le cadre de ce projet, un prototype à petite échelle a été mis en place pour réutiliser le modèle BallRadar (Kim et al. 2023) sur des données ouvertes de Metrica Sports (Metrica Sports 2025). Concrètement, il s’agissait surtout d’adapter les paramètres d’un script existant : la librairie Python Kloppy (PySport 2025) se charge de lire différents formats de données de suivi et d’événements et de les convertir dans une représentation normalisée. Voir cette étape fonctionner automatiquement rappelle à quel point la normalisation des données est indispensable, même avec un simple jeu de données d’exemple. Comme dans le cas de Bassek et al., il faut ensuite s’assurer que les événements et les données de suivi sont alignés, que les dimensions du terrain sont cohérentes et que les identifiants des joueurs restent compatibles d’un fichier à l’autre : autant de détails qui font la différence entre un modèle qui fonctionne et un prototype qui refuse de s’entraîner.
Source : (Kim, Hyunsung et al. 2023)
Conclusion : l’open data ne suffit pas
Ces exemples dessinent une tendance claire. La démocratisation de l’analyse du football ne dépend pas seulement de l’ouverture des données, mais aussi de formats standardisés, de bibliothèques open source et, à terme, de solutions matérielles plus accessibles pour les clubs amateurs. C’est à cette interface entre open data et outils ouverts que se situe ce projet de recherche : essayer, à une échelle modeste, de transformer quelques jeux de données publics en ressources réellement utilisables pour l’entraînement, la formation et l’analyse de performance.
Bibliographie
AGBRIEF EDITORIAL, 2023. Genius Sports extends data deal with English Premier League | AGB. Genius Sports extends data deal with English Premier League | AGB [en ligne]. 25 juin 2023. Disponible à l’adresse : https://agbrief.com/news/europe/25/06/2023/genius-sports-extends-data-deal-with-english-premier-league/
BASSEK, Manuel et al., 2025. An integrated dataset of spatiotemporal and event data in elite soccer. Scientific Data. Vol. 12, no 1, p. 195. DOI 10.1038/s41597-025-04505-y.
ELECTRONIC ARTS, 2025. TRACAB – TRACAB Optical. Electronic Arts Inc. [en ligne]. 1 avril 2025. Disponible à l’adresse : https://www.ea.com/tracab/tracab-optical
FIFA, 2025. Electronic Performance & Tracking Systems (EPTS). [en ligne]. 13 août 2025. Disponible à l’adresse : https://inside.fifa.com/innovation/standards/epts/epts-1
FLOODLIGHT-SPORTS, 2025. floodlight – A high-level, data-driven sports analytics framework [logiciel] [en ligne]. 10 novembre 2025. floodlight-sports. Disponible à l’adresse : https://github.com/floodlight-sports/floodlight
FONSECA, Francisco, 2025. Les données ouvertes dans le football, qu’est-ce que c’est ? Recherche d’IdéeS [en ligne]. 2 décembre 2025. Disponible à l’adresse : https://campus.hesge.ch/blog-master-is/les-donnees-ouvertes-dans-le-football-quest-ce-que-cest/
KIM, Hyunsung et al., 2023. Ball Trajectory Inference from Multi-Agent Sports Contexts Using Set Transformer and Hierarchical Bi-LSTM. In : Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pp. 4296‑4307. 6 août 2023. DOI 10.1145/3580305.3599779. arXiv:2306.08206 [cs]
KIM, HYUNSUNG ET AL., 2023. TraceAnimator sample animation (img/metrica_match2_00.00-05.00.mp4). GitHub [en ligne]. 2023. Disponible à l’adresse : https://github.com/hyunsungkim-ds/ballradar/blob/main/img/gps_18849-18850_00.00-05.00.mp4
METRICA SPORTS, 2025. Metrica Sports Sample Data [en ligne]. Github. Disponible à l’adresse : https://github.com/metrica-sports/sample-data
PAPPALARDO, Luca et al., 2019. A public data set of spatio-temporal match events in soccer competitions. Scientific Data. Vol. 6, no 1, p. 236. DOI 10.1038/s41597-019-0247-7.
PYSPORT, 2025. Kloppy. [en ligne]. 23 octobre 2025. Disponible à l’adresse : https://kloppy.pysport.org/
WALL STREET COMMUNICATIONS, 2019. ChyronHego Introduces TRACAB Gen5. NextTV | Broadcasting+Cable [en ligne]. 15 mai 2019. Disponible à l’adresse : https://www.nexttv.com/post-type-the-wire/chyronhego-introduces-tracab-gen5
YEUNG, Calvin et al., 2025. OpenSTARLab: Open Approach for Spatio-Temporal Agent Data Analysis in Soccer. arXiv:2502.02785. arXiv. arXiv:2502.02785. DOI 10.48550/arXiv.2502.02785. arXiv:2502.02785 [cs]


Laisser un commentaire