Le point d’accès national (PAN) pour les données multimodales de transport
Sommaire
- 1 Le point d’accès national (PAN) pour les données multimodales de transport
- 2 Présentation de Maxime Siret
- 3 Qu’est-ce que le Point d’Accès National ?
- 4 Le contexte avant la création du PAN
- 5 Les startups d’état
- 6 L’équipe projet et sa pérennisation
- 7 Dans quel écosystème évolue le PAN ?
- 8 A qui appartiennent les données disponibles sur le PAN ?
- 9 La licence des données sur le PAN
- 10 Les formats de données supportés par le PAN
- 11 L’avantage d’utiliser le format NeTEx
- 12 Toutes les données sont-elles publiques ? Certains sont-elles payantes ?
- 13 Exemples concrets de réutilisations rendues possibles par le PAN
- 14 Les moyens de contraindre les producteurs à partager des données de qualité
- 15 Le rôle du PAN comme lien entre producteur et réutilisateur
- 16 Les rapports avec le monde académique
- 17 L’avenir du PAN et ses défis
- 18 Le mot de la fin
- 19 Pour aller plus loin
- 20 Production de l’épisode
- 21 Licence
Walid : Bienvenue à toutes, bienvenue à tous sur le podcast Projets Libres. Je suis très content, on va continuer la série sur les transports. On en est au quatrième épisode et aujourd’hui on va reprendre un sujet qui a été abordé dans l’épisode 15 de la saison 3 avec Tu-Tho Thai ; on avait parlé un peu des réglementations européennes et dans la conversation est venu le point d’accès national (PAN), sujet très intéressant et donc je me suis permis de contacter le responsable du point d’accès national qui s’appelle Maxime Siret. Maxime, qui est le responsable du produit transport.data.gouv.fr est avec moi, et on va aujourd’hui parler tous les deux du point d’accès national, de ce que c’est, à quoi ça sert, dans quel environnement il intervient, avec qui il interagit. Bref, un grand nombre de questions très intéressantes que je vais pouvoir aborder avec lui. Maxime, ravi de t’avoir avec moi, merci beaucoup d’être là. Bienvenue sur le podcast Projets Libres, j’espère que tout va bien de ton côté.
Maxime : salut Walid, merci beaucoup pour l’invitation, très content de pouvoir présenter le produit auprès de ton auditoire. Surtout qu’après ce que tu as fait avec Tu-Tho, j’ai un peu la pression parce que je crois qu’elle est plutôt calée sur le sujet… Mais ravi de pouvoir faire le produit aujourd’hui, merci pour l’invitation.
Présentation de Maxime Siret
Walid : cool, on va commencer. Avant de présenter le point d’accès national, je vais te demander de te présenter rapidement. Est-ce que tu peux nous dire quel est ton background, d’où tu viens et comment est-ce que tu en es venu à découvrir l’open data ?
Maxime : écoute, moi j’ai 30 ans, j’ai grandi à Bordeaux, j’ai fait des études d’ingénieur assez classiques. J’aimais bien les transports, j’adorais prendre le tram quand j’étais à Bordeaux. J’ai grandi avec le tram à Bordeaux qui est arrivé en même temps que mon adolescence. Et du coup, c’est comme ça que je me suis dirigé naturellement vers le monde des transports en commun. J’ai commencé chez un opérateur historique Transdev, pour ceux qui connaissent. Puis après, j’ai eu l’opportunité de travailler pour un géant du numérique Google Maps pendant quatre ans, quatre ans et demi. Et malgré ce qu’on pourrait penser sur Google Maps, j’ai eu l’occasion de travailler via Google sur des projets open data puisque Google Maps intègre beaucoup de données ouvertes, et c’est à ce titre-là que j’ai eu ensuite l’opportunité de rejoindre le ministère pour travailler directement sur les données ouvertes avec le produit open data transport.data.gouv.fr qu’on va présenter aujourd’hui. Voilà un peu mon background.
Qu’est-ce que le Point d’Accès National ?
Walid : alors, rentrons un peu dans le vif du sujet. Est-ce que tu peux nous expliquer ce que c’est que le point d’accès national, dans quel environnement il évolue ? Je te laisse la parole.
Maxime : déjà de manière très concrète le point d’accès national est un site web, c’est quelque chose de numérique, sur lequel on va pouvoir accéder à des données qui sont initialement de nature nationale. Evidemment il y a certaines données qui seront aussi transfrontalières et donc c’est un point d’accès qui est à l’échelle d’un pays, et de ses pays voisins, sur lequel on va pouvoir accéder à un grand nombre de données. Il y a des PANs sur chaque thématique, disons. Le PAN en question aujourd’hui, c’est le PAN de transport multimodal : Transport.data.gouv.fr. il évolue dans un environnement qui est celui de l’administration. On y reviendra après, mais c’est historiquement un produit qui a été créé sous le ministère du numérique, enfin la direction interministérielle numérique (DINUM), et qui ensuite a été rattachée à son ministère de rattachement, à savoir évidemment le ministère des Transports. Donc c’est dans un écosystème qui est à la base très numérique et qui, au fur et à mesure, se tourne vers des composantes plus métiers, à savoir maintenant le ministère des Transports.
Walid : ok, tu as dit que c’était un des points d’accès nationaux. Est-ce qu’il y a d’autres points d’accès nationaux ?
Maxime : il y a d’autres points d’accès nationaux sur la thématique des transports. Il y en a principalement deux. Le PAN multimodal, le mien, c’est le PAN qui regroupe les données de transport multimodaux : donc les bus, les métros, les vélos, le covoiturage, l’auto-partage. Et après, il y a un PAN plus routier qui est hébergé sur le site de Bison Futé pour le moment et qui contient les données routières. Là, c’est plus tout ce qui est limitation de vitesse, arrêté, sécurité routière, péage, etc. Et après, évidemment, il y a des PANs d’autres thématiques. Par exemple, il y a la Base adresse nationale qui, on pourrait dire que c’est un PAN aussi, mais sur les données d’adresse. Et je pense qu’il y en a encore plein d’autres. Je suis moins expert sur les autres, évidemment, mais un PAN, c’est juste, en fait, un site qui a pour vocation — qui normalement est plutôt neutre et qui est géré au niveau de l’administration — à agréger des données d’une même thématique sur une échelle nationale.
Le contexte avant la création du PAN
Walid : on va en reparler sur le podcast dans les semaines à venir. J’ai d’autres enregistrements sur le sujet. Si on reprend un peu l’histoire du PAN, donc pour les transports multimodaux, à quelle date on décide — et d’ailleurs qu’est-ce qui fait qu’on décide — de créer le PAN et quel était l’écosystème à l’époque et qu’est-ce qui fait qu’on décide de créer un point d’accès national ?
Maxime : spoiler, je n’étais pas là à l’époque. Je vais parler avec ce que j’ai eu comme mot de ceux qui étaient présents auparavant. D’ailleurs, ceux qui étaient présents, peut-être qu’ils m’écouteront, notamment Ishan. Le PAN a été créé en 2017-2018. Il y avait deux raisons pour lesquelles il a été créé principalement, je pense. La première raison, elle est juridique. Il y a une réglementation européenne transposée en loi française où cette réglementation impose la création de ce PAN. En gros, la centralisation des données de transport sur un même et unique site géré par une administration publique. Ça, c’était la première raison. Et pourquoi il y a cette réglementation-là ?
C’est parce qu’il y a un constat qui a été fait, c’est que historiquement, il y a deux mondes qui ne se parlent pas beaucoup. Il y a le monde des producteurs de données. Quand on parle de producteurs de données dans le PAN, on parle de ceux qui opèrent les réseaux de transport. Par exemple, la RATP, SNCF, ils opèrent des métros, des tramways, des trains, et ils génèrent des horaires de bus, des horaires de métro, etc. Donc ils génèrent des horaires de données. Et d’un autre côté, on a ceux qu’on appelle les réutilisateurs : ils vont être intéressés pour avoir accès à ces données, pour en créer derrière un service particulier à destination des usagers et des voyageurs. Et historiquement, ces personnes-là avaient du mal à accéder à cette donnée-là.
Maxime Siret
La donnée était restreinte, pas forcément accessible, souvent payante et souvent de mauvaise qualité. Et donc le constat a été fait que si on mettait un interlocuteur entre les deux avec un tampon Marianne, l’État, qui garantit que les données sont à jour, elles sont de qualité et elles sont accessibles en open data et sur le long terme, alors on allait pouvoir attirer plus de réutilisateurs. Et si on allait les attirer plus, derrière, plus de services pourraient être créés. Et si plus de services sont créés, potentiellement plus d’attrait pour la multimodalité pour les Français et donc plus de décarbonation des transports, ce qui est in fine le but, disons, final du PAN, c’est de décarboner la mobilité. Donc pour ça il faut que les Français aient accès à l’information voyageur et pour ça il faut que les données soient disponibles. Et donc le PAN fait un peu le pont : c’est comme s’il y avait un fleuve, il y avait la rive gauche et la rive droite, et bien en fait maintenant il y a le pont et on peut le traverser. Et bien c’est un peu ça l’idée du PAN. C’est pour ça que ça s’est créé historiquement.
Walid : ok, pour le contexte encore une fois, voir l’épisode avec Tu-Tho. Donc effectivement, on part d’une situation dans laquelle les producteurs, les réutilisateurs ne se parlent pas beaucoup, les données qui sont disponibles sont pas forcément complètes et pas forcément de qualité. Il est donc difficile pour les acteurs présents ou les acteurs qui voudraient arriver sur ce marché de proposer des services. Et donc, la réponse à tout ça, c’est le PAN. Et à l’époque, ces données, elles sont mises à dispo avant le PAN ? Elles sont mises à disposition où et par qui en fait ?
Maxime : en fait, elles ne sont pas mises à disposition, elles sont hébergées chez chaque producteur. Et chaque réutilisateur, chaque chercheur, étudiant, TPE, PME ou grosse boîte qui voudrait avoir accès à ces données-là pour faire un service et innover — et aussi pour mettre en valeur les données du producteur, parce qu’il y a ça aussi —, il doit aller contacter individuellement ces détenteurs de données et aller potentiellement contractualiser avec eux pour avoir accès à ces données. Donc, il faut potentiellement payer. Ça se fait de manière au cas par cas. Il n’y a pas de généralisation de cet accès-là, ce qui fait que, c’est un frein énorme à l’accès à la donnée. Et ce frein est tellement énorme qu’il y a très peu de services qui se créent. Et donc, il y a très peu de valeur ajoutée derrière sur les données qui restent propriétaires des producteurs. Eux, ce n’est pas forcément leur métier d’innover avec ces données-là, c’est faire rouler des bus. Enfin, je caricature, s’ils m’entendent, qu’ils ne s’insurgent pas. Mais c’est ça leur métier à la base. Donc le but, c’est justement d’aller créer des services innovants avec ces données-là. Et pour ça, il faut libérer la donnée, il faut la rendre accessible.
Walid : quand il y a la décision de créer donc ce point d’accès national, quelles sont les étapes qui sont mises en place pour la création effective de ce point d’accès national ? Parce que je suppose que, comme c’est une directive européenne, chaque État membre est libre de créer son PAN sous la forme qui l’intéresse. Certainement que dans d’autres pays, il y a d’autres formes qui ont été choisies. Quelles sont les discussions au niveau français ? Est-ce que la forme actuelle qui a été choisie a été naturelle ou est-ce qu’il y a eu des discussions sur les formes, où l’héberger, comment le faire, etc. ?
Maxime : oui, alors là pareil, je n’étais pas là et donc je ne pourrais pas te répondre précisément. Mais effectivement, il y a des formes différentes de PAN, notamment au niveau du financement.
Il y a des pays européens qui ont décidé de faire financer le PAN par des acteurs privés. En France, c’est purement public. C’est monofinancé aujourd’hui par le ministère des Transports. Avant ça l’était par la direction interministérielle du numérique (DINUM). Et la question, c’est de savoir, est-ce qu’on fait de ce PAN un hébergeur de données ou un diffuseur, ou les deux ? Cette question, on se la pose toujours aujourd’hui. Ce qui s’est décidé — et ce qui est toujours le cas après plus de sept ans d’existence — c’est que le PAN n’héberge quasiment pas de données, mais les diffuse. Donc c’est-à-dire que les données, elles sont stockées soit chez le producteur, soit chez data.gouv.fr.
Maxime Siret
Je n’ai pas parlé de ça au départ, mais transport.data.gouv.fr, qui est le nom de la plateforme du PAN, c’est une verticale, si tu veux, de la plateforme plus globale qu’est data.gouv. Sur data.gouv, tu vas trouver plein de verticales, dont le transport. La spécificité juridique en France fait que les producteurs de données doivent — c’est inscrit dans la loi — publier leurs données sur data.gouv. Et après transport.data.gouv les récupère sur data.gouv et les affiche. Il y a très peu de données qui sont stockées chez nous. Les seules qui sont stockées chez nous, ce sont celles que nous, on génère nous-mêmes. Il y en a quelques-unes, on pourra peut-être en parler si tu veux. Donc les discussions, elles sont faites là-dessus : est-ce qu’on va tout stocker ou est-ce qu’on va plutôt diffuser ? Comme le problème, il n’était pas sur le stockage mais sur la diffusion, la décision a été faite de plutôt focaliser les efforts sur comment on diffuse, et quels services on va aller apporter en plus en tant que PAN pour aller attirer des utilisateurs et apporter de la valeur à ces données. Donc plutôt que de se concentrer sur comment on les stocke, on va plutôt faire comment on les diffuse, comment on garantit la donnée, comment on la fiabilise, comment on la met en valeur.

Walid : donc le fait de développer ce PAN spécialisé sur les données d’intermodalité, sa forme était naturelle, puisqu’en fait, c’est qu’une verticale de data.gouv.
Maxime : oui, c’est ça. Après, historiquement, ce n’est pas forcément en termes de multimodal. Le PAN, au départ, il est vraiment une composante purement transport en commun. Évidemment, la mobilité a évolué entre 2017 et 2025. Il y a eu beaucoup plus de vélos, des trottinettes, du covoiturage, de l’autopartage. Et donc le produit a évolué avec la mobilité. Historiquement, c’était des bus, des trams et des métros : on n’a pas les données, il faut les rendre accessibles, on va les diffuser via une plateforme tamponnée Marianne, on va les mettre en valeur et on va essayer de tirer des usages et créer des services autour de ça. C’était ça un peu le contexte.
Les startups d’état
Walid : est-ce que tu sais comment ça se passe quand la DINUM décide de lancer ce projet sur le PAN ? C’est un projet interne, ils définissent un chef de projet qui connaît le sujet et c’est parti ? Est-ce que tu sais — parce que tu n’étais pas là à l’époque, tu m’as dit — mais est-ce que tu sais un peu comment ça se passe quand il y a une thématique comme ça qui arrive ? Comment ils font en fait ?
Maxime : oui, je crois qu’en plus, à ce moment-là, 2017-2018, c’était vraiment le tout début de l’écosystème DINUM, qui a dû être impulsé plus ou moins politiquement par le président Macron à l’époque. Et donc, ils ont commencé ce qu’on appelle à lancer des start-up d’État. Je ne suis peut-être pas la meilleure personne, puisque en 2007, j’étais encore étudiant… mais le but, c’était d’aller essayer d’innover dans le service public, avec l’assurance d’adresser des problématiques d’intérêt général avec une méthode agile, en équipe réduite et interministérielle à l’époque. Donc c’est pour ça qu’ils ont choisi le mot start-up d’État. Donc effectivement ils choisissent un chef de projet — chef de produit, qu’on appelle intrapreneur maintenant. L’intrapreneur va avoir carte blanche sur comment faire pour adresser ce problème-là. Il va devoir défendre un budget, dire : « ok, il faut que je résolve ça et ça comme problème, il me faut telles ou telles ressources et financements », et derrière il va pouvoir composer une équipe qui, historiquement et encore beaucoup aujourd’hui, est composée de personnes qui sont freelance. Donc ils vont aller chercher sur le marché les personnes qui sont compétentes et adéquates pour résoudre ce problème-là et essayer d’aller vite, en mode produit, une roadmap tous les 6 mois, éviter les projets un peu gros et assis du ministère avec des périodes qui vont de 2 à 3 ans, etc. C’était beaucoup plus court-termiste, avec plein, je pense, de start-ups qui n’ont pas prouvé leur marché et qui ont dû fermer au bout de 6 ou 12 mois. C’est pour ça que c’est ce qu’on appelle un incubateur d’État. Ce n’est qu’une fois que les start-ups ont vraiment prouvé leur utilité et trouvé leur marché, qu’elles sont ce qu’on appelle pérennisées. Et une fois qu’elles sont pérennisées, alors on peut décider d’investir durablement de l’argent public sur cette problématique-là, parce qu’elle a prouvé qu’elle était utile. Et alors, on la pérennise et on la transfère dans son ministère de rattachement, avec comme objectif en plus d’essayer d’infuser cette politique d’approche produit agile dans les ministères, qui historiquement ne sont pas forcément câblés comme ça. C’était ça l’approche.
L’équipe projet et sa pérennisation
Walid : deux questions là-dessus. Quand on t’approche et que tu commences à travailler sur le sujet, tu es freelance ou tu deviens contractuel ? Et la deuxième, derrière, c’est : quelles sont les métriques ? Comment on sait que la start-up a atteint les objectifs qu’on lui avait fixés et que ça vaut la peine d’investir et de la transférer vers son ministère de tutelle ?
Maxime : ouais, première question, moi je suis arrivé — du coup je l’ai pas dit en intro — mais je suis arrivé en septembre 2024.
Walid : ah oui, c’est récent.
Maxime : ouais, c’est récent, c’est pour ça que le contexte historique sur le PAN, je l’ai pas à 100 %. En tout cas, la règle aujourd’hui, c’est que l’intrapreneur d’un service public d’État doit être un agent public. Il est soit fonctionnaire, soit contractuel. Moi, comme j’arrive du privé, je suis contractuel. J’ai une mission, j’ai un CDD de 3 ans au ministère, qui peut être renouvelé, mais je ne suis pas freelance. L’équipe du PAN, elle est composée aujourd’hui exclusivement de freelance. C’est un autre sujet, mais moi j’aimerais bien qu’on internalise les compétences, parce que quand un service est pérennisé, il devrait l’être au sens strict du terme — et large, c’est-à-dire que l’équipe soit pérennisée. Ce qui n’est pas le cas aujourd’hui. Originellement, en tout cas il y a quelques années, les intrapreneurs étaient peut-être freelance. Je crois qu’aujourd’hui, c’est quasiment plus le cas, ou alors c’est très peu commun, ce n’est plus la doctrine.
Et la seconde question, comment on décide de pérenniser ? Ça, c’est à l’intrapreneur, quand il crée la start-up, de dire : « voilà le problème qu’on résout, voilà les objectifs que je me fixe, voilà les métriques que je me fixe, est-ce que vous les validez ? » Et en fait, quand je dis « vous », c’est parce que la méthode d’une start-up d’État, c’est qu’elle fonctionne avec des sponsors. Souvent, les sponsors, ce sont l’administration, plusieurs ministères ou plusieurs services dans les ministères. Et il y a ce qu’on appelle un comité d’investissement, qui se réunit en général tous les 6 mois. Tous les 6 mois, on va aller rendre des comptes à l’administration qui nous finance, en disant : « voilà ce qu’on a fait depuis 6 mois, voilà ce qu’on compte faire, ce qu’on compte résoudre, est-ce que oui ou non vous approuvez notre feuille de route pour les 6 prochains mois ? Est-ce que oui ou non ce qu’on a fait depuis 6 mois correspond à ce qui avait été fixé ? Est-ce que ça répond à une politique publique ? »
Maxime Siret
Et en fonction de ça, les décisions sont prises pour les six mois suivants : est-ce qu’on continue comme ça, est-ce qu’on réduit, est-ce qu’on accélère, est-ce qu’on ferme, etc. Et en ce qui concerne le PAN, c’est un peu différent, parce que le PAN a l’avantage — ou l’inconvénient — d’être inscrit juridiquement dans la loi française. Aujourd’hui, il ne peut pas y avoir de remise en question de l’existence du produit, puisque le produit est par définition intégré dans la réglementation. Donc il faudrait changer la loi pour supprimer le PAN, ce qui est possible, mais ce n’est pas la même implication.
Par contre, il y a d’autres start-up où là effectivement on peut décider de fermer un certain État, avec des métriques qui sont ce qu’on appelle des métriques d’impact. Il faut arriver à prouver que le produit qu’on développe, il répond à un vrai problème des Français et il a un impact sur le quotidien des Français. Ce qui, pour le PAN, en l’occurrence, est très compliqué. On n’est pas un produit B2C. La question d’impact, et à quoi on sert vraiment, comment moi j’arrive à montrer que grâce au travail que je fais, j’ai X personnes dans la vraie vie qui vont lâcher leur voiture pour aller prendre le bus ou prendre leur vélo, pour remonter la chaîne jusqu’à ça… c’est pas si simple. C’est presque impossible de prouver que j’ai investi X euros, grâce à X euros j’ai économisé Y déplacements en voiture et CO₂, etc. Mais pour d’autres produits, c’est beaucoup plus facile.
Walid : tu étais chez Google Maps, toi, tu as dû voir le PAN arriver. Et qu’est-ce que ça a amélioré aussi pour vous ? Ça, c’est quelque chose qui m’intéresse, vu de l’autre côté de la barrière. Mais avant qu’on aille plus loin sur ce sujet-là, j’aimerais comprendre quelles sont toutes les fonctionnalités du PAN. Donc là, on a parlé du fait que le PAN, il avait sa fonction première, c’est de mettre à disposition dans un endroit centralisé les données du producteur de données de transport en commun. Est-ce qu’il a d’autres fonctions supplémentaires ou est-ce que c’est vraiment ça son but ?
Maxime : le but premier, c’est effectivement de mettre en relation les producteurs de données avec les réutilisateurs. Pas que transport en commun. Maintenant, on est élargi, comme je te dis, aux vélos en libre-service, au covoiturage, à l’autopartage, aux bornes de recharge électriques, etc. Donc on met en relation les producteurs et les réutilisateurs. Et évidemment, cette mise en relation, elle s’accompagne de services ajoutés, parce que le but, comme je t’ai dit, c’est de pouvoir garantir que la donnée est fiable et de qualité. Donc nous, notre but, ça va être d’essayer de faire monter en qualité la donnée et de la fiabiliser. Si la donnée est fiable et de qualité, alors elle sera lue et utilisée. C’est comme une médiathèque : s’il y a des livres, il faut que les livres soient bien rédigés et bien présentés pour qu’on ait envie de les lire.
Comment on fait, dans notre cas précis, pour que les données soient de qualité ? On va animer l’écosystème, on va aller participer à des webinaires, interagir avec les producteurs, les former sur les standards. Il y a des standards de données qui existent pour que tout le monde parle le même langage. Il faut s’assurer que les données qui soient transmises soient homogènes, parce que si demain tu mets des données qui sont hétérogènes, et que les données de Bordeaux sont différentes en termes de structure de Paris, Lyon, Angoulême, etc., derrière, l’agrégateur de données, il ne va pas pouvoir aller piocher comme ça s’il doit s’adapter un par un à chaque producteur.
Donc nous, notre but, ça va être d’animer l’écosystème et de faire en sorte que les données soient conformes aux standards. On a ce qu’on appelle des validateurs, qui vont valider la donnée qui va être automatiquement transmise chez nous. Et ça va afficher un rapport, et ce rapport va pouvoir permettre d’informer à la fois le producteur et le réutilisateur, qui souscrit à la notification que les données présentes chez nous respectent le standard. Et si elles ne le respectent pas, d’ailleurs, nous, on aura un travail de suivi auprès des producteurs pour leur expliquer comment changer leurs données pour qu’elles puissent être conformes. On est les gentils, si tu veux, on a un peu la carotte. On ne va pas leur mettre d’amende, etc., s’ils ne respectent pas la loi. Par contre, s’ils ne le font pas après moult relances non plus, derrière, nous, on peut envoyer la police, qui est l’Autorité de régulation des transports (ART).
Nous, on ne va pas aller mettre d’amende. En tout cas, on a cette fonctionnalité-là. Et après, on en a d’autres. On a des fonctionnalités pour les réutilisateurs, qui, eux, vont pouvoir souscrire à des notifications, à des services pour être prévenus dès qu’un nouveau jeu de données arrive, dès qu’il arrive à expiration, dès que quelqu’un commente sur un jeu de données, voilà. On a plusieurs services comme ça. On avait aussi, avant, un convertisseur — on ne l’a plus pour plusieurs raisons. Voilà, on essaie d’animer l’écosystème pour que la donnée soit de meilleure qualité et plus disponible. Et après, on a des services annexes, évidemment, de communication, d’animation de l’écosystème. Et là-dessus, ça peut être plusieurs formes. On a aussi une newsletter. Voilà, le but, c’est évidemment de faire le lien et d’encourager le développement des données. Et pour ça, on pense qu’on est la bonne entité pour le faire.
Walid : gestion du changement et animation de la communauté. Et quand tu parles juste du validateur, on parle bien d’un programme informatique qui tourne quand tu ajoutes tes jeux de données, qui valide qu’ils sont conformes à la qualité des données attendues ?
Maxime : c’est un algorithme qui va valider. Alors, si c’est un jeu de transport, il va valider que c’est un bon format de transport en commun. Si c’est un jeu de données vélo, il va valider que c’est un bon format de vélo, etc.
Dans quel écosystème évolue le PAN ?
Walid : ok, on reviendra sur les formats tout à l’heure. Et là, tu as parlé de l’ART. Dans quel écosystème évolue le PAN ? C’est-à-dire, le PAN, il interagit — donc on a compris qu’il interagit avec des producteurs, il interagit avec des réutilisateurs, il interagit avec l’ART — est-ce qu’il a d’autres acteurs avec qui il interagit ? L’État forcément… qui sont les gens avec qui, en large, il intervient le PAN ?
Maxime : principalement avec ceux qui nous envoient les données et les réutilisent. Donc les producteurs, ça va être soit les opérateurs privés de transport comme SNCF, RATP, BlaBlaCar, Titi, and co… ou ça peut être — et c’est souvent le cas aussi — les régions, qu’on appelle les autorités organisatrices de la mobilité, les AOM. Donc on a à la fois des entités publiques et privées qui sont, entre guillemets, dans le lot des producteurs. Et après, on a les privés qui vont réutiliser. Là, le système est très varié, et d’ailleurs il a pour vocation à se développer parce qu’on ne les connaît pas bien — mais on en parlera après. On a majoritairement et historiquement des gros acteurs calculateurs d’itinéraires comme Google Maps, Transit, Citymapper, Apple Plans. Et après, on a beaucoup de petites entreprises qui ont besoin de données en open data pour faire des services innovants, sur lesquels on va essayer d’accompagner aussi leurs usages. Donc on a beaucoup d’acteurs privés. Et après, au niveau de l’État, effectivement, c’est assez varié. Principalement, le ministère des Transports, la DINUM, data.gouv.fr et l’ART. Mais on a aussi d’autres acteurs, type CEREMA, ADEME, avec qui on échange aussi pour des projets un peu divers et variés, et quelques aussi associations ou lobbies, que ce soit au niveau américain ou européen. On a des projets de coordination au niveau européen des PANs, donc on a des échanges aussi avec nos confrères homologues dans d’autres pays, des associations comme MobilityData, qui est une sorte de lobby de la donnée, avec qui on échange aussi. Parce que c’est important de travailler avec eux. En fait, c’est hyper riche, c’est hyper varié. J’avais une slide là-dessus… bon, là, on est en audio, mais j’avais genre 50 logos, donc c’est assez varié.
Walid : est-ce que tu peux en expliquer en deux mots le CEREMA et l’ADEME, juste pour les personnes qui ne connaîtraient pas ? Je te pose une question suivante.
Maxime : je ne sais même pas si je suis la bonne personne pour les présenter, mais l’ADEME, ce sont des entités satellites de l’État. C’est une agence de l’État qui permet un petit peu d’analyser des études environnementales. Le CEREMA, on travaille avec eux principalement sur le sujet des données de transport, puisqu’ils analysent beaucoup de données de transport en France. Ils font aussi ce qu’on appelle la base PASSIM. C’est une base qui permet de lister toutes les autorités organisatrices de la mobilité en France. Nous, on a besoin de savoir, sur un territoire donné, qui est responsable de la donnée, qui doit la publier, qui est en charge d’opérer le transport. Et cette question-là, le CEREMA nous aide à y répondre.
Et après, l’ADEME, on est moins proches d’eux, mais on a quand même des sujets à faire avec eux. Là-dessus, ça reste encore sur l’échelle de plus prospective avec eux aujourd’hui. Par contre, le CEREMA, c’est vraiment un acteur avec qui on travaille, notamment sur les données routières aussi. Il y a pas mal de sujets avec eux en cours parce que le CEREMA a pas mal d’historique sur les données routières avec les DIR, les directions interdépartementales des routes. Le CEREMA agit en tant qu’AOM, je dirais, sur des sujets d’analyse routière. Comme ils sont AOM, ils ont besoin d’analyses de données et donc ils viennent chez nous pour les utiliser. Et inversement, nous, on a besoin d’eux pour compléter les données, donc on échange aussi avec eux largement.
Walid : est-ce que vous, vous êtes partie prenante d’une manière ou d’une autre dans les groupes de normalisation, tels qu’on discutait avec Tu-Tho ?
Maxime : oui, on est partie prenante du GT7, normalisation des données de transport. Donc effectivement, on est partie prenante de ça. Et également, au niveau européen, il y a un projet qui s’appelle NAPCORE. NAPCORE, c’est « National Access Point for Coordination in Europe ». Donc en gros, c’est le projet de coordination des PANs à l’échelle européenne. Et là-dessus, il y a plusieurs sous-groupes de travail qui réfléchissent à comment mettre en place des normes au niveau européen, et qu’elles soient respectées et partagées parmi tous les États membres. Il y a le sous-groupe 4.3, c’est très technique, mais effectivement on travaille aussi à l’échelle européenne. Ce qui est hyper intéressant, mais aussi super long en termes de temporalité. C’est pas la même chose qu’au niveau français, évidemment. On a beaucoup plus de latence sur ces sujets-là. Donc c’est du temps long, sur ça.
A qui appartiennent les données disponibles sur le PAN ?
Walid : Sur les données qui sont disponibles et mises à disposition par le point d’accès national, la première question que je me posais, c’était à qui appartiennent les données qui sont mises à disposition ?
Maxime : Les données, elles sont à qui ? Elles sont à l’autorité organisatrice de la mobilité, donc souvent ce sont les régions ou les communautés de communes, principalement. Donc c’est à elles que les données appartiennent, mais elles délèguent un service, qu’on appelle une DSP — donc une délégation de service public. En majorité, elles délèguent. Sinon, on peut faire ce qu’on appelle une régie. Mais quand elles délèguent, elles vont déléguer leur service à une entreprise privée qui va opérer les transports et qui va générer la donnée. Et après, la donnée va être transmise à l’autorité organisatrice, qui va la publier chez nous. Donc c’est à l’autorité de publier les données.
Walid : donc là, en fait, quand on parle de données, on va parler de données plutôt statiques, plutôt déclaratives, ou on va parler de données aussi dynamiques ?
Maxime : oui, c’est une bonne question, parce que je ne l’ai pas précisé en introduction, mais le champ d’application du PAN, c’est ce qu’on appelle les données d’offre, en tout cas aujourd’hui. Ce ne sont pas les données de réalisé, mais les données d’offre. Donc c’est à quelle heure passe le bus, combien ça coûte, combien il y a de lignes. Mais ça ne va pas être combien de personnes sont montées dans le bus, combien de lignes ont été roulées tel jour, etc. C’est vraiment la donnée d’offre.
Walid : ça peut être données en temps réel des bus de telle ligne ?
Maxime : ça doit l’être, même. Ça doit être les deux. Au sens de la réglementation, ça doit être les deux. Donc nous, on couvre le domaine du statique et du temps réel.
La licence des données sur le PAN
Walid : est-ce que vous imposez une licence particulière qui permette aux réutilisateurs de réutiliser la donnée ? Est-ce que c’est vous qui imposez une licence pour pouvoir déposer ces données sur data.gouv.fr, ou est-ce qu’il y a un pool de licences acceptées, et c’est l’autorité organisatrice qui définit la licence qu’elle va utiliser ?
Maxime : effectivement, ça c’est un point sur lequel nous, on essaie de se battre mais en tout cas, on a une position là-dessus. Effectivement, nous, on ne peut pas imposer la licence. La réglementation n’impose pas de licence spécifique. Donc c’est à l’autorité organisatrice de choisir quelle licence elle applique aux données. Et effectivement, selon la licence choisie, l’impact sur la réutilisation de ces données-là va avoir une importance. Donc nous, en tant que PAN, on prône la licence ouverte. Alors, il y a plusieurs licences ouvertes : 1.0, 2.0… En gros, la licence ouverte, c’est celle qui est la moins restrictive.
Walid : pardon, la licence ouverte pour les données, c’est quoi cette licence ? C’est une licence française ? C’est quoi ?
Maxime : c’est la licence française, licence ouverte v1.0 ou 2.0. En fait, c’est une licence qui n’impose pas de conditions en échange. C’est-à-dire que tu peux te servir, et on ne peut pas te demander en échange quoi que ce soit. Donc, en fait, c’est très peu restrictif. C’est-à-dire que, du coup, en utilisant cette licence-là, on est certain que n’importe quelle entité pourra prendre la donnée, on ne pourra pas dire : « ah ben non, je ne la prends pas, parce que sinon j’ai tel ou tel risque », parce que la licence, en fait, elle ne comporte pas de risque. Par contre, il y a des autorités qui font le choix de mettre d’autres licences. Typiquement, la licence Open Database License (ODbL) — c’est une licence particulière — ou la licence Mobilité, qui, elle, par contre, va imposer, en échange de l’accès à la donnée, un repartage de la donnée selon des conditions qui peuvent être plus ou moins restrictives, et donc plus ou moins handicapantes pour certains personas de réutilisateurs, et donc potentiellement être un frein pour l’accès à la donnée. Donc par exemple, les gros acteurs comme Google Maps ne vont pas forcément intégrer des données qui sont sous telle ou telle licence, parce que derrière, pour eux, ça représenterait un risque en termes de données, puisqu’on pourrait leur demander en échange des données qui seraient dans un champ d’application bien plus large que celui pour lequel les données de base ont été récoltées. Donc il y a des risques comme ça qui sont considérés par les personnes, et donc nous, on essaie de pousser à la licence ouverte, puisqu’on est convaincus que si la licence est ouverte, les données seront largement partageables, et donc on aura de plus en plus d’impact et de réutilisation derrière.
Walid : pour les auditrices et auditeurs qui veulent en savoir plus sur les licences ODbL, on a parlé de ces sujets. Vous pouvez vous référer à l’épisode 1 sur Open Food Facts et à l’épisode de présentation de OpenStreetMap. Vous pouvez en savoir plus en écoutant ces épisodes. Fin de la parenthèse. Donc, il y a un sujet de licence. C’était une des questions que je m’étais posée en regardant les différents séminaires sur le PAN. Je me demandais : est-ce que vous aviez un moyen quelconque, et si c’était de la persuasion, et aussi quels arguments vous mettiez en avant ? Parce que typiquement, je pense à l’argument de dire que vos données, elles sont accessibles dans Google Maps. Est-ce que c’est un argument recevable pour une autorité organisatrice ou pas, je ne sais pas.
Maxime : je peux répondre directement, mais oui. Plus l’autorité organisatrice est petite, moins elle a de ressources pour aller envoyer ces données aux acteurs tiers. Et donc, pour une autorité organisatrice — peu importe laquelle, mais une petite autorité organisatrice —, le fait de faire l’effort une seule fois, c’est-à-dire de faire l’effort de mettre les données chez nous, si elle met les données en licence ouverte, elle aura la garantie que derrière, les données vont être diffusées partout dans l’écosystème. Et donc, plutôt que d’aller appeler individuellement SNCF Connect, Apple, Google, Transit, Citymapper, etc., elle va le faire une fois chez nous, et derrière, nous, on va faire ce rôle de diffuseur. Et donc, en termes d’économie, et surtout de visibilité, la garantie de la licence ouverte, c’est d’avoir derrière son offre qui est diffusée partout. Si on a une licence plus restrictive, on n’a pas cette garantie-là. Et donc, ça, c’est un argument qu’on utilise évidemment souvent pour convaincre les producteurs d’ouvrir leurs données au maximum.
Les formats de données supportés par le PAN
Walid : je mettrai un lien, pour celles et ceux que ça intéresse aussi, vers un projet assez récent, avec un lien vers des conférences du FOSDEM sur un projet qui s’appelle Transitous, qui est un service communautaire, qui permet de faire une alternative, un système de routage open source assez prometteur, qui réutilise les données des différents PANs européens aussi. Je mettrai un lien vers une conférence du FOSDEM qui explique tout ça. Je ferme encore une fois la parenthèse.
Pour parler des formats, tout à l’heure tu as introduit rapidement le fait qu’il y avait différents formats. Qu’est-ce qu’on a comme format — comme, on va dire, grands formats — pour gérer les données de mobilité, et lesquels sont acceptés sur le PAN ?
Maxime : alors, il faut différencier les standards européens des formats industriels. Historiquement, il y a les formats industriels. Pour les transports en commun, le format industriel — celui qui est utilisé par l’industrie au sens large —, c’est le GTFS. Donc GTFS, correctement, le G c’est pour Google, parce que c’est Google qui l’a créé. Maintenant, c’est devenu ouvert, et c’est open data, c’est vraiment libre d’accès. Le G a été remplacé par « General », donc General Transit Feed Specification. Donc c’est un format de données industriel. Ce n’est pas le format de données qui a été choisi par l’Union européenne, pour plusieurs raisons, qui est le format NeTEx. Au sens juridique, on a l’obligation — et ça a du sens — de promouvoir les standards européens.
Derrière, nous, on est au contact de l’écosystème, on a aussi besoin d’écouter les besoins des producteurs et des industriels. Et donc, notre priorité, ça reste d’avoir de l’impact, et au sens large, de décarboner la mobilité. Donc nous, le PAN, jusqu’à présent, a toujours eu la double approche : faire du mieux qu’il peut pour référencer les formats réglementaires européens, et accepter les formats industriels, en encourageant l’industrie à basculer vers les formats réglementaires, parce qu’il y a des intérêts à le faire au-delà de juste cocher la case légale. Donc nous, on fait les deux : on référence les formats industriels et les standards européens.
Maxime Siret
J’ai mis GTFS, NeTEx pour les transports en commun. Ça va être DATEX II pour les IRVE.
Walid : IRVE — c’est quoi ?
Maxime : IRVE, c’est infrastructures de recharge pour véhicules électriques — donc c’est les bornes de recharge électrique. Format GBFS pour les vélos — donc là, c’est au lieu de T pour Transit, c’est B pour Bike. Donc c’est le même type de format, disons, mais pour cartographier l’offre de vélos en libre-service. Ensuite, on a des formats un peu plus maison selon les types de données, où il y a encore « besoin » de normalisation. Je pense notamment aux aménagements cyclables, par exemple, ou au parking, qui sont encore très flous entre ce qu’on met en NeTEx, ce qu’on met en CSV. Donc quand c’est pas très clair, le PAN peut avoir ce rôle-là de participer aux groupes de normalisation pour aller établir un schéma. C’est ce qu’a fait, par exemple, le PAN pour les données de bornes de recharge, qui a créé un schéma franco-français, pour le coup, parce qu’au départ, ce n’était pas normalisé au niveau européen. Et ensuite, une fois que ça se normalise au niveau européen, le PAN va tendre vers cette normalisation-là et soit changer carrément le format, soit mettre en place des outils pour convertir les formats d’un format industriel à un format réglementaire.
C’est ce qu’a fait, par exemple, historiquement le PAN sur les transports, où tout le monde envoyait en GTFS alors qu’il fallait du NeTEx, et l’industrie n’était pas prête à fournir du NeTEx. Donc le PAN a aidé l’industrie en fournissant un convertisseur GTFS → NeTEx, qui depuis a été supprimé pour encourager les producteurs à produire nativement en format réglementaire NeTEx.
L’avantage d’utiliser le format NeTEx
Walid : je pense que NeTEx, on y reviendra plus en détail dans un épisode futur. Mais tout à l’heure tu as dit qu’il y avait des avantages à utiliser le NeTEx comparé au GTFS. Est-ce qu’en quelques mots tu peux expliquer quels avantages il y a qui nécessitent que les producteurs de données changent le format dans lequel ils envoient les données ?
Maxime : oui. Déjà, il faut savoir que le format NeTEx n’a pas été créé strictement pour les mêmes cas d’usage que le GTFS. Le GTFS, c’est vraiment un format destiné à l’information voyageur. Le NeTEx, c’est un format de données qui permet aux opérateurs de transport de mieux gérer leurs services, et pas uniquement de gérer l’information voyageur. Île-de-France Mobilités, l’autorité organisatrice de la mobilité en région Île-de-France, utilise le NeTEx, et pourtant, derrière, elle va fournir et exporter à la fois du GTFS. Donc ce n’est pas forcément un usage. Il ne faut pas opposer les deux : les deux sont complémentaires. Par contre, effectivement, quand il s’agit de modéliser une offre de transport, si on veut vraiment être puriste et modéliser à 100 % l’offre de transport, on ne pourra pas le faire — en tout cas pas aujourd’hui — avec le GTFS. Notamment tout ce qui est accessibilité et gamme tarifaire. Gamme tarifaire et accessibilité, sur le GTFS, on est assez restreint aujourd’hui. Alors que sur le NeTEx, on peut dire si la rampe fait 8 % ou 5 % pour descendre du bus, combien elle fait de mètres de longueur, de largeur, etc. Des choses qu’on ne peut pas forcément modéliser. Mais disons que pour l’information voyageur, le GTFS répond probablement à 95 % des besoins. Et le 5 % restant, si on veut aller les chercher — encore faut-il que les données soient existantes — il va falloir aller peut-être sur le NeTEx, je sais pas. Donc c’est ça un peu la différence. Mais vraiment, les deux ne sont pas opposés, les deux sont complémentaires. Et nous, ce qu’on pense au PAN, c’est qu’à long terme, on aimerait que les données soient toutes produites au format riche NeTEx, et derrière qu’il y ait un export GTFS pour les besoins d’information voyageur. Parce que le format GTFS a des avantages en termes de taille de fichier, c’est beaucoup plus souple, beaucoup plus facile à manier, et ça répond à beaucoup d’usages très simples que le NeTEx est peut-être un peu moins accessible aux communs des mortels. Donc nous, on vise plutôt d’avoir ce schéma NeTEx → GTFS → applications d’information voyageur.
Toutes les données sont-elles publiques ? Certains sont-elles payantes ?
Walid : ok. Pour finir sur ce sujet, deux questions. La première, c’est : est-ce que toutes les données de transport, c’est des données publiques, ou est-ce qu’il y a encore des données qui sont privées et qui ne sont pas publiées, ou qui ne peuvent pas être publiées ? Est-ce qu’il y a des données qui sont payantes aussi ?
Maxime : bonne question. Quand j’ai vu cette trame, je me suis dit que cette question, j’allais pas forcément avoir toutes les réponses. Elles ne sont évidemment pas toutes publiques. Celles qui sont listées dans la réglementation, évidemment, elles ont vocation à être publiques et elles le sont de plus en plus. Mais pour des questions de secrets professionnels et de concurrence entre opérateurs, il y a encore des données qui ne sont malheureusement pas forcément ouvertes. Je pense notamment, par exemple, à tout ce qui est données de réalisé. Donc la fréquentation, combien de bus montent à tel arrêt, à telle heure… Ça, c’est quelque chose, c’est une donnée qui n’est pas forcément partagée par l’opérateur historique. Par exemple, l’opérateur qui opère les bus à Bordeaux, demain, il y a un appel d’offres, il y a un opérateur entrant qui veut arriver pour gagner le marché, mais il n’aura pas forcément accès à ces données-là. Et la vocation, c’est d’ouvrir ces données au maximum. Il y a des projets là-dessus, notamment le projet OPRA, mais je ne connais pas encore bien là-dessus. L’idée, c’est d’ouvrir le plus ces données-là. Mais effectivement, encore aujourd’hui, ces données-là ne sont pas forcément publiques. Et du coup, si on veut y avoir accès, on va devoir payer.
Walid : l’AOM, elle y a accès, elle ?
Maxime : oui, l’AOM, elle paie pour ça.
Walid : elle pourrait très bien mettre dans ses appels d’offres que ces données soient publiques, ou alors c’est qu’elle ne veut pas le faire pour certaines raisons particulières ?
Maxime : du coup, je ne suis pas un expert des appels d’offres, je veux pas dire de bêtises. Mais je pense que peut-être que les opérateurs ne donnent pas forcément toutes les données à l’AOM. Il y en a certains qu’ils arrivent à garder, parce que c’est leur secret professionnel, et c’est leur intérêt. Effectivement, là-dessus, il y a toujours des cas. Par contre, sur le PAN, on ne retrouve que des données gratuites. On n’a pas de données payantes sur le PAN. On est vraiment sur le PAN de l’open data. Si après, pour les données payantes ou plus à caractère confidentiel — j’en profite aussi pour l’auditoire — il y a le projet Eona-X. D’ailleurs, ça pourrait possiblement être un sujet pour tes prochains podcasts. [Voir la conférence EONA-X de la Fabrique des Mobilités]
Walid : il est dans ma liste aussi
Maxime : bon voilà. Il y a Mélanie Vessier, qui a rejoint Eona-X — tu pourrais l’appeler si tu veux, par exemple — qui est DGITM. Pour donner un peu un caractère restreint et confidentiel, on peut créer un « data space » où on peut avoir un échange de données privé entre acteurs et industrie, sans que ça passe en open data précisément. Et ça, ça peut être le cas pour des données sensibles, de sécurité, à caractère commercial, etc. Donc là-dessus, c’est un peu le complément du PAN, version confidentielle.
Exemples concrets de réutilisations rendues possibles par le PAN
Walid : ok. Ce que j’aimerais qu’on discute, c’est quelques exemples concrets. Parce qu’on a parlé du fait que le but ultime, c’était que la donnée soit disponible, que les réutilisateurs s’en emparent, et que ça améliore le système pour qu’il y ait du report modal, et qu’en gros, à la fin du fin, on fasse baisser le CO₂ qu’on envoie dans l’atmosphère. Est-ce que tu as des exemples concrets à nous donner ? Alors ça peut être dans ton expérience, ou des exemples de réutilisateurs, et de l’intérêt du PAN pour eux, et donc in fine pour les utilisateurs, l’utilisateur final des transports.
Maxime : les exemples les plus marquants, c’est ceux qui vont avoir le plus d’impact pour les Français. Et donc, souvent, on parle des gros opérateurs d’applications multimodales — Google, Apple, etc. On a évidemment des cas d’usage beaucoup plus locaux, à un impact plus restreint. Si on parle de ceux qui ont le plus d’impact — notamment Google Maps, moi j’étais chez eux avant, pendant 4 ans — là-dessus, c’est très clair.
Avant que le PAN n’existe, un opérateur comme Google Maps, en France, en 2018, devait, pour des raisons internes, référencer peut-être au maximum une dizaine de villes en France. C’est-à-dire que tu avais dix villes en France où, quand tu faisais un itinéraire de la gare à la mairie, par exemple, tu allais dans l’onglet transport en commun, ils te disaient : il n’y a pas, il faut marcher, prends le taxi. Pourquoi ? Parce qu’un opérateur comme Google, qui est mondial et global, n’avait pas les ressources nécessaires — et potentiellement, à ce moment-là, il ne voyait pas la valeur ajoutée — d’aller dédier de l’énergie pour aller contacter un par un tous les opérateurs de transport.
Maxime Siret
Imagine, demain, Google veut référencer tous les transports en commun de tout le monde entier. Par exemple, la France. S’il fallait contacter un par un tous les opérateurs de transport en France, il faut staffer une équipe — et une équipe de beaucoup de personnes — et mettre beaucoup de moyens en face de ça. Ce qui n’était pas la priorité de Google en 2018. Donc, il n’y avait pas de données. Donc concrètement, ça veut dire quoi dans l’impact des Français ? C’est qu’un habitant de Clermont-Ferrand, en 2018, il était chez lui, il voulait aller à la gare pour après aller à Paris. Bon, ben en fait, il voyait qu’il n’y avait pas de bus. Alors que le bus, il existait. Mais s’il n’était pas au courant de ça, potentiellement, il ne le prenait pas et il allait prendre sa voiture.
Avec l’arrivée du PAN, des acteurs comme Google et d’autres ont changé leur approche. Parce que, du coup, plutôt que d’aller parler individuellement à chaque opérateur, ils ont un interlocuteur — qui est le PAN — qui fait le travail d’agrégation pour eux et en échange, ils peuvent intégrer très facilement beaucoup de données. C’était mon boulot avant, donc ça je peux en parler. Donc en l’espace de 4 ans, on est passé d’une dizaine de villes à plus de 130-140 réseaux — maintenant même beaucoup plus — disponibles dans les villes en France. Et un cas d’usage concret, c’est quand je suis arrivé en 2020, à Lyon, il n’y avait rien. Alors que Lyon… on parle de Lyon, quand même. Il n’y avait rien. Donc ils te disaient : tu voulais aller de Fourvière à la gare, ils te disaient : marche, prends ton vélo. Bah maintenant, il y a les horaires de transport en commun. Et moi, je voyais le nombre de requêtes. Le nombre de requêtes par semaine sur Google Maps à Lyon, c’est en millions. Donc tu peux largement derrière voir l’impact que ça peut avoir sur les Français. Tu te dis : « bah en fait, sur les millions de requêtes, peut-être que j’ai réussi à convertir 1 % qui ont finalement pris le bus plutôt que leur voiture ». Mais 1 % de millions chaque semaine, à l’échelle de la France, ça fait beaucoup. Donc c’est un impact très concret de ce qu’a pu apporter le PAN à grande échelle.
Et après, à petite échelle — et c’est moins B2C, mais ça l’est in fine — c’est là que c’est dur de montrer notre impact, c’est que plein de TPE, PME ont pu, grâce à nos données, faire des analyses et vendre des services annexes aux collectivités. Par exemple, pour leur dire : « regardez combien il y a de lignes de bus sur votre territoire, à quelle heure elles passent, on pourrait peut-être l’optimiser et mettre plus de bus ici et moins ici, etc. » Et donc, après, ces services-là sont fournis aux collectivités. La collectivité, derrière, a pu changer son service, mettre plus de bus là, moins de bus ici, et donc, in fine, améliorer le confort et le service fourni à leurs citoyens.
[Sur ce sujet voir l’épisode sur transition.city, de Polytechnique Montréal]
Ces deux exemples — le plus marquant, c’est évidemment quand on prend des réutilisateurs comme Google Maps, on voit direct l’impact. Moi, quand j’étais chez eux et que je bossais un mois sur les données de Clermont-Ferrand, que je lançais Clermont-Ferrand sur Google et que je voyais qu’en l’espace d’une semaine, j’avais 600 000 requêtes — le chiffre est un chiffre random, mais c’est un peu ces ordres de grandeur-là — 600 000 requêtes en une semaine à Clermont-Ferrand. Je me disais : « ok, j’ai 600 000 personnes qui ont fait une simulation de trajet en transport en commun à Clermont-Ferrand. Avant, elles n’avaient rien. Peut-être que sur les 600 000, j’en ai informé peut-être un dixième que maintenant, elles sont au courant qu’il y a le bus E4 qui passe à l’arrêt en bas de chez elles, et qu’elles peuvent prendre leur bus ». Ça, c’est un exemple concret de ce qu’a pu changer le PAN en termes d’accès à l’information voyageur.
Les moyens de contraindre les producteurs à partager des données de qualité
Walid : la question que je me pose, qui est un peu complémentaire à ça : est-ce qu’il y a des producteurs qui prennent trop de temps pour déposer leurs données, ou qui ne veulent pas déposer leurs données ? Dans ce cas-là, tu disais que vous passez le dossier à l’ART, qui ensuite, derrière, peut faire des choses. Je me demandais ce qui pouvait être fait de manière concrète pour obliger un producteur à partager ses données, et surtout à partager des données de qualité. Parce que finalement, s’il partage des données mais qu’elles ne sont pas de qualité, même si toi, tu veux qu’elles soient de qualité, finalement, l’impact est moindre.
Maxime : oui, c’est clair. C’est là que réside la complexité de notre travail : c’est qu’on n’est pas producteur. On a beau faire tous les efforts du monde, si en face de nous ça ne répond pas, ça ne répond pas. Moi j’ai des cas, encore aujourd’hui, où j’ai des producteurs qui ne répondent pas depuis 6 mois. En fait, on ne peut pas avancer. Dans ces cas-là, ce qui se passe, c’est que derrière, effectivement, quand un producteur ne collabore pas — alors ça peut être volontaire ou parce qu’il n’a pas de ressources, ce n’est pas que de la mauvaise volonté — la plupart du temps, c’est surtout : « j’ai pas le temps, j’ai pas de ressources, donc lâchez-moi la grappe avec vos histoires de données, moi je fais rouler mes bus, c’est pas ça. » Dans ces cas-là, on transfère le dossier à l’ART, qui va envoyer des courriers de rappel. Elle va envoyer un courrier, elle va attendre 6 mois, elle va envoyer un second courrier… et donc c’est du temps long. Effectivement, in fine, après quelques relances — je saurais pas te dire les règles précises parce que je ne travaille pas à l’ART — mais après quelques relances, la menace, c’est qu’il y a une amende. Je ne saurais pas te dire s’il y a déjà eu un cas où on est arrivé jusqu’à l’amende, mais souvent les courriers de relance suffisent et permettent de débloquer la situation. Et même, je te dirais que souvent, on n’a pas besoin d’en arriver là. Notre travail de support et d’animation de l’écosystème permet de débloquer les choses. Il y a toujours des récalcitrants, mais la plupart du temps, ça suffit.
Il y a aussi ce qu’on a mis en place, qui marche bien : c’est une sorte de pression sociale publique. En fait, quand un producteur met une donnée — là je parle pour la qualité — je sais pas, Angoulême, j’ai rien contre eux, c’est pas le cas, mais disons qu’Angoulême m’envoie leurs données, leurs données sont pourries, rien à faire. Elles vont être publiées quand même. On va afficher un message, un rapport d’erreur, qui va clairement indiquer que les données sont pourries. On va les historiser, on va pouvoir voir que dans le temps, elles sont aussi pourries. Et derrière, il y aura une sorte de commentaire public, où l’écosystème de la donnée va pouvoir commenter. Alors peut-être qu’Angoulême, quand ils vont voir que Tartampion, chercheur ou étudiant, dit que ça va pas, ils vont l’ignorer. Mais quand ils vont voir un commentaire, deux commentaires, trois commentaires, cinq commentaires — et que c’est Google qui commente, qu’Apple commente — à force, peut-être qu’ils vont se dire : « ah, mais en fait, ça va peut-être valoir le coup que je me bouge et que je corrige. » Donc il y a une sorte d’affichage public qui peut fonctionner. Évidemment, on n’est pas là pour afficher tous les mauvais joueurs, mais des fois, ça fonctionne. Naturellement, on a un producteur qui envoie des mauvaises données. Direct, on a trois personnes qui commentent, qui disent : « là, ça va pas », et puis la semaine suivante, ils corrigent.
Maxime Siret
Le rôle du PAN comme lien entre producteur et réutilisateur
Walid : ok. C’est quelque chose que je pense évoquer, mais qu’on n’a pas creusé avant, c’est la relation avec les réutilisateurs. Donc là, ce que je comprends, c’est que vous servez de point unique pour le réutilisateur, pour commenter, et vous faites le pont avec le producteur. Donc le réutilisateur peut laisser des commentaires pour les producteurs, alors qu’avant il ne le faisait pas du tout, ou il l’aurait peut-être fait, mais c’étaient des échanges de mails, enfin ce n’était pas forcément public, quoi.
Maxime : exactement, oui. Le but, c’est effectivement de fournir la plateforme pour les réutilisateurs. Ils n’ont que nous comme plateforme, et donc pour eux, c’est facile de faire des retours. Ils le font sur la plateforme directement. Derrière, soit le producteur joue le jeu et répond au réutilisateur directement, soit des fois il ignore. Et dans ces cas-là, s’il ignore, nous on surveille ça, et on va pouvoir aller relancer nous-mêmes le producteur. Donc il y a les deux, effectivement. Mais oui, on fait ce lien entre les deux. Et c’est souvent comme ça qu’on arrive à augmenter, de manière incrémentale, la qualité des données. C’est qu’au début, la donnée va pas être très bonne, et puis il va y avoir un retour. Et puis il y a Michel qui va dire qu’il manque la ligne 3, et puis il y a Cécile qui va dire que la ligne n’est pas rouge, mais rose. Et puis il y a un tel qui va dire ça… Et au fur et à mesure, dans le temps, les retours vont s’accumuler. Et ces retours vont être intégrés par le producteur, qui va d’ailleurs les repartager à tout l’écosystème. Et on va créer un petit peu ce cercle vertueux de la valeur de l’open data, en ayant ce partage et ces retours d’utilisation de chaque personne, plutôt que de les faire dans son coin.
Walid : je pense que tu l’as évoqué un peu avant, mais donc on peut dire qu’il y a plus de réutilisateurs maintenant qu’il y a le PAN qu’avant, alors ?
Maxime : on peut dire qu’il y en a plus, c’est certain. Malheureusement, on ne peut pas dire aujourd’hui encore combien. Ça, c’est un sujet aussi qui est d’actualité. C’est malheureusement, l’inconvénient de l’open data, au sens strict du terme comme on l’a aujourd’hui : c’est qu’on n’a pas une liste exhaustive de toutes les personnes qui viennent chez nous. Toi, demain, tu viens chez nous, tu télécharges les données de Clermont-Ferrand, et tu repars. Moi, dans mon système, j’aurai « +1 téléchargement » de la donnée de Clermont-Ferrand. Je ne saurais pas que c’est Walid, du podcast Projets Libres, et que tu veux en faire telle ou telle utilisation. Malheureusement, ça, je ne le saurai pas. J’ai une vision assez large de qui vient chez nous, mais encore aujourd’hui, je ne connais pas tous les clients de mes données, parce qu’ils viennent de chez moi. Ce qui peut poser souci quand il s’agit de prouver notre utilité en interne : à quoi on sert, quels problèmes on résout, et combien d’argent on a besoin pour résoudre ces problèmes-là.
Walid : vous encouragez les gens à vous enregistrer quelque part pour dire qu’ils l’utilisent ? Comment ça se passe ?
Maxime : alors, on ne fait pas des sondages, mais effectivement, on encourage les réutilisateurs à se déclarer en tant que réutilisateurs. En fait, sur notre plateforme, on encourage les personnes à déclarer qu’ils sont réutilisateurs, et ensuite, on les encourage à déclarer leur réutilisation. Donc si tu vas sur transport.data.gouv.fr, tu as un onglet « Réutilisations », et tu peux voir un peu un exemple, un panorama de toutes les données, de tous les projets qui ont pu être menés grâce aux données disponibles sur le PAN. Mais ce ne sont pas tous les projets, ce sont les projets pour lesquels les personnes ont bien voulu les déclarer. Donc effectivement, ça représente peut-être 10 %, 5 %, 15 % — on ne sait pas — de l’étendue de ce qui a pu… Après, c’est peut-être aussi la magie du truc. C’est qu’il y a toujours une part de mystère, et on ne saura pas vraiment à 100 % ce à quoi on sert.
Les rapports avec le monde académique
Walid : pour finir sur ce sujet, il y a une question que je n’avais pas notée mais qui me vient quand on discute, c’est : quels sont vos rapports — tu as parlé plusieurs fois de chercheurs —, quels sont vos rapports avec les chercheurs, avec les universités, bref, avec les gens qui travaillent de manière académique sur les données ? Est-ce que vous avez des rapports, est-ce que vous avez des projets avec eux, est-ce que vous savez ce qu’ils font avec les données qu’ils consomment ?
Maxime : pas assez. Non, pas assez. On n’a pas beaucoup de projets avec eux aujourd’hui. Historiquement, la cible du PAN, c’était vraiment les gros calculateurs d’itinéraires, parce que c’était eux qui avaient été identifiés comme étant ceux avec lesquels on allait avoir le plus d’impact rapidement. Les efforts ont été tournés vers eux. Aujourd’hui, je pense qu’on a vocation à s’élargir. Et on a trois — du coup je change un peu la question — mais on a un peu trois personas aujourd’hui. On a les gros réutilisateurs, ceux qui sont experts des données de transport. Donc ça va être soit Google, Apple, soit des cabinets d’études très spécialisés dans le transport en commun qui viennent chez nous. Ça, c’est un persona pour lequel — qui est un peu celui du persona historique du PAN — sur lequel on a beaucoup investi.
Après, il y a un persona un peu entre les deux : ce sont des personnes qui travaillent dans les transports mais qui ne sont pas expertes de la donnée. Là-dedans, par exemple, tu peux avoir des chercheurs ou des académiciens, qui ne sont pas forcément experts du format GTFS, mais qui ont un projet de transport. Pour ce projet de transport-là, ils vont avoir besoin — de manière épisodique — de telle ou telle donnée de transport. Et donc ils vont devoir s’intéresser à notre produit.
Et nouvellement, — et ça arrive de plus en plus, c’est intéressant — on a un troisième persona, où on a des acteurs qui sont totalement en dehors du monde des transports, mais qui, pour des projets, des besoins très précis, vont vouloir intégrer de la donnée de transport. Typiquement, récemment, on a eu des agences immobilières. Une agence immobilière, qui, en fait, sur son site, met des maisons et appartements à vendre et, pour les mettre en valeur, elle aimerait automatiser le fichage des arrêts de transport en commun proches des biens qu’ils mettent en vente. Parce qu’on sait aujourd’hui qu’un bien qui est proche de transports publics a plus de valeur. Donc elle aurait aimé automatiser ça. Du coup, elle vient chez nous pour aller récupérer les arrêts de transport, et les afficher sur sa cartographie en mettant « la maison est proche de l’arrêt E4 machin truc ». Ça, on a des choses comme ça, qui évoluent. Sur les académiciens/chercheurs, historiquement — j’étais pas là au départ — mais moi, je n’ai pas vraiment d’exemple précis avec cette catégorie d’utilisateurs.
L’avenir du PAN et ses défis
Walid : dernier sujet que je voudrais évoquer — pareil, tu en as parlé un tout petit peu au début, dans l’intro — c’est l’avenir du PAN. Avant qu’on se quitte, j’aimerais qu’on parle de l’avenir du PAN. Quel est ton sentiment ? Où est-ce que vous en êtes arrivés à l’heure actuelle ? Est-ce que vous êtes arrivés à un résultat qui est satisfaisant — on peut toujours faire mieux — mais est-ce que tu estimes que le résultat auquel vous êtes arrivés, en termes de production, qualité des données, c’est un résultat satisfaisant ? Et est-ce qu’il reste encore beaucoup de chemin à faire ? Puis après, c’est : voilà, quels sont les défis ? Qu’est-ce qui arrive devant, les gros trucs — que ce soit en termes de données, en termes d’organisation, de financement — qu’est-ce que tu peux nous dire là-dessus alors ?
Maxime : la réponse — enfin, sur ce qu’on a aujourd’hui au PAN — la réponse, elle dépend vraiment du mode de transport dont on parle. Le PAN, historiquement, il a été dédié aux transports en commun. Donc aujourd’hui, transports en commun, on n’a pas « fini le jeu », entre guillemets, mais on est au niveau 90 sur 100. C’est-à-dire qu’on a cartographié la quasi-intégralité des transports en commun en France. Il y a encore du travail à faire sur la qualité et sur les données de réalisé.
Je ne l’ai pas dit au départ, mais on a trois verticales au PAN pour analyser ce qu’on fait. C’est la quantité, la qualité et la réutilisation. Si on a des données qui sont de qualité et en quantité, alors elles seront réutilisées. Pour le PAN, aujourd’hui, pour les transports en commun, on a beaucoup de quantité, on a beaucoup de qualité, donc elles sont réutilisées. Mais on pourrait faire mieux en qualité.
Par contre, pour les autres modes de transport, qui sont beaucoup plus émergents et beaucoup plus récents, on n’est pas au même degré de maturité au PAN. Pourquoi ? Parce que l’écosystème ne l’est pas non plus.
Tu prends l’écosystème des trottinettes et des vélos en libre-service — jusqu’à il y a encore un an ou deux, le marché, c’était la jungle, si tu veux. C’est-à-dire que tu avais Lime, Dott, Tier… tout le monde arrivait en même temps, tous les six mois il y en avait un qui changeait, un qui coulait, l’autre qui se faisait racheter, etc. Forcément, quand l’écosystème est aussi peu mature, derrière, la donnée, elle ne va pas être mature non plus. Donc sur ces modes-là, un peu plus émergents, on n’en est pas encore au niveau final du jeu. Là-dessus, on est encore en train d’aller chercher des données. En VLS — vélo en libre-service — il nous manque encore à peu près 20 % des jeux, 20-30 % des flux de vélos.
Maxime Siret
C’est les réseaux type Vélib’ ou les réseaux en free-floating comme Lime, Dott… Donc là-dessus, on n’a pas fini parce qu’on manque encore des données. C’est la même chose pour l’autopartage, pour le covoiturage. Et après, on a des modes encore plus nouveaux, encore plus récents — comme par exemple les bornes de recharge électriques. Les bornes de recharge, chaque jour en France, t’as peut-être des centaines de nouvelles bornes qui sont créées.
Walid : je confirme, celle à côté de chez moi vient d’être mise en service aujourd’hui même.
Maxime : quand tu as ce degré de maturité d’évolution, c’est compliqué pour nous d’aller suivre, si tu veux, cette chaîne. Donc là-dessus, au niveau de ces modes-là, on a encore énormément à faire, parce qu’il faut aller animer l’écosystème, il faut aller rencontrer tous les acteurs qui changent du jour au lendemain, il faut aller normaliser la donnée et ensuite il faut aller l’agréger. Parce que pour les bornes de recharge, on a aujourd’hui plus de 1800 producteurs différents. Donc on a plus de 1800 sources de données différentes, et nous on va agréger les 1800 sources pour en fournir un seul fichier qui va consolider toutes les bornes en un fichier, puisque ce que veut derrière le réutilisateur, c’est un seul fichier.
Donc, pour en revenir à ta question, les défis d’évolution sont très différents selon le mode dont on parle. Aujourd’hui, on a encore énormément à faire sur les nouveaux modes. Et probablement que les nouveaux modes vont encore changer et encore évoluer dans les prochaines années, donc on aura toujours énormément à faire là-dessus, c’est certain.
Après, sur les évolutions à venir et les grands défis : pour moi, le plus grand défi, c’est de mieux connaître nos usages.
En fait, c’est compliqué historiquement de faire évoluer un produit et de le légitimer en termes de financement à l’administration, si tu n’es pas capable d’aller voir tes décideurs en leur disant concrètement à quoi tu sers, qui vient chez toi et pourquoi. Et malheureusement, moi en tout cas depuis que je suis arrivé, c’est un peu ce à quoi je me heurte. On me dit : « ok, on va te filer combien ? On va te filer un million ou un million deux ? ok, et les 200 000 euros, ils serviront à quoi en plus ? Tu vas aller voir qui en plus, qui viendra chez toi ? » Mais ça, c’est compliqué quand t’es pas capable de dire qui viendra chez toi — en tout cas pas de manière très lisible et très exhaustive. Donc il y a des enjeux derrière ça qu’on est en train de mettre en place.
Maxime Siret
Et ensuite, il y a un autre enjeu, qui est tout récent — et je pense qu’au moment où tu sortiras ce podcast, on pourra en parler, donc il n’y a pas de souci — c’est qu’il y a un enjeu de consolidation des PAN en France. Il y a le PAN multimodal, dont on parle depuis le début. Il y a le PAN routier. L’enjeu va être de faire fusionner ces deux PAN et de faire que transport.data.gouv.fr soit l’unique point d’accès national en France pour toutes les données de transport, routes comprises. Et donc, il va y avoir un enjeu pour le PAN de s’élargir aux données routières, qui ne sont pas forcément les mêmes types de données, pas forcément les mêmes interlocuteurs. Donc là-dessus, on va devoir repartir un peu à zéro. Donc il y a ces enjeux-là aussi, qui sont forts pour la suite.
Et de pair avec ça, l’enjeu des financements évidemment. Tu sais qu’on est dans une actualité politique hyper instable, hyper complexe. Les financements publics sont évidemment pointés du doigt et analysés finement. Et donc, moi, depuis que je suis arrivé, on m’a déjà coupé du budget. Donc il y a un fort enjeu d’aller convaincre les décideurs que l’argent public serait — et sera — investi utilement dans le PAN à long terme.
Et donc là-dessus, pour ça, on revient au problème de « qui vient chez nous », etc. Donc on a ce fort enjeu de pérennisation financière du produit, parce que là aujourd’hui, on travaille un peu à vue. Moi, tu vois, je n’ai toujours pas de budget pour 2026. Je sais pas combien d’argent je vais avoir, si je vais devoir virer deux personnes, ou en recruter deux, si je vais pouvoir prioriser mon travail sur les IRVE — enfin sur les bornes de recharge — ou pas. Tu vois, il y a plein de sujets qui sont en suspens, et ça c’est tous les six mois. Et du coup, c’est compliqué d’avoir une vision long terme quand ta vision court terme est un peu floue. Donc il y a de forts enjeux là-dessus aussi, de pérennisation.
Le mot de la fin
Walid : ok, on arrive à la fin de l’entretien. Je vais juste te laisser, avant qu’on se quitte, un mot de la fin. Est-ce que tu veux faire passer un message, même si tu viens d’en faire passer un intéressant juste avant, mais est-ce que tu as un message particulier à faire passer avant qu’on se quitte ?
Maxime : particulier non, je veux te remercier pour l’invitation. C’était hyper intéressant de pouvoir présenter ce qu’on faisait au PAN, qui est un produit que je trouve, moi, super intéressant, et qui répond à un grand nombre de besoins, et qui est pas forcément connu. Donc j’espère que ça pourra appeler d’autres initiatives. Si moi j’ai un mot de la fin, c’est que si les écouteurs ont des suggestions, qu’ils reviennent à la suite de nos échanges et qu’ils se disent : « mais en fait pourquoi le PAN fait pas ça ? c’est débile en fait, il manque ça, ça et ça, je comprends pas », bah moi je suis preneur d’avoir ces retours-là. Parce que nous, on est un peu dans le guidon au quotidien. Et des fois, d’avoir des retours de personnes qui ne sont pas forcément initiées, ça fait du bien. Et des fois, on a des idées qui tombent grâce à ça. Donc moi, je suis preneur d’avoir ces retours-là de ton auditoire.
Walid : où est-ce qu’on vous contacte ?
Maxime : la meilleure façon de nous contacter, c’est contact@transport.data.gouv.fr. Adresse générique, mais qui est consultée par tout le monde de l’équipe, et j’y ai aussi accès. Donc en envoyant un mail à cette adresse-là, on vous répondra très rapidement et on sera disponible. On est aussi disponible, on a aussi une plateforme sur LinkedIn, où on communique très régulièrement — donc la page publique transport.data.gouv.fr. Et enfin, on a une newsletter qui est mensuelle, sur laquelle on communique de manière publique notre travail. C’est aussi une valeur importante du PAN : c’est que tout ce qu’on fait est public. Nos budgets sont publics, nos travaux sont publics, notre roadmap est publique. Donc on partage tout de manière mensuelle là-dessus. Donc si vous voulez suivre nos évolutions, vous pouvez souscrire à la newsletter qui est accessible via la page d’accueil de transport.data.gouv.fr.
Walid : super. Eh bien Maxime, merci beaucoup, c’était un vrai plaisir. Pour les auditeurs, comme d’habitude, si ça vous a plu, n’hésitez pas à faire tourner cet épisode, à en parler autour de vous, à mettre des commentaires sur les réseaux sociaux. Vous trouverez toutes les informations dans le bas de page du site ou dans les notes de l’épisode sur votre plateforme de podcast — podcast qui est disponible sur toutes les bonnes plateformes. Donc voilà. Et puis rendez-vous bientôt pour d’autres épisodes sur de l’open data. À bientôt à toutes et à tous. Maxime, merci beaucoup, et puis au plaisir de te retrouver, en vrai, dans un événement. On s’est loupés au meetup transport il y a quelques mois, mais voilà…
Maxime : le monde est petit, on se retrouvera sans souci. Merci Walid.
Walid : à bientôt.
Pour aller plus loin
- Webinaire : Contrôles de l’ART, retours d’expérience et actions d’accompagnement du PAN
- Rapport ART : État des lieux et bilan des contrôles en 2023/2024 : Recommandations et actions pour 2025
- Webinaire : Infrastructure de recharge électriques & open data : où en est-on en France ?
Chaîne Peetube des vidéos Open Transport qui inspirent les épisodes de Projets Libres : https://videos.projets-libres.org/c/transports/videos
Production de l’épisode
- Enregistrement à distance le 27 octobre 2025
- Trame : Walid Nouh
- Montage : Walid Nouh
- Transcription : Walid Nouh
Licence
Ce podcast est publié sous la licence CC BY-SA 4.0 ou ultérieur


