Ce que la gestion de l’open-data dit des villes

Par 03 novembre 2014
Cities

La façon dont leurs données sont collectées et rendues publiques diffère très fortement selon les villes américaines. Rendre l’open-data pertinent implique un grand effort de la part des pouvoirs publics.

Les données peuvent servir pour la recherche comme pour la gouvernance des citoyens et leurs interventions dans la vie publique d’une entreprise. Mais des processus empêchent de mettre en place des effets de leviers importants sur les stocks de données disponibles. Pour mener cette étude sur la gestion de "l’open data", les chercheurs ont utilisé quelques 9000 groupes de données libres issues de 20 villes américaines. En tendance, les tables de données continuent d’augmenter considérablement depuis la première créée à Seattle en 2009.

Mais ces données ne sont pas mises à jour : 70% d’entre elles n’ont jamais été modifiées après leur mise en ligne. Luciano Barbosa et Kien Pham ont voulu chercher à comprendre les liens qui existent entre la taille de "l’open data" et les caractéristiques d’une ville. Il existe une forte corrélation entre la population et le nombre la quantité de données librement accessibles. De fait, la complexité de l’organisation urbaine est proportionnelle à sa population.

L’open-data doit rendre les données lisibles et accessibles

La possibilité d’utiliser des données plus ou moins facilement rejoint la question de leur encodage. Très concrètement, il faut que les groupes de données soient aisément compréhensible pour que leur "ouverture" soit en réalité pertinente. Le bénéfice d’avoir des données libres d’accès tient à la facilité qu’auront les utilisateurs de s’en servir. Et ainsi faire émerger des liens, des agrégats et des recoupements inattendus. Ainsi, sur les 70 GB de données disponibles pour l’ensemble des villes étudiées, la majorité est lisible depuis un tableur. Selon les villes, les données ouvertes sont présentées avec plus ou moins d’effort, ce qui cloisonne la portée de l’appropriation par les citoyens.

Le croisement de données issues de groupes différents est, pour les chercheurs, d’une importance première afin de créer des conjonctures intéressantes. Ils citent l’exemple de New York qui a réussi à programmer un algorithme pertinent pour la détection d’immeubles dangereux en croisant des données de sources diverses.

Problème central de l’ère du Big Data, la redondance des données accumulées depuis des sources différentes.  L’étude met à cet égard en lumière la présence d’une majorité de données identiques dans plusieurs groupes. L’étude montre que l’open-data est parfois synonyme de brassage à vide : à New York, les tables de données disponibles comptent jusqu’à 30% de colonnes vides. Les pouvoirs publics ont quelque part raté l’implémentation. Enfin, certaines colonnes et tables de données contiennent des noms très peu informatifs sur leur contenu, ce qui, en plus d’alourdir les fichiers rend leur lecture inabordable.

Aider les utilisateurs sans les assister

Il reste enfin la question de la centralisation des données des différentes villes. En effet, rendre les données accessibles est bien le point central que l’étude cherche à cerner. Si les données sont correctement encodées pour être lues et analysées par un ordinateur, elles doivent néanmoins être accessibles pour l’utilisateur. Dans leur majorité, les tables de données furent téléchargées moins d’une centaine de fois.

Les villes devraient faciliter la découverte de l’open-data. Le fait que chaque ville agisse de façon non-coordonnée, en publiant leurs données sur des sites isolés, ne facilite pas la connection qui pourrait s’établir entre elles. De même, l’homogénéisation nationale des tables de données irait dans le sens des utilisateurs qui pourraient s’approprier le contenu plus aisément. Inversement, l’étude met en garde contre l’idée de préparer le travail d’agrégation des données a priori, ce qui reviendrait à les sélectionner sans l’accord des utilisateurs.

 

Mentions légales © L’Atelier BNP Paribas