Données ouvertes, qualité et visualisation

Conférence du 22 octobre 2014, MTL Data Meetup.

Résumé^

La nature des données ouvertes évolue rapidement en volume, en vélocité et en variété. Plus ces caractéristiques vont croître, plus les problèmes liés au manque de qualité des données vont compromettre la qualité de l’analyse, de la visualisation et des applications qui les réutiliseront. L’exposé identifiera certains de ces problèmes et ouvrira la discussion à des solutions.

Abstract^

The nature of open data evolves rapidly in volume, velocity and variety. More these features will grow, more problems related to lack of data quality will compromise the quality of analysis, visualization and applications that will reuse it. The presentation will identify some of these issues and will open discussion about solutions.

Présentation (PDF)^

La présentation au format PDF

Transcription^

Introduction^

Merci d’être venus en si grand nombre.
Ce soir, je vais vous donner une définition de la qualité des données ouvertes et vous communiquer quelques constats de ma recherche-action sur l’ouverture des données qui s’est déroulée entre 2010 et 2014. Je vous suggèrerai quelques pistes de solution et vous confierai quelques avenues de recherche.

Raconter des histoires, être étonné, douter, croire… ^

Les données n’ont pas beaucoup de sens en tant que telles. Ce sont les personnes qui, grâce à des outils, peuvent raconter des histoires et répondre à des questions, par exemple à l’aide des fameuses questions d’Aristote : OÙ QUOI QUAND POURQUOI QUI COMMENT (« 5W1H » ) auxquelles j’ajoute toujours l’étonnement et le doute, « ? ».

Ainsi, grâce à la visualisation des données, des intermédiaires tels que vous (professionnels de l’information et des données, journalistes, développeurs d’applications, scientifiques et autres professionnels) peuvent expliciter, aux citoyens ordinaires, aux dirigeants et aux autres scientifiques et professionnels, les situations toujours plus complexes et aider à appréhender la réalité; cela, appuyé par des faits.

Pour moi, la visualisation des données est instrumentale, esthétique et émancipatoire. Par exemple, elle peut aider à détecter des erreurs, à révéler la corruption ou tout simplement à réfléchir (par induction, par déduction et surtout par abduction)

En psychologie cognitive, l’abduction est une forme de raisonnement intuitif qui consiste à supprimer les solutions improbables. Cette notion s’oppose à une logique d’exploration systématique. (Wikipedia)

La révolution des données^

Le monde des données évolue rapidement sur un axe de complexité croissante qui peut être exprimé en VOLUME | VÉLOCITÉ | VARIÉTÉ. On parle alors d’échantillons, de dépôts de données et de mégadonnées qui co-existent.

L’accélération du transfert des connaissances^

Si les données sont des véhicules pour le transfert des connaissances, la révolution des données peut aussi être représentée sur trois axes : RELATIONNEL | COGNITIF | CONTEXTUEL. Les données sont, de façon incrémentale, enrichies de relations, d’éléments de compréhension et de contexte (les personnes, l’espace et le temps).

Ces transformations de données permettent aux personnes d’exprimer leur intelligence. Une ville ne peut que mettre à disposition ses données aux communautés pour que ces dernières puissent agir avec encore plus d’intelligence.

La qualité des données^

Les données qui sont mises en relations, analysées et comprises passent aussi dans un cycle incrémental allant de la création à l’utilisation (cycle SECI, voir Mercier, 2007, page 45).

Je mets en évidence trois catégories de critères de qualité : les 10 principes de la Sunlight Foundation et de l’Open Knowledge Foundation (OKFN), les 5 étoiles de Tim Berners-Lee (2006) et le Manifeste des données utilisateurs

On peut représenter les critères de qualité autour de principes : l’exhaustivité (completless), la cohérence (consistency), la précision (accuracy). S’ajoutent les dimensions de temps et de territoire et celle de l’interopérabilité par les formats ouverts. Ces principes s’appuient sur des valeurs importantes : l’accessibilité, l’autonomie, le partage et la liberté.

Minimalement accessibles dans le Web sous licence ouverte, on préfère les données lorsqu’elles sont structurées, balisées et interopérables, grâce aux formats ouverts, de même qu’avec un identifiant unique. La forme de données ouvertes liées est celle de qualité supérieure (RDF dans des dépôts de triplets).

En ce qui concerne les contributions d’utilisateurs (crowdsourcing), notamment celles organisées par OSM-Montréal. n’oublions pas qu’ils devraient contrôler l’accès à leurs données, connaître où elles sont stockées et pouvoir les extraire sous formats ouverts en tout temps.

Par convention, ce sont les métadonnées qui définissent la qualité des ensembles de données et de leurs ressources. Ces métadonnées devraient être normalisées (ontologies, vocabulaires, facettes, balises et autres), par exemple le catalogue CKAN a adopté DCAT ou, encore, choisir les normes ouvertes du 311 et du 511 ouvert qui sont soutenues dans les travaux de Nord-Ouvert.

Les constats de la recherche-action^

Après plus de 4 années de recherche-action, je constate que la qualité des données est le résultat d’une négociation entre les utilisateurs et de nombreux autres acteurs : créateurs, scientifiques, professionnels de l’information et des données, professionnels des technologies, professionnels des communications et des relations publiques, dirigeants, élus…

Le dialogue et la rétroaction entre les utilisateurs et les fournisseurs de données sont certainement les meilleurs moyens de mettre en place les mesures satisfaisantes de qualité des données ouvertes.

Par exemple, les commentaires à chaque ensemble de données (via DISQUS), les demandes publiques de données ouvertes et leur suivi, les messages dans les groupes de discussions (Données ouvertes Montréal, liste d’OSM-Montréal, liste de FACiL et maintenant MTL DATA), les activités de codéveloppement telles qu’ÉcoHackMTL et Hackons la corruption de même que les sondages sont des démarches collectives à privilégier. Cette position exige une transformation de la culture et des attitudes organisationnelles.

Mise en garde : Les demandes d’accès à l’information et les courriels génériques ne sont que des démarches individuelles. De plus, les approches de «divulgation proactive» et de libre-accès doivent être faites en adoptant aussi celles de la libération de données, c’est-à-dire permettre la réutilisation et la redistribution.

Nous en sommes ici, à la toute petite enfance^

La réalité nous rattrape très vite. Les citoyens ordinaires autant que les employés ordinaires n’ont pas la numératie ni les outils de travail intellectuel qui leur permettraient d’agir efficacement dans le processus de libération des données.

Sur une courbe de maturité, nous en sommes ICI, à la toute petite enfance. Cette conclusion est aussi partagée par Rob Kitchin (2014).

À titre d’exemple, de nombreux employés publics ne peuvent utiliser que des outils obsolètes tels que MS Office 2003 sans MSAccess… ce qui force l’utilisation excessive de macros et impose des limites en terme de rangées et colonnes. Entre autres, il y a l’existence de données anciennes non actualisées, des données imprécises, des données non validées, des données manquantes qu’on pourrait pallier à l’aide de techniques d’interpolation, ou encore, des données privées qu’on peine à anonymiser .

Même avec des données « parfaites », des biais et des mensonges peuvent être introduits dans les visualisations d’où l’importance de la numératie chez ceux qui consultent ces résultats d’analyse et ces visualisations.

Nous avons devant nous encore quelques années à utiliser des dépôts décentralisés et hétérogènes. Il faudra donc collaborer ensemble au lieu de souhaiter tout contrôler « dans le nuage ». De bonnes « petites» données ouvertes valent mieux que des mégadonnées inaccessibles, de moins en moins récupérables et contrôlées par des tiers privateurs.

Pistes de solution | Avenues de recherche | Discussion^

Les pistes de solution que je vous donne sont maintenant pour moi des avenues de recheche qui pourront susciter, ce voir, des discussions.

  • Engagement des citoyens mais aussi des fournisseurs de données^

    (organismes publics, académiques et scientifiques)

  • Gouvernance des bonnes pratiques de gestions de l’information et des connaissances^

    (des données à la sagesse)

    • L’adoption de processus et de méthodes de travail centrés sur la qualité des données, par exemple qui documentent le savoir-faire dans le but de faciliter le transfert;
    • L’adoption et l’utilisation de normes ouvertes et du logiciel libre, entre autres les séries bureautiques libres telles que LibreOffice;
    • La mise en œuvre et le maintien de la gestion intégrée et durable de l’information;
    • L’encadrement de l’impartition (les contrats en services professionnels). L’impartition est une voie d’exception de par son instabilité et ne peut pas se substituer à la nécessité d’avoir une base d’organisation stable et perenne. Cette pérennité exige une stabilité des effectifs professionnels. Les mesures dites d’austérité peuvent être catastrophique pour la mémoire organisationnelle qui a été construite progressivement à travers les années et qui, maintenant, s’actualise grâce aux données ouvertes en respectant les exigences de qualité entre autres de structuration de l’information, de normalisation des données et des métadonnées ainsi que de formats ouverts.
  • Autonomisation des personnes et des groupes ^

    en vue de leur émancipation

    • L’embauche de professionnels spécialisés en sciences de l’information et intégrés aux équipes multidisciplinaires;
    • Le développement des compétences numériques des employés publics ainsi que des citoyens;
    • La démocratisation des outils d’extraction, de transformation et de chargement des données (ETL)
    • Permettre, enfin, l’informatique de l’utilisateur final dans les organisations
  • Valorisation des intermédiaires de données et de l’information^

    • Professionnels de l’information (curateur et médiateur numérique)
    • Scientifiques des données
    • Journalistes des données
    • Développeurs d’applications Web et mobiles
    • Professeurs à tous les niveaux du primaires aux cycles supérieurs

Conclusion^

[mon archétype]
À moyen terme, l’adoption de normes ouvertes permettra d’accéder à une phase plus sophistiquée du Web, celui du Web sémantique.

Le prérequis est d’apprendre à apprendre et vivre dans des communautés apprenantes (grandes ou petites) dans les grandes villes comme Montréal ou aux Îles-de-la-Madeleine.

La qualité des données ouvertes et leur réutilisation constituent ensemble un indice du niveau de transparence d’une administration publique.

Cette transparence implique une vigilance et un engagement social de tous les intervenants qui collaborent à l’avancement de la transformation de notre monde.

Webographie de la présentation (Zotero)^

Webographie de la présentation sur Zotero

Sources des images de fond des diapositives^

1 | 2 | 3 | 4 | 5 | 6  Fusion Communications et Design | 7 | 8 Fusion Communications et Design | 9  Michel Falardeau

Vus : 1161
Publié par Diane Mercier : 78