Rechercher

Ne nous fions pas à n’importe quelle statistique !

La numérisation a déclenché une avalanche de données. Des organisations internationales comme l’OCDE aident à déceler les données fiables et de bonne qualité.

Ne nous fions pas à n’importe quelle statistique !

Les données scannées sont utiles pour mesurer les prix. À Pratteln, des collaborateurs du centre de distribution de Migros préparent la commande d’un client de la plateforme de commande en ligne. (Image: Keystone)

L’Organisation de coopération et de développement économiques (OCDE) est l’une des sources les plus importantes et les plus fiables du monde en matière de statistiques et de données comparables à l’international. Du reste, son site Internet est consulté par un nombre considérable de visiteurs pour les données et statistiques qu’elle y publie, lesquelles servent également de base à ses analyses scientifiques et à ses recommandations politiques.

La numérisation a engendré un volume de données sans précédent, lequel a à son tour suscité l’attente d’obtenir des statistiques toujours plus détaillée et établies quasiment en temps réel. La pandémie de Covid-19 et les tensions géopolitiques qui ne cessent de croître accélèrent encore ce phénomène, car plus une statistique est d’actualité, plus on peut réagir rapidement à de nouveaux développements. En outre, plus les données sont détaillées, plus l’on peut adapter le conseil politique et tenir compte des inégalités entre les sexes, les régions, les secteurs, les tailles des entreprises ou les caractéristiques démographiques. Mais les statistiques et les données doivent avant tout être fiables et de bonne qualité. En bref, elles doivent remplir leur objectif.

Qu’est-ce qu’une statistique de qualité ?

L’on pourrait naturellement penser qu’une statistique de bonne qualité reflète aussi exactement que possible certains aspects du monde réel. Mais quelle est la valeur d’une telle statistique si personne ne s’en sert, ne s’y fie ou ne la comprend ? L’OCDE mesure la qualité à l’aune de sept dimensions[1]. Les statistiques de qualité doivent être : (1) pertinentes, c’est-à-dire servir les objectifs de leurs utilisateurs ; (2) correctes ; (3) aussi actuelles que nécessaire ; (4) accessibles ; (5) faciles à interpréter et (6) cohérentes, ce qui signifie qu’elles peuvent être combinées judicieusement et comparées avec d’autres jeux de données. Enfin, des statistiques de qualité doivent également comporter de bonnes métadonnées (7) qui informent clairement sur les sources utilisées et les méthodes appliquées.

L’OCDE ne se contente pas de respecter ces normes élevées de qualité : elle encourage dans le monde entier le recours à des méthodes statistiques éprouvées qui requièrent des pays qu’ils mettent en place des systèmes statistiques nationaux performants. Elle se réfère à cet effet à la Recommandation du Conseil de l’OCDE concernant les bonnes pratiques statistiques. Bien que ces recommandations s’adressent en premier lieu aux membres de l’OCDE (elles sont mises en œuvre en Suisse par exemple), les pays non membres peuvent également les observer.

Nouvelles méthodes de collecte des données

La transformation numérique a radicalement changé le processus de production des statistiques ainsi que les données et techniques disponibles. Par le passé, les offices nationaux de la statistique s’appuyaient presque exclusivement sur des recensements, des relevés et des registres pour obtenir des informations sur les particuliers, les ménages et les entreprises et les organisations internationales telles que l’OCDE s’en remettaient quasi exclusivement aux statistiques officielles qu’ils établissaient.

Ces dernières années, cependant, ces sources ont été complétées – et parfois supplantées – par de nouvelles sources plus ou moins accessibles et en évolution constante. Les géodonnées, qui sont de plus en plus utilisées pour les statistiques agricoles et d’occupation des sols, en sont un bon exemple. Combinées avec les données traditionnelles fournies par des relevés ou des recensements, elles permettent de recueillir des statistiques particulièrement utiles. Ainsi, l’OCDE a eu recours à cette méthode pour les travaux qu’elle a consacrés à l’exposition de la population[2] à la pollution atmosphérique en  combinant des informations sur la quantité de particules fines par km2, relevée à l’aide de géodonnées, avec la densité démographique. Cette statistique confirme que, malgré la réduction de la pollution de l’air, la population (y compris celle de nombreux pays de l’OCDE) reste exposée à des particules fines nocives (voir illustration).

Concentration de particules fines dans le monde (2019)

 

Remarque : l’échelle indique l’exposition médiane aux particules fines (PM2,5) d’un habitant moyen durant un an.
Source : statistiques environnementales de l’OCDE (banque de données) (2020), calculs de l’OCDE à partir des estimations de concentration de la charge mondiale de morbidité 2020 publiée par l’Institut de mesure et d’évaluation de la santé (IHME GBD 2020). Les estimations pour 2021 sont en préparation. Les limites infranationales comportent des données des couches administratives unitaires de la FAO (FAO GAUL [2015]).

La nécessité est mère d’invention

La mesure des prix est un autre exemple de recours à de nouvelles sources de données. En 2020, au début de la pandémie de coronavirus, il n’était plus possible d’envoyer des collaborateurs dans les magasins pour relever les prix des différents produits composant le panier d’achats qui permet de mesurer l’inflation. Certains offices nationaux de la statistique avaient toutefois déjà commencé à expérimenter les données dites scannées, c’est-à-dire celles relevées aux points de vente à des fins administratives. Ils se sont vus soudain contraints de développer radicalement ces méthodes de relevé.

Les données scannées ont l’avantage de recenser les produits avec plus de détails que les méthodes traditionnelles. Elles fournissent en outre des informations sur les quantités vendues et les prix de transaction plutôt que sur les prix affichés ; elles tiennent donc compte de toutes les réductions de prix. Toutefois, les données scannées ne couvrent qu’une partie des produits pertinents. Elles ne sont pas non plus toujours « prêtes à l’emploi » et doivent souvent être retravaillées pour fournir un jeu de données utilisable. L’obtention de données scannées peut aussi être coûteuse. Les données sur les prix peuvent également être collectées selon la méthode dite du « ratissage de la Toile » (webscraping), qui recourt à l’intelligence artificielle pour fouiller les sites Internet de producteurs ou de commerçants à la recherche de données. Cependant, les bases légales du web scraping manquent parfois de clarté, et, comme pour les données scannées, la liste des produits n’est pas exhaustive.

D’une façon générale, la prudence est de mise quant à l’exploitation de nouvelles sources de données à des fins statistiques : certes, les nouveaux grands jeux de données (big data) sont souvent très volumineux, mais ils ne sont pas forcément représentatifs ; les sources privées peuvent ne pas être pérennes, et les droits de propriété des données ne pas être clairs. Aux offices nationaux de la statistique de trouver un juste équilibre entre innovation et garantie de qualité pour établir des statistiques fiables.

D’importantes initiatives de modernisation des organismes officiels de statistique sont d’ores et déjà lancées à l’échelle internationale pour que les innovations se poursuivent dans le domaine des données. Ainsi, un groupe[3] dirigé par l’Organisation des Nations Unies (ONU) a pour mission de déterminer les tendances, les risques et les opportunités liées à la modernisation de ces organismes . Efforts communs et co-investissements sont ici les mots-clés qui permettront d’exploiter efficacement les forces et l’expertise des offices nationaux de la statistique et de se questionner sur l’écosystème des données d’un pays ou d’une région.

Du producteur à l’administrateur de données

La gageure qu’affrontent les offices nationaux de la statistique et l’OCDE consiste à exploiter les avantages de l’avalanche de données tout en maintenant leur niveau de qualité, lequel est à la base de la confiance accordée aux statistiques. L’avalanche de données représente donc aussi bien une opportunité qu’un fardeau. Alors que les organisations internationales et les administrations nationales étaient autrefois les principales – et souvent les seules – productrices de statistiques, les offices publics de la statistique se transforment de plus en plus en administrateurs et gardiens d’un écosystème multiforme de données.

Dans ce nouvel écosystème, où les offices de la statistique ne sont qu’un producteur de données parmi d’autres, les données sont souvent fragmentées et il s’avère difficile de les relier et les fusionner. Or, c’est là une condition indispensable pour exploiter certaines des plus riches sources de données, à savoir les enregistrements administratifs les plus divers comme les registres de population ou les données des assurances sociales. Les gestionnaires de données doivent donc coordonner l’accès aux sources administratives à des fins de statistique et de recherche tout en garantissant intégralement la confidentialité de certaines données[4]. Une telle coordination, fruit de classifications communes, de systèmes interopérables et d’un cadre institutionnel adéquat, diminue aussi la charge de réponse des personnes et entreprises tenues de répondre aux relevés traditionnels. Certains projets déjà entamés sont censés nous rapprocher du principe dit « de la seule fois » en matière de relevé des données, principe selon lequel les citoyens et les entreprises ne doivent plus fournir qu’une seule fois certaines informations standardisées aux autorités et aux administrations. Le projet Gestion nationale des données de l’Office fédéral de la statistique (OFS) a été un précurseur dans ce domaine : il a pour but de simplifier et de rendre plus efficace la gestion des données dans le secteur public en réutilisant certaines données.

Les grands jeux supplémentaires de données s’accompagnent donc à la fois de nouvelles possibilités et de nouveaux défis. Dans le domaine des statistiques, il règne plus que jamais un enthousiasme et une ferme volonté d’exploiter ces nouvelles ressources. Chacun devrait avoir intérêt à apprendre, à faire des recherches et à répondre à de nouvelles ou très anciennes questions grâce aux données. Néanmoins, toutes les données ne sont pas utilisables et les organisations nationales et internationales jouent un rôle-clé dans la fourniture de données et de statistiques fiables si importantes pour une politique basée sur les faits et, donc, pour la démocratie.

  1. OCDE (2012). []
  2. Mackie et al. (2016), OCDE (2022). []
  3. Groupe de haut niveau pour la modernisation des statistiques officielles. []
  4. OCDE (2021). []

Bibliographie

Bibliographie

Proposition de citation: Paul Schreyer (2022). Ne nous fions pas à n’importe quelle statistique !. La Vie économique, 11 juillet.