De plus en plus de voix s’élèvent pour demander que les données collectées par les entreprises privées soient mises au service de la collectivité.

Au Sénégal a démarré, mi-2017, une coopération inédite entre l’ANSD (Agence nationale de la démographie et la statistique) et l’opérateur de téléphonie mobile Sonatel : des algorithmes parcourent les fichiers de Sonatel pour y récupérer des données sur les déplacements des abonnés, dont les noms ont été remplacés par des pseudonymes. Une fois agrégées, ces informations permettent de mieux cerner les besoins des populations.

« Nous pouvons évaluer les temps de trajet pour rejoindre les marchés ruraux et en déduire les transports publics à mettre en place », explique Emmanuel Letouzé, démographe et économiste du développement, directeur  de ce projet baptisé Opal (Open Algorithms for Better Decisions) . Opal est soutenu par l’AFD (Agence française de développement), la Banque mondiale et le GPSDD (Global Partnership for Sustainable Development Data), un réseau de 320 gouvernements, entreprises ou universités qui souhaitent favoriser l’utilisation des données pour le bien de tous.

L’intérêt de la communauté scientifique et du monde des affaires pour la conduite de politiques publiques (santé, transports…) à partir de données collectées par des entreprises privées ne cesse de grandir. Ces derniers mois, les tribunes signées par des chercheurs et vantant les mérites potentiels des « Data for Public Good » ou des « données au service du bien commun » se sont multipliées en France et à l’étranger.

Ces spécialistes pensent que les données collectées par le secteur privé permettront de prédire les épidémies de grippe (malgré l’échec de Google Flu Trends, lire ci-dessous), les pandémies alimentées par les moustiques, les taux d’occupation des lits dans les hôpitaux, les besoins en eau des bergers et de leurs troupeaux, les crises financières (à partir des fluctuations des dépôts bancaires), les perspectives économiques (grâce à la consommation d’électricité), etc.

Partager sans dévoiler

« Le partage de données peut sauver des vies : à partir d’informations vendues par un opérateur de téléphonie mobile, une grande ville européenne a par exemple pu améliorer sa sécurité routière », constate Alberto Alemanno, professeur titulaire de la chaire Jean-Monnet en droit européen à HEC, signataire d’une de ces tribunes et rapporteur du groupe créé par la Commission européenne pour définir les modalités du partage de données.

Techniquement, il existe plusieurs solutions pour partager des données en respectant leur confidentialité. « Nos chercheurs travaillent depuis plus de quatre ans sur deux approches : l’approche « logiciel » avec le chiffrement homomorphe, qui permet d’effectuer des calculs à partir de données cryptées, et l’approche « matérielle » avec la création d’ ‘enclaves’, des zones mémoires spécifiques, cryptées, sur les processeurs, détaille Bernard Ourghanlian, directeur technique et sécurité de Microsoft France.

Double objectif

Juridiquement, le partage des données personnelles peut s’appuyer, en Europe, sur le droit à la portabilité : cette disposition du RGPD (règlement général sur la protection des données) offre aux personnes la possibilité de récupérer leurs données collectées par un premier organisme, afin de les transmettre à un second. « Ce droit à la portabilité poursuit un objectif citoyen et un objectif économique, explique Isabelle Falque-Pierrotin, présidente de la CNIL (Commission nationale de l’informatique et des libertés). Il permet aux citoyens de choisir quelle nouvelle utilisation sera faite de leurs données ; et il permet de créer un marché secondaire de la donnée. »

Reste, concrètement, à définir des standards d’interopérabilité, d’échanges de données : « Il faut laisser les acteurs s’entendre, secteur par secteur, sur ces plates-formes qui permettent la portabilité, mais aussi la vente de données entre différents organismes », estiment Paul-Adrien Hyppolite et Antoine Michon, ingénieurs et auteurs de l’étude « Les Géants du numérique : un frein à l’innovation ? » publiée en novembre dernier par la  Fondation pour l’innovation politique.

Dans  sa revue « Innovation & Prospective » de septembre 2017 , la CNIL envisageait plusieurs scénarios de partage, dont un dit de« portabilité citoyenne » : les citoyens pourraient autoriser la portabilité de leurs données au profit de missions d’intérêt général. Concrètement ? « Toutes nos données de santé récupérées par les apps sur nos smartphones nous appartiennent : on pourrait imaginer que l’Etat français trouve un moyen de mettre un bouton sur ces apps permettant l’utilisation de ces données à des fins de recherche scientifique », avance Emmanuel Bacry, mathématicien, directeur de recherche au CNRS attaché à l’université Paris-Dauphine et responsable de l’Initiative Data Science de l’Ecole polytechnique.

Mais quel que soit le scénario retenu, se posera toujours la question de la définition de l’intérêt public. « Le risque est grand de voir se diluer la notion d’intérêt général », prévient Joëlle Farchy, économiste, professeure au Centre d’économie de la Sorbonne, Université Paris 1 Panthéon-Sorbonne. Permettra-t-on de réquisitionner les données de géolocalisation pour repérer les personnes qui ne font pas assez de marche à pied et dont l’état de santé risque de se détériorer, ce qui pourrait coûter cher à la collectivité ?

Certains chercheurs voudraient aller beaucoup plus loin : toute action de politique publique devrait être décidée et évaluée à partir de toute donnée disponible, qu’elle soit d’origine privée ou administrative. « Nous pensons que le monde irait mieux s’il était gouverné de manière plus rationnelle et plus juste », affirme Emmanuel Letouzé. Mais qui va apprendre à une intelligence artificielle à effectuer les bons choix quand les experts ne sont pas d’accord entre eux pour dire si telle action (par exemple supprimer l’ISF) a un impact positif sur l’économie ?

Enfin, le risque existe de voir les citoyens communiquer toujours plus de données à des acteurs privés si ces informations peuvent un jour servir la collectivité. « Les médias sociaux ne devraient pas avoir pour objectif de collecter plus d’informations personnelles juste pour le cas où elles seraient nécessaires ultérieurement pour une raison indéterminée », rappelle Michelle Richardson, directrice Données et Vie privée du CDT (Center for Democracy & Technology) à Washington.

 

 

LEXIQUE

· Portabilité : possibilité de récupérer ses données auprès d’un organisme, pour son usage personnel, ou pour les transférer à un autre organisme.

· Interopérabilité : standards permettant à des données d’être utilisables sur différents systèmes informatiques.

· Mutualisation : en mettant en commun leurs données, plusieurs acteurs peuvent compléter les informations qu’ils possèdent déjà ou accéder à de nouveaux fichiers

· Open Data : une « donnée ouverte » est libre d’accès et d’usage. Elle doit être diffusée de manière structurée, sans restriction technique, juridique ou financière.

· Données d’intérêt général : la loi pour une République numérique du 7 octobre 2016 a créé les DIG, des données de nature privée, mais dont la publication et la circulation peuvent se justifier en raison de leur intérêt pour améliorer les politiques publiques.

 

POURQUOI GOOGLE A ÉCHOUÉ À PRÉVOIR LA GRIPPE

De 2008 à 2015, des ingénieurs de Google ont tenté de prédire les épidémies de grippe à partir des recherches menées par les internautes. L’algorithme, qui avait bien fonctionné à ses débuts, fut arrêté en 2015 : il prédisait jusqu’à deux fois plus de cas que ceux constatés par les médecins.

« Il y a eu un effet Larsen : plus les internautes faisaient de recherches sur la grippe, plus Google leur proposait des informations sur cette maladie, sur lesquelles les personnes cliquaient, etc. », estime Emmanuel Bacry, mathématicien et responsable de l’Initiative Data Science de l’Ecole polytechnique. « L’algorithme prenait en compte les recherches sur la grippe, ses symptômes, ses remèdes, mais aussi trop de termes associés : fièvre, fatigue, toux, courbatures », ajoute Emmanuel Letouzé, démographe et économiste du développement.

Pour beaucoup de scientifiques, Google Flu Trends constitue l’exemple type des données d’origine « privée » qu’il faut croiser avec d’autres informations (par exemple, les déclarations d’un échantillon de médecins) pour obtenir des résultats fiables. J.H.