Qui ?
Petit Web sur l'or des données médicales françaises et le danger Palantir.
Comment ?
Depuis une semaine, c'est officiel, Bloomberg a révélé que Palantir est en pourparler avec l'APHP pour traiter la data des hôpitaux. Avec les autorités françaises, mais aussi allemandes, autrichiennes et suisses. En Grande-Bretagne, la société britannique Faculty IA , mais également Amazon, Microsoft et Palantir s'apprêtent à analyser les données du 111 pour prédire où lits ventilateurs et équipes médicales sont nécessaires.
Sur le site de Palantir, aucune mention de cette grande offensive. Mais la société de Peter Thiel (en photo) fait depuis une semaine de la publicité sur notre fil Twitter...
Dans les médias, c'est le calme plat. A part BFM et cette tribune du Journal du Net, qui en appelle à la souveraineté numérique. Une tribune notamment signée par OVH, dont la porte parole nous précise : "Cette annonce crée un électrochoc. Entre OVH Upscale, Scaleweb ou l'Inserm, il y a un écosystème français capable de relever le défi. D'autant que les données de santé doivent être sanctuarisées. Or le cloud act permet au plus bas étage juridique US de faire un warrant pour piocher dans ces données"
Raphael Gauvin député de la majorité donne ainsi dans son rapport souveraineté numérique exemples inquiétants de l’usage qui peut être fait du cloud act.
On voit la taille de l'enjeu, à la fois, en termes de souveraineté numérique, mais aussi, pour la construction d'acteurs numérique d'envergure mondiale, appelée de ses vœux par Cedric O la semaine dernière. Les grands médias sont restés coi. Rien sur le Figaro (maison mère du journal du Net) dans le Monde, sur les antennes de BFM ou de TF1 ou de France Télévisions... Et pourtant, En temps de Covid la captation de nos précieuses données data par des acteurs étrangers est un débat très urgent...
Qu'est ce que Palantir ?
Lancée avec le soutien de la CIA, le champion de la big data, qui a aidé le gouvernement US à pister des réfugiés, et a été la cheville ouvrière de Cambridge Analytica, a pour clients, en France, Sanofi, Airbus et, la DGSI, qui a résigné un contrat fin 2019 (voir cet article) "parce qu'aucun équivalent français n'existe". Il s'attaque à présent à ces des données médicales françaises, qui, avec la carte vitale, sont une mine d'or unique au monde - que s'apprête à exploiter un acteur américain. A moins que le gouvernement ne s'aperçoive qu'il peut créer un champion local s'il ne se précipite pas trop... En effet, jeudi dernier, Cedric O dénonçait : "notre dépendance quotidienne aux outils numériques américains, rendue encore plus évidente par la crise, est une préoccupation pour la souveraineté française. Cela valide l’ambition de longue date du Gouvernement français de faire émerger des champions". Bien, bien... Cedric, si tu nous lis...
Car la situation actuelle du Covid (production des masques, tests...) nous montre que ce sont des enjeux majeurs des années à venir.
Au delà du virus, le principal problème de la crise sanitaire est la gestion des ressources rares, masques, gels et lits en soin intensif. Comment optimiser cette gestion ? L'IA est là pour cela, pour anticiper les besoins, et les louer en temps de crise.
"On se rend bien compte qu'on est dépendant d'autre pays pour la production d'équipement masque et gel hydro alcoolique. Nous sommes en train de faire la même chose avec l'intelligence artificielle. J'espère qu'il y aura une volte face et qu'on se penchera sur nos ressources" explique Pierre Harand, Partner chez 55.
Qui pourrait proposer, comme Palantir, une offre sur l'étagère ? "L'Inserm, Dassault System, et même, une société comme la nôtre. il n'y a rien de compliqué d'appliquer ce que nous avons appris dans la big data publicitaire à ce domaine là."
L'hypothèse fait réagir sur le plan de la protection des données. Mais la CNIL a donné son aval. La question est plutôt celle de la souveraineté. L'IA va révolutionner la médecine. Google détecte ainsi le cancer du sein à 99 % (contre 40 à 70 % pour les meilleurs ontologues). La contagion du Covid peut être contrée par les opérateurs. Pierre Harand poursuit : "Pour créer des intelligences artificielles performantes, il suffit d'avoir une grande quantité de datas. Celui qui possède le plus données médicales aura l'IA la plus performante. Confier les données françaises à Palantir, c'est risquer d'établir une suprématie en matière d'intelligence artificielle médicale, et de devenir dépendant dans les traitements d'une maladie d'un acteur étranger."
Retour en arrière
Le 31 mars 2018, Emmanuel Macron lançait un plan "intelligence artificielle" pour que la France devienne leader en la matière. Parmi les atouts de la France : une recherche en médecine et en mathématiques appliquées parmi les meilleures du monde, une base de données médico-administratives exceptionnelle, de nombreuses cohortes, registres et données hospitalières, et un écosystème de start-up très actif. Manquait néanmoins une infrastructure clef, un système de base de données et de services liés : c’est l’enjeu du Health data hub. Il devrait ainsi permettre de croiser les bases de données de santé dont nous disposons et de faciliter leurs utilisations par les nombreuses équipes de recherche et de développement "avec un respect total de la vie privée des usagers du système de santé".
La carte vitale détient en effet l'une des plus grosses bases de données médico-administratives mondiales. Alors que Google arrive dans ce domaine, débauchant des institutionnels en multipliant leurs salaires de manière exponentielle, la France a une carte à jouer. Emmanuel Bacry, directeur de recherche au CNRS, qui s'exprimait jeudi dernier à un congrès de la CPAM, est optimiste : "Il faut créer un contre pouvoir sur les données. Les moyens ne font pas tout. Malgré un budget conséquent, Google n'a pas réussi son programme sur la grippe."
A partir d’une feuille de route établie avec l’ensemble des parties prenantes, les infrastructures juridiques et techniques ont été développées. Le 24 juillet 2019, la loi relative à l’organisation et la transformation du système de santé, dont l’article 41 définit le GIP Plateforme de données de santé (le Health data hub) a été promulguée. Quatre mois après, cette structure est officiellement créée et les textes relatifs à sa création, publiés le 30 novembre 2019. La première version du "Health Data Hub" – annoncée par Emmanuel Macron à la suite du rapport Villani – est opérationnelle depuis la publication de l'arrêté du 1er décembre 2019 qui en fixe les conditions .Début 2020, la plateforme technologique s'ouvre aux premiers projets et un premier catalogue de bases de données composé des bases les plus prometteuses est mis à disposition des chercheurs, mais aussi des associations de patients et citoyens, des institutions, des start-up, et des différentes parties prenantes du secteur de la santé. "Cette plateforme bénéficie d’un haut degré de sécurité et ne pourra conserver que des données non nominatives."
Mais, comme l'explique cet article d'Usine Digitale, c'est l'hébergement de Health Data Hub qui cristallise les critiques. Un POC repose sur le service d'hébergement de données Cloud de Microsoft. Mais ce choix passe mal, notamment depuis l'adoption du "Cloud Act" par le Congrès américain. Chez OVH, on explique : "Microsoft a été le premier à avoir le tampon, que nous avons eu quelques semaines près ? Déjà référencé, ils ont présenté un POC, en partant du principe que l'appel d'offre aurait lieu plus tard. Mais l'appel d'offre n'est pas encore sorti ! Aujourd’hui, on a nos certifications HDS on travaille avec Cap Gemini pour accompagner ce type d’ambition. On est capable de le faire".
Cloud Act, Acronyme de Clarifying Lawful Overseas Use of Data Act, adopté par le Congrès américain le 8 mars 2018. Vivement critiqué, ce texte permet aux forces de l'ordre ou aux agences de renseignement américaines d'obtenir des opérateurs de télécoms et des fournisseurs de services de Cloud computing des informations stockées sur leurs serveurs. Les prestataires de services doivent communiquer "les contenus de communications électroniques et tout enregistrement ou autre information relatifs à un client ou abonné, qui sont en leur possession ou dont ils ont la garde ou le contrôle, que ces communications, enregistrements ou autres informations soient localisés à l’intérieur ou à l’extérieur des Etats-Unis". Ce texte a mis fin par KO à une bataille entre l'Administration américaine et Microsoft,qui refusait catégoriquement de transmettre des données stockées sur ses serveurs irlandais, autrement dit en dehors des Etats-Unis.
Cela signifie qu'une agence de renseignement américaine pourrait récupérer légalement des données de santé d'un citoyen français sans son consentement. Une situation assez problématique vis-à-vis des principes posés par le Règlement général sur la protection des données (RGPD). Mais le Gouvernement n'a encore pas répondu à ces inquiétudes pourtant légitimes.
A l'heure ou nous écrivons, un arrimage entre le site de l'INDS et celui du Health Data Hub est en cours.
Avant la crise, le hub servait à l'agrégation et au pilotage des projets de données sur les maladies rares.
Avec la crise du Covid, il s'agit de remonter les données de santé pour faire un pilotage, comprendre la situation dans l'ensemble des territoires et prendre les décisions. Mais la gestion des projets de données n'est pas unifiée. Beaucoup d'équipes concurrentes font beaucoup de projets. "Il y a une vingtaine de projets concurrents qui travaillent sur la même chose, sans savoir ce que les autres services ont initié. Il y a un grand risque que tous ces projets se marchent dessus. Il n'y a aucune unité, c'est une guerre de chefs". Palantir a donc été interrogé par l'un de ces 20 projets.
"Comme cette information est sortie, elle ne devrait pas aller plus loin. Mais il y a un besoin urgent d'unifier les données et de restructurer la gestion de données de santé rapidement, pour qu'il y ait une direction unique. Mais il y a aussi un grand manque de formation à la data, à l'intérieur de l'APHP, et pour réduire le gap, il faudrait au moins trois ans."
La situation actuelle reflète 20 ans d'inertie. "En 2002, après le SRAS, 50 milliards avaient été débloqués, mais 90 % de ce budget a té remis en cause l'année d'après. Le contribuable n'était plus prêt à payer pour un virus qui n'existe plus".
Aujourd'hui, la question posée par l'affaire Palantir APHP est inverse : saurons-nous aujourd'hui, enfin, tirer partie de la crise pour construire un géant français des données ?