微众银行杨强教授:联邦学习不仅是技术,更是一个开源生态的建立

Professeur Yang Qiang de la Banque WeBank : l'apprentissage fédéré n'est pas seulement une technologie, mais aussi la création d'un écosystème open source

BroadChainBroadChain31/08/2020 10:01
Ce contenu a été traduit par IA
Résumé

Les risques liés à la sécurité des données et à la confidentialité des informations personnelles deviendront inévitablement des facteurs affectant la confiance des utilisateurs envers l'intelligence artificielle ; c'est dans ce contexte que l'« apprentissage fédéré » a vu le jour.

Qiang Yang est actuellement directeur scientifique en intelligence artificielle (IA) à WeBank, professeur titulaire et chef du département d’informatique et d’ingénierie de l’Université des sciences et technologies de Hong Kong. Spécialiste de renom en IA, il a mené de nombreuses recherches pionnières, de l’apprentissage par transfert à l’apprentissage fédéré plus récent. Il vient de publier le premier ouvrage académique international sur l’apprentissage fédéré, tandis qu’un nouveau livre sur l’apprentissage par transfert paraît après des années de travaux.

1. L’apprentissage fédéré : les données restent en place, seul le modèle se déplace

Le professeur explique que si l’IA crée une immense valeur commerciale grâce aux « big data », on rencontre souvent des jeux de données limités ou de qualité médiocre. De plus, les contraintes légales et réglementaires fragmentent les données en « îlots » dispersés.

Pour relever ces défis, son équipe se concentre sur deux axes : premièrement, transférer les connaissances des grands jeux de données vers les petits pour assurer l’interopérabilité entre domaines et résoudre le manque de données — c’est l’apprentissage par transfert ; deuxièmement, exploiter les données géographiquement dispersées sans les regrouper physiquement, pour obtenir un effet équivalent aux « big data » — c’est l’apprentissage fédéré.

Il commence par explorer l’apprentissage fédéré. Selon lui, le terme « apprentissage fédéré » (federated learning) reflète deux aspects essentiels : chaque jeu de données a une valeur égale, et aucun propriétaire ne doit pouvoir accéder aux données privées d’un autre, atteignant ainsi l’objectif de « données utilisables mais invisibles ». Le paradigme est donc : « les données restent en place, seul le modèle se déplace ».

La protection des données est désormais encadrée mondialement : le RGPD en Europe, et en Chine un projet de loi récent renforce la régulation. Dans ce contexte, l’émergence de l’apprentissage fédéré est particulièrement opportune.

L’objectif de l’équipe est illustré ci-dessus : chaque entité conserve ses données et ses limites, sans empiéter sur les autres. Lors de la modélisation, les données restent locales, mais leur agrégation permet de construire un modèle global (« Globe model »). Nous visons à garantir la confidentialité des données et des paramètres du modèle, tout en améliorant les capacités et l’efficacité de la modélisation. Contrairement à la modélisation distribuée traditionnelle où les données appartiennent à un seul propriétaire et sont homogènes, l’apprentissage fédéré implique des données nécessairement hétérogènes et soumises à des contraintes de confidentialité.

2. Le modèle « le mouton broute l’herbe »

La différence fondamentale est que la modélisation distribuée suppose un seul propriétaire des données, éliminant les problèmes de confidentialité, et garantit une distribution homogène grâce à une gestion centralisée.

En apprentissage fédéré, les données sont nécessairement hétérogènes, suivent des distributions différentes et doivent respecter une stricte confidentialité. Pour illustrer : la méthode traditionnelle d’IA, c’est comme amener le fourrage au mouton pour le nourrir (construire le modèle). Aujourd’hui, avec la protection renforcée, le fourrage (les données) ne peut quitter la ferme. Il faut donc déplacer le mouton pour qu’il broute sur place. Ainsi, le mouton grandit normalement, les données restent locales et la confidentialité est préservée.

Les problèmes d’apprentissage fédéré se divisent en deux catégories : la première est le partitionnement des données par échantillons (découpage horizontal). Imaginez toutes les données dans un tableau virtuel : chaque ligne est un échantillon, chaque colonne une caractéristique. Attribuer à chaque terminal une partie des échantillons, c’est découper horizontalement.

Le découpage vertical s’effectue, lui, par caractéristiques. Par exemple, un même groupe de patients consulte deux hôpitaux : l’un fait des tests PCR, l’autre des scanners CT. Pour construire un modèle sur l’ensemble, on procède à un découpage vertical par caractéristiques — c’est la deuxième catégorie.

Que le découpage soit horizontal ou vertical, une certaine similarité (d’échantillons ou de caractéristiques) est requise. Si aucune similarité n’existe mais qu’un chevauchement sémantique est détectable, l’apprentissage par transfert peut résoudre le problème. Son but est de transférer les connaissances d’un domaine à un autre, pour « se tenir sur les épaules des géants ». Par exemple, améliorer les performances avec une quantité fixe de données, ou réduire la quantité de données pour un niveau de performance donné. On utilise le passé pour résoudre le présent.

Le professeur Qiang Yang donne un exemple : pour un modèle fédéré entre deux domaines (rouge et bleu), on peut chercher un sous-espace commun. En vision par ordinateur, avec un réseau profond, les couches inférieures ont une forte probabilité de chevauchement dans l’espace des caractéristiques. C’est dans cet espace partagé qu’une modélisation fédérée est possible. Les couches supérieures, plus différentes, peuvent être temporairement ignorées pour se concentrer sur les connaissances communes — c’est l’« apprentissage fédéré par transfert ».

3. L’apprentissage fédéré, moteur des nouveaux modèles dans la finance et la santé

Concernant sa mise en œuvre, ce concept relativement nouveau est déjà largement appliqué en finance et en santé. Le professeur Qiang Yang cite plusieurs exemples.

Dans la lutte contre le blanchiment d’argent, il aide le secteur financier à collecter et analyser efficacement les données des plateformes de gestion des risques ; dans le contrôle du crédit, il contribue à établir des systèmes plus étendus et fiables ; en marketing, les systèmes fédérés optimisent les recommandations personnalisées ; en vision par ordinateur, principale application de l’IA, des caméras sur différents chantiers peuvent, grâce à l’apprentissage fédéré, identifier avec précision les comportements non sécuritaires.

Les réassureurs peuvent utiliser le calcul fédéré pour construire des modèles conjoints à partir des données de différentes compagnies, rendant les prestations plus personnalisées. Les compagnies d’assurance peuvent établir des relations fédérées horizontales entre elles, et des relations verticales avec les entreprises internet, créant une topologie hybride pour une diffusion plus large.

En santé, un besoin crucial est la reconnaissance d’images. L’équipe du professeur, avec le laboratoire Tencent, traite des patients victimes d’AVC en utilisant des images médicales et des diagnostics. Combiner les données de différents hôpitaux augmente considérablement les caractéristiques par patient, permettant une fédération verticale et améliorant significativement les résultats. La précision moyenne des modèles prédictifs dépasse désormais 80 %, contre environ 60 % auparavant.

4. L’apprentissage fédéré au cœur de la reconnaissance d’images

La reconnaissance visuelle est un champ majeur de l’IA. Le professeur souligne que l’apprentissage fédéré y est applicable dans divers contextes. À Shenzhen, des chantiers de construction équipés de caméras pour surveiller la sécurité ne souhaitent pas échanger leurs données, mais partagent l’objectif d’identifier précisément les comportements (sécuritaires ou non). Ils peuvent utiliser un modèle fédéré horizontal, d’une efficacité remarquable.

À droite, quelques tâches que ce système accomplit mieux : détection de piétons, d’anomalies sur équipements, de flammes ou de fumée. Ces fonctionnalités sont très utiles pour les villes intelligentes et la sécurité. L’apprentissage fédéré s’applique aussi au traitement vocal. WeBank, banque en ligne, offre un service client 24/7/365 nécessitant de nombreux robots. Les services vocaux bénéficient de plus de données. Par exemple, avec un centre au Sichuan et un autre au Henan, les accents diffèrent. Avant, il fallait transférer physiquement les données vers un centre unique pour entraîner le modèle. Aujourd’hui, grâce à l’apprentissage fédéré, les données restent locales tout en permettant l’entraînement d’un modèle conjoint performant, reconnaissant indifféremment les accents du Sichuan ou du Henan.

5. L’apprentissage fédéré et le code santé

Le professeur Qiang Yang évoque ses travaux récents sur le « code santé ». En Chine, la gestion de la pandémie repose largement sur ce dispositif. Tout citoyen doit le présenter pour prendre l’avion ou entrer dans un bureau. Il implique des requêtes en base de données et le suivi des trajets, exposant une partie de la vie privée : lieux visités, personnes rencontrées… En situation d’urgence, les citoyens acceptent généralement de partager ces informations. Mais si cette pratique devenait courante, la question de la confidentialité redeviendrait cruciale — c’est là qu’intervient l’apprentissage fédéré. L’équipe a récemment déposé un brevet sur le sujet.

6. L’apprentissage fédéré face aux attaques adverses

Certains chercheurs étudient les attaques adverses, comme celles ciblant l’apprentissage fédéré ou par transfert, qui reposent sur le calcul multipartite. Si un participant est malveillant ou trop curieux, et sans chiffrement, il pourrait reconstituer les données initiales d’un autre — c’est une attaque de fuite profonde (deep leakage attack).

Une étude de l’équipe montre que, bien que théoriquement possible, l’utilisation de l’apprentissage fédéré combinée à des modèles adaptés permet de garantir à la fois efficacité et sécurité. L’équipe a prouvé théoriquement qu’il est possible de se prémunir totalement contre ces attaques sans altérer les performances du modèle.

Pour conclure, le professeur Qiang Yang souligne que l’apprentissage fédéré en est à ses débuts mais possède une grande vitalité, porté par les besoins sociétaux, les revendications croissantes en matière de confidentialité, la régulation gouvernementale et la demande des entreprises. Sans solutions techniques, la recherche en IA et « big data » stagnerait. C’est dans cet esprit que l’équipe poursuit ses travaux. Pour assurer une répartition équitable des bénéfices et maintenir les participants, elle conçoit activement des mécanismes d’alliance et des architectures d’écosystème adaptés.

L’apprentissage fédéré n’est pas qu’une technologie, c’est la construction d’un écosystème — et cela nécessite l’open source. Nous y accordons une grande importance, car le premier principe de sécurité est la transparence totale des outils. Sur cette base, l’équipe a lancé la première plateforme open source mondiale dédiée à l’apprentissage fédéré — FATE, qui propose la quasi-totalité des algorithmes d’apprentissage automatique courants, une plateforme complète, l’utilisation de divers protocoles de calcul sécurisé multipartite, et des services incluant des fonctions d’audit.