Le ministère de l’efficacité du gouvernement, ou DOGE, a obtenu un accès sans précédent à au moins sept bases de données fédérales sensibles, y compris celles de l’Internal Revenue Service and Social Security Administration. Cet accès a suscité des craintes concernant les vulnérabilités de la cybersécurité et les violations de la confidentialité. Une autre préoccupation a reçu beaucoup moins d’attention: l’utilisation potentielle des données pour former les systèmes d’intelligence artificielle d’une entreprise privée.
Le secrétaire de presse de la Maison Blanche a déclaré que les données du gouvernement que Doge avaient collectées ne sont pas utilisées pour former les modèles d’IA de Musk, malgré le contrôle d’Elon Musk sur Doge. Cependant, des preuves ont émergé que le personnel de Doge occupe simultanément des positions avec au moins une des sociétés de Musk.
À la Federal Aviation Administration, les employés de SpaceX ont des adresses e-mail gouvernementales. Ce double emploi crée un conduit pour que les données fédérales soient potentiellement siphonées aux entreprises appartenant à des muscles, y compris XAI. Le dernier modèle de chatbot Grok AI de l’entreprise refuse visiblement de donner un refus clair sur l’utilisation de ces données.
En tant que politologue et technologue qui connaît intimement les sources publiques de données gouvernementales, je pense que cette transmission potentielle des données gouvernementales aux entreprises privées présente des implications de confidentialité et de pouvoir beaucoup plus importantes que la plupart des rapports. Une entité privée ayant la capacité de développer des technologies d’intelligence artificielle pourrait utiliser des données gouvernementales pour sauter ses concurrents et exercer une influence massive sur la société.
Valeur des données gouvernementales pour l’IA
Pour les développeurs de l’IA, les bases de données gouvernementales représentent quelque chose qui ressemble à la recherche du Saint Graal. Alors que des entreprises telles qu’Openai, Google et XAI comptent actuellement sur les informations éraquées de l’Internet public, les référentiels du gouvernement non publique offrent quelque chose de beaucoup plus précieux: les enregistrements vérifiés du comportement humain réel dans toute la population.
Ce ne sont pas seulement plus de données – ce sont des données fondamentalement différentes. Les publications sur les réseaux sociaux et les histoires de navigation sur le Web montrent des comportements organisés ou prévus, mais les bases de données gouvernementales capturent les décisions réelles et leurs conséquences. Par exemple, les dossiers de Medicare révèlent des choix de soins de santé et des résultats. Les données de l’IRS et du Trésor révèlent des décisions financières et des impacts à long terme. Et les statistiques fédérales sur l’emploi et l’éducation révèlent des chemins d’éducation et des trajectoires de carrière.
Ce qui rend ces données particulièrement précieuses pour la formation en IA, c’est sa nature longitudinale et sa fiabilité. Contrairement aux informations désordonnées disponibles en ligne, les dossiers gouvernementaux suivent des protocoles standardisés, subissent des audits réguliers et doivent répondre aux exigences légales pour précision. Chaque paiement de la sécurité sociale, la réclamation Medicare et la subvention fédérale crée un point de données vérifié sur le comportement du monde réel. Ces données n’existent nulle part ailleurs avec une telle étendue et authenticité aux États-Unis
Le plus important, les bases de données gouvernementales suivent des populations entières au fil du temps, pas seulement des utilisateurs numériquement actifs. Ils incluent des personnes qui n’utilisent jamais les médias sociaux, n’achètent pas en ligne ou n’évitent activement des services numériques. Pour une entreprise d’IA, cela signifierait des systèmes de formation sur la diversité réelle de l’expérience humaine plutôt que sur les réflexions numériques que les gens sont présentées en ligne.

AL DRAGO / Getty Images
L’avantage technique
Les systèmes d’IA actuels sont confrontés à des limitations fondamentales qu’aucune quantité de données grattées d’Internet ne peut surmonter. Lorsque Chatgpt ou les Gémeaux de Google font des erreurs, c’est souvent parce qu’ils ont été formés sur des informations qui pourraient être populaires mais qui ne sont pas nécessairement vraies. Ils peuvent vous dire ce que les gens disent des effets d’une politique, mais ils ne peuvent pas suivre ces effets entre les populations et les années.
Les données gouvernementales pourraient modifier cette équation. Imaginez la formation d’un système d’IA non seulement sur les opinions sur les soins de santé, mais sur les résultats réels du traitement auprès de millions de patients. Considérez la différence entre l’apprentissage des discussions sur les réseaux sociaux sur les politiques économiques et l’analyse de leurs impacts réels dans différentes communautés et démographie au fil des décennies.
Un grand modèle à la pointe de la technologie ou de la frontière formés sur des données gouvernementales complètes pourrait comprendre les relations réelles entre les politiques et les résultats. Il pourrait suivre les conséquences involontaires dans différents segments de population, modéliser des systèmes sociétaux complexes avec une validation du monde réel et prédire les impacts des changements proposés en fonction des preuves historiques. Pour les entreprises qui cherchent à créer des systèmes d’IA de nouvelle génération, l’accès à ces données créerait un avantage presque insurmontable.
Contrôle des systèmes critiques
Une entreprise comme XAI pourrait faire beaucoup plus avec des modèles formés sur les données gouvernementales que de créer de meilleurs chatbots ou des générateurs de contenu. Ces systèmes pourraient fondamentalement transformer – et potentiellement contrôler – comment les gens comprennent et gérent des systèmes sociétaux complexes. Bien que certaines de ces capacités puissent être bénéfiques sous le contrôle des agences publiques responsables, je pense qu’elles constituent une menace entre les mains d’une seule entreprise privée.
Les bases de données Medicare et Medicaid contiennent des enregistrements des traitements, des résultats et des coûts dans diverses populations au fil des décennies. Un modèle frontalier formé sur de nouvelles données gouvernementales pourrait identifier les modèles de traitement qui réussissent là où les autres échouent et dominent ainsi l’industrie des soins de santé. Un tel modèle pourrait comprendre comment différentes interventions affectent diverses populations au fil du temps, ce qui représente des facteurs tels que la localisation géographique, le statut socioéconomique et les conditions simultanées.
Une entreprise brandissant le modèle pourrait influencer la politique des soins de santé en démontrant des capacités prédictives supérieures et des informations au niveau de la population de marché aux sociétés pharmaceutiques et aux assureurs.
Les données du Trésor représentent peut-être le prix le plus précieux. Les bases de données financières gouvernementales contiennent des détails granulaires sur la façon dont l’argent traverse l’économie. Cela comprend les données de transaction en temps réel entre les systèmes de paiement fédéraux, les dossiers complets des paiements d’impôts et les remboursements, des modèles détaillés de distribution de prestations et les paiements du gouvernement avec des mesures de performance.
Une entreprise d’IA ayant accès à ces données pourrait développer des capacités extraordinaires pour les prévisions économiques et la prédiction du marché. Il pourrait modéliser les effets en cascade des changements réglementaires, prédire les vulnérabilités économiques avant de devenir des crises et optimiser les stratégies d’investissement avec précision impossible par des méthodes traditionnelles.
Infrastructure et systèmes urbains
Les bases de données gouvernementales contiennent des informations sur les modèles d’utilisation des infrastructures critiques, les antécédents de maintenance, les temps d’intervention d’urgence et les impacts de développement. Chaque subvention fédérale, inspection des infrastructures et intervention d’urgence crée un point de données qui pourrait aider à former l’IA à mieux comprendre le fonctionnement des villes et des régions.
La puissance réside dans l’interdépendance potentielle de ces données. Un système d’IA formé sur les dossiers d’infrastructures gouvernementaux comprendrait comment les modèles de transport affectent la consommation d’énergie, comment les politiques de logement affectent les temps d’intervention d’urgence et comment les investissements des infrastructures influencent le développement économique entre les régions.
Une entreprise privée avec un accès exclusive gagnerait un aperçu unique des artères physiques et économiques de la société américaine. Cela pourrait permettre à l’entreprise de développer des systèmes de «ville intelligente» dont les gouvernements municipaux deviendraient dépendants, privatisant efficacement les aspects de la gouvernance urbaine. Lorsqu’ils sont combinés avec des données en temps réel provenant de sources privées, les capacités prédictives dépasseraient de loin ce que tout système actuel peut atteindre.
Les données absolues corrompent absolument
Une entreprise telle que XAI, avec les ressources de Musk et l’accès préférentiel via Doge, pourrait surmonter beaucoup plus d’obstacles techniques et politiques que les concurrents. Les progrès récents de l’apprentissage automatique ont également réduit le fardeau de la préparation des données pour que les algorithmes soient traités, faisant des données gouvernementales une véritable mine d’or – qui appartient à juste titre au peuple américain.
La menace d’une entreprise privée accédant aux données publiques transcende les problèmes de confidentialité individuels. Même avec des identifiants personnels supprimés, un système d’IA qui analyse les modèles à travers des millions de dossiers gouvernementaux pourrait permettre des capacités surprenantes de faire des prédictions et d’influencer les comportements au niveau de la population. La menace est les systèmes d’IA qui tirent parti des données gouvernementales pour influencer la société, y compris les résultats électoraux.
Étant donné que l’information est le pouvoir, la concentration de données sans précédent entre les mains d’une entité privée avec un programme politique explicite représente un défi profond pour la République. Je crois que la question est de savoir si le peuple américain peut résister à la corruption potentiellement bouleversante d’une telle concentration permettrait. Sinon, les Américains devraient se préparer à devenir des sujets numériques plutôt que des citoyens humains.