Les ingénieurs de l’Université Northwestern ont développé un nouvel algorithme d’intelligence artificielle (IA) pour la robotique intelligente. En aidant les robots à acquérir rapidement et de manière fiable des compétences complexes, la nouvelle méthode pourrait améliorer considérablement l’aspect pratique – et la sécurité – des robots pour diverses applications, notamment les voitures autonomes, les drones de livraison, les assistants ménagers et l’automatisation.
Appelé Maximum Diffusion Reinforcement Learning (MaxDiff RL), le succès de l’algorithme réside dans sa capacité à encourager les robots à explorer leur environnement de manière aussi aléatoire que possible afin d’acquérir un ensemble diversifié d’expériences. Ce « caractère aléatoire conçu » améliore la qualité des données que les robots collectent concernant leur propre environnement. Et, en utilisant des données de meilleure qualité, les robots simulés ont démontré un apprentissage plus rapide et plus efficace, améliorant ainsi leur fiabilité et leurs performances globales.
Lorsqu’ils ont été testés par rapport à d’autres plates-formes d’IA, les robots simulés utilisant le nouvel algorithme de Northwestern ont systématiquement surpassé les modèles de pointe. En fait, le nouvel algorithme fonctionne si bien que les robots ont appris de nouvelles tâches et les ont ensuite exécutées avec succès en une seule tentative, en réussissant du premier coup. Cela contraste fortement avec les modèles d’IA actuels, qui permettent un apprentissage plus lent par essais et erreurs.
La recherche a été publiée aujourd’hui dans la revue Nature Machine Intelligence.
“D’autres cadres d’IA peuvent être quelque peu peu fiables”, a déclaré Thomas Berrueta de Northwestern, qui a dirigé l’étude. « Parfois, ils réussiront totalement une tâche, mais, d’autres fois, ils échoueront complètement. Avec notre framework, tant que le robot est capable de résoudre la tâche, chaque fois que vous allumez votre robot, vous pouvez vous attendre à ce qu’il fasse exactement ce qui lui a été demandé. Cela facilite l’interprétation des succès et des échecs des robots, ce qui est crucial dans un monde de plus en plus dépendant de l’IA.
Berrueta est présidentielle à Northwestern et titulaire d’un doctorat. candidat en génie mécanique à la McCormick School of Engineering. L’expert en robotique Todd Murphey, professeur de génie mécanique à McCormick et conseiller de Berrueta, est l’auteur principal de l’article. Berrueta et Murphey ont co-écrit l’article avec Allison Pinosky, également titulaire d’un doctorat. candidat dans le laboratoire de Murphey.
La déconnexion désincarnée
Pour former des algorithmes d’apprentissage automatique, les chercheurs et les développeurs utilisent de grandes quantités de données massives, que les humains filtrent et organisent soigneusement. L’IA apprend de ces données d’entraînement, par essais et erreurs jusqu’à atteindre des résultats optimaux. Bien que ce processus fonctionne bien pour les systèmes désincarnés, comme ChatGPT et Google Gemini (anciennement Bard), il ne fonctionne pas pour les systèmes d’IA incarnés comme les robots. Les robots, au contraire, collectent les données par eux-mêmes, sans le luxe des conservateurs humains.
“Les algorithmes traditionnels ne sont pas compatibles avec la robotique de deux manières distinctes”, a déclaré Murphey. « Premièrement, les systèmes désincarnés peuvent tirer parti d’un monde où les lois physiques ne s’appliquent pas. Deuxièmement, les échecs individuels n’ont aucune conséquence. Pour les applications informatiques, la seule chose qui compte est que cela réussisse la plupart du temps. En robotique, un échec peut être catastrophique.
Pour résoudre ce décalage, Berrueta, Murphey et Pinosky ont cherché à développer un nouvel algorithme garantissant que les robots collecteront des données de haute qualité en déplacement. À la base, MaxDiff RL commande aux robots de se déplacer de manière plus aléatoire afin de collecter des données complètes et diverses sur leur environnement. En apprenant grâce à des expériences aléatoires auto-organisées, les robots acquièrent les compétences nécessaires pour accomplir des tâches utiles.
Réussir du premier coup
Pour tester le nouvel algorithme, les chercheurs l’ont comparé aux modèles actuels de pointe. À l’aide de simulations informatiques, les chercheurs ont demandé à des robots simulés d’effectuer une série de tâches standard. Dans l’ensemble, les robots utilisant MaxDiff RL ont appris plus rapidement que les autres modèles. Ils ont également effectué correctement les tâches de manière beaucoup plus cohérente et fiable que les autres.
Peut-être encore plus impressionnant : les robots utilisant la méthode MaxDiff RL réussissaient souvent à exécuter correctement une tâche en une seule tentative. Et c’est même lorsqu’ils ont commencé sans aucune connaissance.
“Nos robots étaient plus rapides et plus agiles, capables de généraliser efficacement ce qu’ils avaient appris et de l’appliquer à de nouvelles situations”, a déclaré Berrueta. “Pour les applications du monde réel où les robots ne peuvent pas se permettre un temps infini d’essais et d’erreurs, cela représente un énorme avantage.”
MaxDiff RL étant un algorithme général, il peut être utilisé pour diverses applications. Les chercheurs espèrent que cela résoudra les problèmes fondamentaux qui freinent le domaine, ouvrant ainsi la voie à une prise de décision fiable en matière de robotique intelligente.
“Cela ne doit pas nécessairement être utilisé uniquement pour les véhicules robotisés qui se déplacent”, a déclaré Pinosky. « Il pourrait également être utilisé pour des robots stationnaires, comme un bras robotique dans une cuisine qui apprend à charger le lave-vaisselle. À mesure que les tâches et les environnements physiques deviennent plus complexes, le rôle de l’incarnation devient encore plus crucial à prendre en compte au cours du processus d’apprentissage. Il s’agit d’une étape importante vers de véritables systèmes capables d’effectuer des tâches plus compliquées et plus intéressantes.
Source : NUniversité du Nord-Ouest