A pesar de los sorprendentes avances en IA de los últimos años, los robots siguen siendo obstinadamente tontos y limitados. Quienes están en los almacenes a menudo siguen rutinas coreografiadas con precisión, sin mucha capacidad para sentir su entorno o adaptarse sobre la marcha. Los pocos ejemplares industriales que pueden ver y captar objetos sólo realizan un cierto número de acciones con una destreza mínima debido a una falta de inteligencia física general. Un robot más capaz podría asumir una gama mucho más amplia de tareas industriales, tal vez después de una serie de demostraciones mínimas; en el caso de π0, necesitará una enorme variabilidad para moverse y limpiar el desorden en los hogares humanos.
El entusiasmo general por el progreso de la IA ya se ha traducido en optimismo sobre nuevos avances importantes en la robótica: Tesla de Elon Musk está desarrollando un robot humanoide llamado Optimus, que según el empresario costará entre 20.000 y 25.000 dólares y será capaz de realizar la mayoría de las tareas. tareas en 2040.
El futuro de π0 es prometedor
Anteriormente, la forma de entrenar robots para tareas difíciles se centraba en entrenar una sola máquina en tareas específicas porque el aprendizaje parecía intransferible. Algunos trabajos académicos recientes han demostrado que, con suficiente escala y ajuste, el aprendizaje se puede transferir entre diferentes tareas y robots. Un proyecto de Google de 2023 llamado Open X-Embodiment implicó compartir el aprendizaje de robots entre 22 máquinas diferentes de 21 laboratorios de investigación diferentes.
Un desafío clave que persigue la Inteligencia Física es que no está disponible la misma escala de datos de robots para la capacitación que para los LLM en forma de texto. Por tanto, la empresa tiene que generar sus propios datos e idear técnicas para mejorar el aprendizaje a partir de un conjunto más limitado. Para desarrollar π0, la empresa combinó los llamados modelos de lenguaje de visión, que se entrenan tanto con imágenes como con texto, con modelado de difusión, una técnica tomada de la generación de imágenes por IA, para permitir un tipo de aprendizaje más general. .
Para que los robots sean capaces de realizar cualquier tarea que una persona les pida, habrá que ampliar considerablemente este tipo de aprendizaje: «Aún queda mucho camino por recorrer, pero tenemos una serie de ejemplos que ilustran lo que está por venir». «, concluye Levine.
Artículo publicado originalmente en CABLEADO. Adaptado por Alondra Flores.