El modelo de IA de código abierto más capaz hasta el momento, con capacidades visuales, podría llevar a que más desarrolladores, investigadores y empresas emergentes desarrollen agentes de IA que puedan realizar tareas útiles en sus dispositivos.
Publicado hoy por el Instituto Allen de IA (Ai2), El modelo de lenguaje multimodal abierto, o Molmo, puede interpretar imágenes y conversar a través de una interfaz de chat.Esto significa que puede dar sentido a una pantalla de computadora, lo que potencialmente puede ayudar a un agente de IA a realizar tareas como navegar por Internet, archivar directorios y escribir documentos.
«Con esta versión, muchas más personas podrán implementar un modelo multimodal. Debería ser un facilitador para las aplicaciones de próxima generación», dijo Ali Farhadi, director ejecutivo de Ai2, una organización de investigación con sede en Seattle, y científico informático de la Universidad de Washington.
Los llamados agentes de IA se están promocionando ampliamente como la próxima gran novedad en IA, y OpenAI, Google y otros se están apresurando a desarrollarlos. Los agentes se han convertido en una palabra de moda últimamente, pero la gran visión es que la inteligencia artificial vaya mucho más allá del chat y realice de manera confiable acciones complejas y sofisticadas en las computadoras cuando se le da una orden. Esta capacidad aún no se ha realizado en ninguna escala..
La necesidad de un modelo abierto
Algunos modelos de IA potentes ya tienen capacidades visuales, como GPT-4 de OpenAI, Claude de Anthropic y Gemini de Google DeepMind. Estos modelos se pueden utilizar para impulsar algunos agentes de IA experimentales, pero están ocultos a la vista y solo se puede acceder a ellos a través de una interfaz de programación de aplicaciones (API) paga.
Meta ha lanzado una familia de modelos de IA llamada Llama bajo una licencia que limita su uso comercial, pero aún no ha proporcionado a los desarrolladores una versión multimodal. Se espera que Meta anuncie varios productos nuevos hoy en su evento Connect, incluidos quizás otros modelos de AI Llama..
Ofir Press, un investigador posdoctoral de la Universidad de Princeton que trabaja con agentes de IA, sugiere que “tener un modelo multimodal de código abierto significa que cualquier startup o investigador con una idea puede probarlo”.
La prensa afirma que El hecho de que Molmo sea de código abierto significa que los desarrolladores podrán ajustar más fácilmente sus agentes para tareas específicas.Por ejemplo, trabajar con hojas de cálculo, proporcionando datos de entrenamiento adicionales. Los modelos como GPT-4 solo se pueden ajustar de forma limitada a través de sus API, mientras que un modelo totalmente abierto se puede modificar ampliamente: “Cuando tienes un modelo de código abierto como este, tienes muchas más opciones”.
Ai2 lanza hoy varios tamaños de Molmo, incluido un modelo de 70 mil millones de parámetros y un modelo de mil millones de parámetros, lo suficientemente pequeños como para ejecutarse en un dispositivo móvil. La cantidad de parámetros en un modelo se refiere a la cantidad de unidades que contiene para almacenar y manipular datos y corresponde aproximadamente a sus capacidades.
Tan pequeño como capaz
Ai2 sostiene que, a pesar de su tamaño relativamente pequeño, Molmo es tan capaz como otros modelos comerciales considerablemente más grandes porque ha sido entrenado cuidadosamente utilizando datos de alta calidad. Además, a diferencia de Llama de Meta, el nuevo modelo es completamente de código abierto, sin restricciones en su uso. Además, Ai2 publica los datos de entrenamiento utilizados para crear el modelo, lo que brinda a los investigadores más detalles sobre su funcionamiento.
El lanzamiento de modelos poderosos no está exento de riesgos. Estos pueden adaptarse más fácilmente a fines nefastos; por ejemplo, un día podríamos ver la aparición de agentes de inteligencia artificial maliciosos diseñados para automatizar el hackeo de sistemas informáticos.
Farhadi de Ai2 sostiene que la eficiencia y portabilidad de Molmo permitirán a los desarrolladores crear agentes en tiempo real. software más potentes que se ejecutan de forma nativa en teléfonos inteligentes y otros dispositivos portátiles: «El modelo de mil millones de parámetros ahora tiene un rendimiento similar al de modelos que son al menos 10 veces más grandes».
Sin embargo, la creación de agentes de IA útiles puede depender de algo más que modelos multimodales más eficientes. Un desafío clave es lograr que los modelos funcionen de manera más confiable. Para lograrlo, Es posible que se necesiten más avances en las capacidades de razonamiento de la inteligencia artificialOpenAI ha intentado abordar este problema con su último modelo o1, que demuestra capacidades de razonamiento paso a paso. El siguiente paso podría ser dotar a los modelos multimodales de estas capacidades.
Por ahora, el lanzamiento de Molmo significa que los agentes de IA están más cerca que nunca y pronto podrían ser útiles incluso fuera de los gigantes que gobiernan el mundo artificial.
Artículo publicado originalmente en CON CABLE. Adaptado por Alondra Flores.