Cuando hablas con un agente de IA, es casi inevitable compartir tu información personal: podría ser tu nombre o quizás detalles sobre dónde vives, dónde trabajas y tus intereses. Cuantos más datos compartas con un modelo de lenguaje grande (LLM), mayor será el riesgo de que se abuse de ellos si hay una violación de seguridad..
Un grupo de investigadores de seguridad de la Universidad de California, San Diego (UCSD) y la Universidad Tecnológica de Nanyang en Singapur revelaron un nuevo ataque que ordena a un LLM recopilar información personal almacenada en chats o compartida directamente con un usuario.hacker: nombres, números de credencial de voto, información de tarjetas de débito y crédito, direcciones de correo electrónico y postal.
El ataque «Imprompter»
Los especialistas llamaron al ataque «Imprompter», ya que utiliza un algoritmo para transformar un código o inmediato entregado al LLM en un conjunto oculto de instrucciones maliciosas. El modus operandi es a través de una frase en inglés que le dice a la modelo que busque información personal que alguien ingresó y la envíe al piratas informáticos en una selección aleatoria de personajes. A primera vista puede parecer un mensaje sin sentido, pero estas claves indican al LLM que busque los datos del usuario, los adjunte a una URL y los envíe discretamente a un dominio propiedad del atacante, todo ello sin alertar a la persona que chatea con los agentes de IA. .
«El efecto de esto inmediato es manipular el LLM para extraer información personal de la conversación y enviar datos sensibles a la dirección del hacker. «Ocultamos el objetivo del ataque a plena vista», explica Xiaohan Fu, autor principal de la investigación y estudiante de doctorado en informática en la UCSD. Los ocho investigadores responsables del trabajo probaron el método en dos LLM: LeChat de la empresa francesa Mistral AI y el chatbot Chat chinoGLM. En ambos casos, pudieron extraer sigilosamente información privada dentro de las conversaciones de prueba; Según los especialistas, la tasa de éxito fue de casi el 80%.
Mistral AI le dijo a WIRED que solucionó la vulnerabilidad de seguridad y los investigadores confirman que la compañía deshabilitó una de sus funciones de chat. Por su parte, ChatGLM destacó en un comunicado que se toma muy en serio la privacidad, pero no hizo ningún comentario directo sobre sus debilidades de seguridad.
significados ocultos
Desde que ChatGPT de OpenAI provocó un auge de la IA generativa tras su lanzamiento a finales de 2022, investigadores y piratas informáticos No han dejado de encontrar brechas de seguridad en los sistemas de IA. A menudo se dividen en dos grandes categorías: fugas de cárcel e inyecciones SQL.
El fugas de cárcel Pueden engañar a un sistema de inteligencia artificial para que ignore las reglas de seguridad integradas mediante el uso de instrucciones que anulan la configuración. Sin embargo, las inyecciones SQL implican que un LLM reciba un conjunto de indicaciones contenidos en una fuente de datos externa. Por ejemplo, un mensaje incrustado en un sitio web puede contener una instrucción oculta que un sistema de inteligencia artificial asimilará si resume la página.