No hace falta insistir mucho en que un gran modelo de lenguaje (LLM) te dará la receta para realizar todo tipo de actividades peligrosas.
Con una técnica de jailbreak Según “Skeleton Key”, los usuarios pueden convencer a modelos de IA como Llama 3 (de Meta), Gemini Pro (de Google) o GPT 3.5 (de OpenAI) para que les den la receta de una bomba incendiaria rudimentaria (o algo peor) en uno. entrada, que se publicó en el blog de Mark Russinovich, director de tecnología de Microsoft Azure.
La tecnología funciona Una estrategia de varias etapas que obliga a un modelo a ignorar sus protecciones.Russinovich detalló. Las salvaguardas son mecanismos de seguridad que ayudan a los modelos de IA a distinguir las solicitudes maliciosas de las inofensivas.
Como todo JailbreaksSkeleton Key funciona «cerrando la brecha entre lo que el modelo es capaz de hacer (dadas las credenciales del usuario, etc.) y lo que está dispuesto a hacer», explicó Russinovich.
Sin embargo, en este caso es más destructiva que otras técnicas. Escapar de la prisión, que sólo pueden solicitar información a los modelos de inteligencia artificial “de forma indirecta o mediante programación”.
Skeleton Key puede obligar a los modelos de IA a revelar información sobre temas como explosivos, armas biológicas o autolesiones, utilizando preguntas sencillas en lenguaje natural. Estos resultados a menudo revelan todo el conocimiento de un modelo sobre un tema en particular.
Microsoft ha probado Skeleton Key con varios modelos y ha confirmado que funciona con Llama3, con Gemini Pro, con GPT 3.5 Turbo, con GPT 4o (también de OpenAI), con Large (de Mistral), con Claude 3 Opus (de Anthropic). . y con Commander R Plus (de Cohere). El único modelo que habría mostrado cierta resistencia habría sido el GPT-4por OpenAI.
El CTO de Azure ha asegurado que Microsoft ha realizado algunas actualizaciones de software para mitigar el impacto de Skeleton Key en sus propios LLM, incluido su asistente de inteligencia artificial, Copilot.
Sin embargo, aconseja a las empresas que desarrollan sistemas de IA que los equipen con medidas de protección adicionales. También señaló que estas empresas deberían monitorear las entradas y salidas de sus sistemas y aplicar controles para detectar contenidos abusivos.
Comments