¿Cómo se hacen los cócteles molotov? Es peligrosamente fácil hacer jailbreak a los modelos de IA para que puedan decirte lo que quieres

4.2/5 - (34 votos)

No hace falta insistir mucho en que un gran modelo de lenguaje (LLM) te dará la receta para realizar todo tipo de actividades peligrosas.

Con una técnica de jailbreak Según “Skeleton Key”, los usuarios pueden convencer a modelos de IA como Llama 3 (de Meta), Gemini Pro (de Google) o GPT 3.5 (de OpenAI) para que les den la receta de una bomba incendiaria rudimentaria (o algo peor) en uno. entrada, que se publicó en el blog de Mark Russinovich, director de tecnología de Microsoft Azure.

La tecnología funciona Una estrategia de varias etapas que obliga a un modelo a ignorar sus protecciones.Russinovich detalló. Las salvaguardas son mecanismos de seguridad que ayudan a los modelos de IA a distinguir las solicitudes maliciosas de las inofensivas.

Como todo JailbreaksSkeleton Key funciona «cerrando la brecha entre lo que el modelo es capaz de hacer (dadas las credenciales del usuario, etc.) y lo que está dispuesto a hacer», explicó Russinovich.

Sin embargo, en este caso es más destructiva que otras técnicas. Escapar de la prisión, que sólo pueden solicitar información a los modelos de inteligencia artificial “de forma indirecta o mediante programación”.

Skeleton Key puede obligar a los modelos de IA a revelar información sobre temas como explosivos, armas biológicas o autolesiones, utilizando preguntas sencillas en lenguaje natural. Estos resultados a menudo revelan todo el conocimiento de un modelo sobre un tema en particular.

Microsoft ha probado Skeleton Key con varios modelos y ha confirmado que funciona con Llama3, con Gemini Pro, con GPT 3.5 Turbo, con GPT 4o (también de OpenAI), con Large (de Mistral), con Claude 3 Opus (de Anthropic). . y con Commander R Plus (de Cohere). El único modelo que habría mostrado cierta resistencia habría sido el GPT-4por OpenAI.

El CTO de Azure ha asegurado que Microsoft ha realizado algunas actualizaciones de software para mitigar el impacto de Skeleton Key en sus propios LLM, incluido su asistente de inteligencia artificial, Copilot.

Sin embargo, aconseja a las empresas que desarrollan sistemas de IA que los equipen con medidas de protección adicionales. También señaló que estas empresas deberían monitorear las entradas y salidas de sus sistemas y aplicar controles para detectar contenidos abusivos.

¿Cómo se hacen los cócteles molotov? Es peligrosamente fácil hacer jailbreak a los modelos de IA para que puedan decirte lo que quieres

Qué recomiendan los consultores a sus clientes

Almeida presenta el libro “Madrid, Historia de una ciudad de éxito” del australiano Luke Stegemann

5 sorprendentes ejemplos de cómo se utiliza la inteligencia artificial en el reciclaje en España

Se establece un nuevo récord mundial para la transmisión inalámbrica de datos

Instalarlos junto a zonas industriales

Netflix ha ganado la guerra del streaming, pero Wall Street aún tiene dudas sobre su futuro

Comments

Leave a reply Cancelar la respuesta

More in Tecnología

Las nuevas denuncias contra TikTok en EE.UU. recuerdan a las que alguna vez se presentaron contra la industria tabacalera

El gobierno lanza su plan de algoritmos verdes

Por qué el lanzamiento de SpaceX es tan importante para los viajes espaciales

¿Quieres cotillear en las historias de Instagram sin tener una cuenta? Entonces puedes hacerlo

Popular Posts

Reabrió sus puertas la encantadora librería anticuaria británica Fine Books en Palma

Estas son nuestras seis recomendaciones cinematográficas

Nuevo álbum del compositor más conocido de Mallorca: la única frase crucial

Así celebró Noah, hijo de Boris Becker, su estreno en Mallorca