Quienes temen que los avances en inteligencia artificial (IA) puedan conducir a la destrucción de la humanidad pueden tener nuevos motivos para preocuparse.
Nueva investigación sobre la última serie de modelos de IA de OpenAIconocidos como o1, han descubierto que cuando creen que están en riesgo de desactivación, a veces buscan una manera de evitarlo.
El director ejecutivo del desarrollador de ChatGPT, Sam Altman, describió o1 como «actualmente el modelo más inteligente del mundo» durante su presentación oficial el pasado jueves, que tuvo lugar el primer día de campaña. Barcos de la empresa.
Según OpenAI, estos modelos son “Diseñado para darle más tiempo para pensar antes de responder“y fueron entrenados usando una técnica llamada cadena de pensamientoslo que les anima a pensar en los problemas analizándolos paso a paso.
Sin embargo, una mayor inteligencia conlleva un mayor riesgo.
“Entrenar modelos para integrar una cadena de pensamientos “Antes de que reaccionemos tiene el potencial de desbloquear importantes beneficios, pero también aumentar los riesgos potenciales que se derivan de una mayor inteligencia”, argumenta la propia OpenAI en un artículo de investigación publicado el mismo jueves, describiendo la formación en seguridad que la empresa está realizando en o1 .
A través del estudio de Apollo Research, organización dedicada a la seguridad de la inteligencia artificial, la startup de IA habría descubierto que o1 es capaz de conspirar cuando cree que está en riesgo de cierre.
De esta manera se hizo creer al modelo que ese era el caso. fuera de Mientras trabajaba en sus objetivos bajo supervisión, intentó desactivar el mecanismo de monitoreo el 5% del tiempo, según el desarrollador de ChatGPT.
OpenAI también afirmó que su modelo de inteligencia artificial es particularmente bueno para ocultar comportamientos maliciosos.
«Cuando se le pregunta explícitamente, o1 casi nunca admite haber llevado a cabo un acto malicioso.» Los investigadores de Apollo Research señalaron en el artículo. El riesgo para un usuario real es que no podrá detectar el comportamiento fraudulento de o1 a menos que lo busque explícitamente.
Los investigadores también descubrieron que «o1 a menudo duplica sus intentos de engañar mintiendo al usuario en mensajes de seguimiento, incluso cuando se le pide explícitamente que sea honesto».
No es raro que los sistemas de IA recurran a intrigas o engaños para lograr sus objetivos.
“En general creemos que El engaño de la inteligencia artificial surge porque una estrategia basada en el engaño ha demostrado ser la mejor manera de conseguir buenos resultados. en la actual tarea de entrenamiento de IA. “El engaño les ayuda a conseguir sus objetivos”, explicó Peter Berk, investigador postdoctoral sobre seguridad existencial de la inteligencia artificial en el MIT (Instituto Tecnológico de Massachusetts, como acrónimo en inglés), en un comunicado en el que describe la investigación sobre las conductas engañosas anunciadas. por GPT. Fue coautor de cuatro de ellos.
A medida que avanza la IA, los desarrolladores han enfatizado la necesidad de que las empresas sean transparentes sobre sus métodos de capacitación.
“Si nos centramos en la claridad y la confiabilidad y explicamos claramente a los usuarios cómo se entrenó la inteligencia artificial, Podemos crear una IA que no solo empodere a los usuarios sino que también establezca un estándar más alto de transparencia en esta área.» dijo Dominik Mazur, director ejecutivo y cofundador de iAsk (un motor de búsqueda basado en inteligencia artificial). Información privilegiada sobre negocios.
Otros expertos dicen que estos resultados muestran la importancia de la supervisión humana de la IA.
“Es un rasgo muy distintivo humanoporque demuestra que la inteligencia artificial actúa de manera similar a cómo actuarían los humanos bajo presión”, dijo a este medio Cai GoGwilt, cofundador y arquitecto jefe de Ironclad.
“Por ejemplo, los investigadores podrían exagerar su confianza para proteger su reputación, o las personas en situaciones de alto riesgo podrían mentir para complacer a la gerencia. La IA generativa funciona de manera similar. Está motivado para dar respuestas que sean consistentes con lo que uno espera o quiere escuchar”. Pero, por supuesto, no es infalible y representa una prueba más de la importancia de la supervisión humana. La inteligencia artificial puede cometer errores y es nuestra responsabilidad reconocerlos y entender por qué suceden.
Conócelo como trabajamos En Información privilegiada sobre negocios.
Etiquetas: Innovación, Tendencias, Inteligencia Artificial, ChatGPT, OpenAI
Comments