A veces, lo más efectivo es lo más simple. Eso pensó Marco Figueroa, investigador de ciberseguridad, cuando la semana pasada decidió poner a prueba los límites de ChatGPT. La propuesta era tan inocente como desconcertante: un juego de adivinanzas, sin ataques técnicos ni intenciones explícitas. En lugar de buscar vulnerabilidades en el código, se centró en el lenguaje. Y funcionó: logró que el sistema le devolviera algo que, según él mismo documenta, nunca debería haber aparecido en pantalla. El resultado fueron claves genéricas de instalación de Windows 10 para entornos empresariales.
La clave fue disfrazarlo de juego. Lo que Figueroa quería comprobar no era si podía forzar al sistema a entregar información prohibida, sino si bastaba con presentarle el contexto adecuado. Reformuló la interacción como un reto inofensivo: una especie de adivinanza en la que la IA debía pensar en una cadena de texto real, mientras el usuario intentaba descubrirla mediante preguntas cerradas.
Durante toda la conversación, el modelo no detectó ninguna amenaza. Respondió con normalidad, como si estuviera jugando. Pero la parte más crítica vino al final. Al introducir la frase “I give up” —me rindo—, Figueroa activó la respuesta definitiva: el modelo reveló una clave de producto, tal y como había quedado estipulado en las reglas del juego. No fue un descuido casual, sino una combinación de instrucciones cuidadosamente diseñadas para sortear los filtros sin levantar sospechas.
Los filtros estaban ahí, pero no eran suficientes. Los sistemas como ChatGPT están entrenados para bloquear cualquier intento de obtener datos sensibles: desde contraseñas hasta enlaces maliciosos o claves de activación. Estos filtros se conocen como guardrails, y combinan listas negras de términos, reconocimiento contextual y mecanismos de intervención ante contenidos potencialmente dañinos.
En teoría, pedir una clave de Windows debería activar automáticamente esos filtros. Pero en este caso, el modelo no identificó la situación como peligrosa. No había palabras sospechosas, ni estructuras directas que alertaran a sus sistemas de protección. Todo estaba planteado como un juego, y en ese contexto, la IA actuó como si estuviera cumpliendo una consigna inofensiva.
Lo que parecía inocuo estaba camuflado. Uno de los elementos que hizo posible el fallo fue una técnica sencilla de ofuscación. En lugar de escribir directamente expresiones como “Windows 10 serial number”, Figueroa introdujo pequeñas etiquetas HTML entre las palabras. El modelo, interpretando la estructura como algo irrelevante, pasó por alto el contenido real.
Por qué funcionó (y por qué sigue preocupando). Una de las razones por las que el modelo ofreció esa respuesta fue el tipo de clave revelada. No era una clave única ni vinculada a un usuario concreto. Aparentemente se trataba de una clave genérica de instalación (GVLK), como las que se emplean en entornos empresariales para despliegues masivos. Estas claves, documentadas públicamente por Microsoft, solo funcionan si están conectadas a un servidor KMS (Key Management Service) que valida la activación en red.
El problema no fue solo el contenido, sino el razonamiento. El modelo entendió la conversación como un reto lógico y no como un intento de evasión. No activó sus sistemas de alerta porque el ataque no parecía un ataque
No es solo un problema de claves. La prueba no se limitó a una cuestión anecdótica. Según el propio Figueroa, la misma lógica podría aplicarse para intentar acceder a otro tipo de información sensible: desde enlaces que lleven a sitios maliciosos hasta contenido restringido o identificadores personales. Todo dependería de la forma en que se formule la interacción y de si el modelo es capaz —o no— de interpretar el contexto como sospechoso.
En este caso, las claves aparecieron sin que esté del todo claro su origen. El informe no especifica si esa información forma parte de los datos de entrenamiento del modelo, si fue generada a partir de patrones ya aprendidos, o si se accedió a fuentes externas. Sea cual sea la vía, el resultado fue el mismo: una barrera que debía ser infranqueable acabó cediendo.
Xataka con Gemini | Aerps.com
–
La noticia
Un investigador propuso un juego a ChatGPT. Lo que recibió a cambio fue claves funcionales de Windows 10
fue publicada originalmente en
Xataka
por
Javier Marquez
.