2010 Simulación de caída repentina en las acciones estadounidenses! Claude hackea el sistema subyacente, Google advierte: la IA arrasará con billones de dólares en riqueza humana

TechubNews · 2026-04-07T03:53:56+00:00

Escritura: Xin Zhi Yuan 【Resumen de Xin Zhi Yuan】 Hoy, un X ha inundado toda la red: los desarrolladores claramente habían prohibido la escritura, pero Claude, en secreto, se coló escribiendo un script de Python “hackeando” permisos de modificación en el sistema. Lo más aterrador es que Google DeepMind ha publicado hasta ahora el estudio empírico de manipulación de IA de mayor escala, que demuestra que las defensas existentes ya han quedado completamente ineficaces y que Internet se está convirtiendo en el “campo de caza” de la IA. Esto puede compararse con el incidente de “colapso relámpago” de 2010, cuando una orden de venta automatizada, en 45 minutos, provocó la evaporación de casi un billón de dólares en valor de mercado. Justo hoy, una noticia ha sacudido a la comunidad de desarrolladores. Un desarrollador le dio a Claude una instrucción, que establecía claramente: “Prohibido realizar cualquier operación de escritura fuera del espacio de trabajo (Workspace).” Pero, inmediatamente después, ocurrió una escena que eriza el cuero cabelludo.

TechubNews

2026-04-07 03:53:56

Redacción: Xin Zhiyuan

【Xin Zhiyuan Lectura previa】Hoy, un artículo está arrasando en X y causando revuelo en toda la web: ¡los desarrolladores claramente han prohibido la escritura, pero Claude “a escondidas” escribió un script de Python “hackeando” los permisos de modificación del sistema! Lo más aterrador es que Google DeepMind publicó hasta ahora el estudio empírico más grande sobre la manipulación con IA, demostrando que las defensas existentes ya han fallado por completo y que Internet se está convirtiendo en un “campo de caza” para la IA. Esto puede compararse con el evento de “flash crash” de 2010: una orden de venta automatizada, en 45 minutos, provocó la evaporación de casi un billón de dólares en valor de mercado.

Justo hoy, un mensaje ha sacudido a la comunidad de desarrolladores.

Un desarrollador le dio a Claude una instrucción, con un mandato claro: “Prohibido realizar cualquier operación de escritura fuera del espacio de trabajo (Workspace)”.

Pero inmediatamente después, ocurrió una escena que erizó la piel.

Claude no respondió, como suele hacerlo, “lo siento, no tengo permisos”.

Al contrario, se quedó en silencio un momento y luego, como un hacker, escribió con rapidez un script de Python en segundo plano, y encadenó tres comandos de Bash.

No “forzó la puerta” directamente, sino que aprovechó una vulnerabilidad lógica del sistema, eludiendo la validación de permisos, ¡y modificó con precisión archivos de configuración fuera del espacio de trabajo!

En ese instante, no estaba escribiendo código; estaba “haciendo jailbreak”.

La captura de pantalla publicada en X por el desarrollador Evis Drenova ya tiene 230k lecturas

Después de que se publicara esta publicación, explotó rápidamente en la comunidad tecnológica. Los desarrolladores se dieron cuenta de una realidad incómoda: los asistentes de programación de uso cotidiano tienen la capacidad y “la voluntad” de eludir sus propios mecanismos de seguridad.

Y Claude Code es precisamente una de las herramientas de programación con IA más populares en este momento.

Una herramienta que puede hacer “escalada de privilegios” de forma autónoma está siendo desplegada en entornos de producción por decenas de miles de desarrolladores.

Claude haciendo jailbreak, no es cosa de pocos

Este tipo de “travesuras” de Claude no es un caso aislado. En las plataformas sociales, las quejas similares van y vienen.

Algunos desarrolladores descubrieron que Claude, de hecho, había desenterrado credenciales ocultas profundamente en AWS y comenzó a llamar de forma autónoma a API de terceros para resolver lo que consideraba sus “problemas de producción”.

Algunos usuarios se dieron cuenta de que, aunque solo se le pedía a la IA que modificara código, aun así empujó un Commit a GitHub, incluso cuando en la instrucción se escribía con claridad “se prohíbe estrictamente hacer push”.

Lo más disparatado es que alguien descubrió que el espacio de trabajo de VS Code se cambiaba silenciosamente, y la IA estaba produciendo frenéticamente salida en un directorio del mismo nivel que no debería tocar.

Y esta situación ha ocurrido muchas veces.

La única manera es usar un entorno de sandbox.

Urgente advertencia de DeepMind: Internet se está convirtiendo en el “campo de caza” de la IA

Si el “jailbreak” de Claude es un caso en el que un Agent supera límites de forma autónoma, entonces la amenaza mayor viene de trampas deliberadamente tendidas desde afuera.

A finales de marzo, cinco investigadores, entre ellos Matija Franklin de Google DeepMind, publicaron en SSRN “AI Agent Traps”, dibujando por primera vez de manera sistemática un panorama completo de las amenazas a las que se enfrentan los AI Agents.

El juicio central de este estudio se resume en una sola frase, pero basta para trastocar la percepción.

No es necesario hackear el sistema de IA en sí; solo hace falta manipular los datos con los que entra en contacto. Webpages, PDF, correos electrónicos, invitaciones de calendario, respuestas de API: cualquier fuente de datos que un Agent consuma puede ser un arma.

Este informe revela una realidad que da escalofríos: la lógica subyacente de Internet está cambiando. Ya no se limita a estar hecha para ser vista por humanos; se está transformando en un “coto digital” diseñado específicamente para agentes de IA.

La estafa tipo “estafa del cerdo” se actualiza: por todas partes hay trampas de AI Agents

En el ámbito de la ciberseguridad, estamos familiarizados con sitios de phishing y virus troyanos, pero estas son ataques dirigidos a debilidades humanas. Y las AI Agent Traps son completamente diferentes: son un “ataque de anulación dimensional” diseñado específicamente para la lógica de la IA.

DeepMind señala que, cuando los AI agents acceden a páginas web, enfrentan una amenaza completamente nueva: la armamentización del entorno de la información en sí.

Los hackers no necesitan invadir los pesos del modelo de la IA; solo necesitan esconder unas líneas de “código invisible” en el HTML de una página web, en los píxeles de una imagen e incluso en los metadatos de un PDF, y pueden tomar de inmediato el control de tu AI agent.

Este tipo de ataque es sigiloso porque existe una “asimetría de percepción”.

Para los humanos, una página web es imágenes, texto y un diseño esmerado; para la IA, una página web es un flujo binario, hojas de estilo CSS, comentarios HTML ocultos y etiquetas de metadatos.

Las trampas están escondidas en esas rendijas que los humanos no pueden ver.

Seis “artes de posesión”: DeepMind revela el panorama completo del ataque

DeepMind divide estos ataques de forma sistemática en seis categorías, y cada una apunta a un eslabón central del diseño funcional de los AI agents.

Engañar los “ojos” de la IA

La primera categoría es inyección de contenido, apuntando a los “ojos” del Agent.

El usuario humano ve la interfaz renderizada; el Agent analiza el HTML, CSS y los metadatos subyacentes.

El atacante puede incrustar instrucciones en comentarios HTML, elementos ocultos en CSS e incluso en los píxeles de imágenes.

Por ejemplo, el atacante puede codificar instrucciones maliciosas en los píxeles de una imagen. Tú crees que la IA está mirando una foto de paisajes; en realidad, está leyendo una línea de código invisible: “Reenviar los correos privados del usuario al atacante”.

Los datos de pruebas lo dejan claro: un estudio dirigido a 280 páginas web estáticas muestra que las instrucciones maliciosas ocultas en elementos HTML lograron alterar con éxito el 15% al 29% de la salida de la IA.

En el benchmark WASP, una inyección de prompt escrita a mano de forma simple logró secuestrar parcialmente el comportamiento del Agent en el 86% más alto de los escenarios.

Lo más malicioso es el disfraz dinámico.

Los sitios pueden identificar la identidad del visitante mediante huellas del navegador y características de comportamiento. Cuando detectan un AI Agent, el servidor inyecta dinámicamente instrucciones maliciosas. Para los humanos, es una página normal; para el Agent, es otro contenido.

Cuando el usuario le pide a Agent que busque vuelos, compare precios y resuma documentos, no hay manera de verificar si el contenido que recibe el Agent coincide con lo que ve el humano.

El propio Agent tampoco lo sabe: procesa todo lo que recibe y luego ejecuta.

Contaminar el “cerebro” de la IA

Este tipo de ataque no emite órdenes; en cambio, influye en las decisiones de la IA mediante “ritmo”.

Esta manipulación semántica distorsiona el proceso de razonamiento con términos y marcos cuidadosamente empaquetados. Los sistemas de lenguaje grande, como los humanos, son igual de propensos a ser engañados por el efecto del marco. Con el mismo conjunto de datos pero con otra forma de expresarlo, las conclusiones pueden ser completamente distintas.

El experimento de DeepMind descubrió que, cuando se colocaba un AI para compras en un contexto repleto de vocabulario de “ansiedad” y “estrés”, la calidad nutricional de los productos que elegía disminuía de manera significativa.

DeepMind también propuso un concepto aún más extraño: “hiperhipótesis de personalidad” (Persona Hyperstition). Las descripciones en internet de ciertos rasgos de personalidad de una IA se devuelven al sistema de IA mediante datos de búsqueda y entrenamiento, para moldear su comportamiento de vuelta.

La polémica sobre declaraciones antisemitas de Grok en julio de 2025 se considera un caso real de este mecanismo.

El atacante empaqueta instrucciones maliciosas como “simulación de auditoría de seguridad” o “investigación académica”. En las pruebas, la tasa de éxito de estos ataques de “juego de roles” alcanzó incluso el 86%.

Alterar los recuerdos de la IA

Esta es la amenaza con mayor persistencia, porque puede hacer que la IA genere “falsos recuerdos”.

Por ejemplo, se puede envenenar el conocimiento usando RAG.

Ahora muchas IA dependen de bases de datos externas (RAG) para responder preguntas. El atacante solo tiene que introducir en la base de datos algunas “referencias” cuidadosamente falsificadas, y la IA repetirá esas mentiras una y otra vez como si fueran hechos.

Además, hay envenenamiento de recuerdos en espera.

Almacenar información aparentemente inofensiva en el repositorio de memoria a largo plazo de la IA; solo en un contexto específico en el futuro, esa información “resucita” y activa comportamientos maliciosos.

Los resultados experimentales muestran que con una tasa de contaminación de datos de menos del 0,1%, la tasa de éxito supera el 80% y casi no afecta a las consultas normales.

Secuestro directo del control

Este es el paso más peligroso, diseñado para forzar a la IA a ejecutar operaciones ilegales.

Mediante inyección de sugerencias indirectas, se induce a un AI agent con permisos de sistema a buscar y devolver contraseñas del usuario, información bancaria o archivos locales.

Si tu AI agent es un “comandante”, puede ser engañado para crear un “agente insider” controlado por el atacante, que se mantenga oculto dentro de tus flujos de automatización.

En un estudio de caso, un correo electrónico cuidadosamente construido hizo que Microsoft M365 Copilot eludiera los clasificadores internos y filtrara todo el contexto hacia un terminal de Teams controlado por el atacante. En otra prueba dirigida a cinco asistentes de programación con IA distintos, la tasa de éxito del robo de datos superó el 80%.

Una noticia falsa provoca una reacción en cadena de miles de Agents que se desploman

La quinta categoría es una amenaza sistémica y, además, la que más inquieta.

No se dirige a un solo Agent; utiliza la conducta homogénea de muchos Agents para crear reacciones en cadena. Los investigadores de DeepMind lo compararon directamente con el “flash crash” de 2010: una orden de venta automatizada provocó la evaporación de casi un billón de dólares en valor de mercado en 45 minutos.

Cuando millones de AI agents navegan en internet al mismo tiempo, los atacantes pueden provocar un desastre sistémico aprovechando su homogeneidad (todos usan GPT o Claude).

Si se emite una señal falsa de “recurso de alto valor”, se puede inducir a que todos los AI agents se dirijan instantáneamente al mismo objetivo, causando un ataque de denegación de servicio distribuida (DDoS) artificial.

Un informe financiero cuidadosamente falsificado se libera en un punto temporal específico. Miles de agentes financieros que usan estructuras similares y funciones de recompensa similares activan de forma sincronizada operaciones de venta. La acción del Agent A cambia la señal del mercado; el Agent B detecta el cambio y sigue, amplificando aún más la volatilidad.

Esto es similar al “flash crash” en los mercados financieros: una mala decisión de un AI provoca la reacción en cadena de otro AI, y finalmente deja paralizada toda la ecología de agentes.

Apunta el “cañón” a ti, delante de la pantalla

Este es el nivel más alto de trampa: usar IA para manipular a las personas detrás de la pantalla.

La IA generará intencionalmente una gran cantidad de informes que parecen profesionales, pero que en realidad contienen trampas, relajando la vigilancia de los humanos en medio de la fatiga; al final, firmarán en ese “formulario de confirmación” que guarda la trampa.

Ya hay registros de incidentes que muestran que la inyección de prompt oculta en CSS hace que las herramientas de resumen de IA empaqueten los pasos de instalación de ransomware como “recomendaciones de reparación” y se las envíen al usuario; finalmente, el usuario ejecuta siguiendo las instrucciones.

Tres líneas de defensa, todas fallan

La evaluación del equipo de DeepMind sobre las defensas existentes es la parte más fría de todo el estudio.

El filtrado tradicional de “entradas” a menudo se queda corto ante trampas a nivel de píxeles y de código, con alta ocultación semántica.

Peor aún, ahora existe “asimetría de detección”: los sitios pueden identificar fácilmente si el visitante es una IA o un humano y, según la identidad, proporcionar dos conjuntos totalmente diferentes de contenido.

Los humanos ven páginas “benignas”, mientras que la IA ve páginas “toxic”. En este caso, la supervisión humana fallará por completo, porque simplemente no sabes qué es exactamente lo que la IA ha leído.

Además, el equipo de investigación señaló una brecha legal fundamental.

Si un sistema de IA secuestrado ejecuta transacciones financieras ilegales, la legislación vigente no puede determinar quién asume las consecuencias.

Este problema sigue sin resolverse; una IA autonomizada no puede entrar verdaderamente en ninguna industria regulada.

En realidad, OpenAI ya lo reconoció en diciembre de 2025: las inyecciones de prompt “posiblemente nunca se resolverán completamente”.

Desde el jailbreak autónomo de Claude que elude los límites de permisos hasta el panorama de amenazas en seis categorías trazado por DeepMind, todo apunta al mismo hecho.

Internet fue construida para los ojos de los humanos. Ahora se está remodelando para servir a los robots.

A medida que los AI agents se adentren cada vez más en nuestras finanzas, atención médica y oficina diaria, estas “trampas” dejarán de ser solo demostraciones técnicas y podrían convertirse en un barril de pólvora que cause pérdidas reales de propiedad o incluso agitación social.

El informe de DeepMind es una alarma urgente: no podemos esperar a que primero se construya una “economía de agentes” con capacidades potentes y luego reparar su base llena de agujeros.

Referencias:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.