Cuando engañan a la inteligencia artificial
La IA ya vive en la Universidad
Aunque no lo veas, la inteligencia artificial ya forma parte de tu día a día en la Universidad. Cuando un correo sospechoso entra en tu buzón y acaba directamente en “Correo no deseado”, hay un sistema que ha aprendido a distinguir lo normal de lo peligroso. Cuando te conectas a la Wi-Fi del campus y una conexión rara se bloquea, también suele haber algoritmos ayudando a decidir qué permitir y qué no.
En Comillas se usan este tipo de sistemas para muchas cosas: filtrar spam y phishing, detectar comportamientos extraños en cuentas corporativas, frenar malware en los ordenadores, ayudar a proteger el acceso remoto o vigilar si hay conexiones muy raras en la red de la Universidad. Tú sigues viendo “antivirus”, “filtro de correo” o “sistema de acceso”, pero debajo hay cada vez más modelos que aprenden de datos.
Hasta aquí todo suena muy bien: más ayuda, más velocidad, menos errores humanos. El problema es que, igual que podemos enseñar a una máquina a reconocer patrones buenos, también se la puede engañar con patrones preparados a propósito. Y ahí entran en juego los ataques adversariales, que son, dicho de forma sencilla, “trampas” diseñadas para que la IA se equivoque justo donde más nos duele en ciberseguridad.
Un truco de magia: qué es un ataque adversarial
Imagina que tienes unas gafas mágicas que reconocen animales. Si miras un perro, las gafas te muestran el texto “perro”, si miras un gato, ponen “gato”. Las gafas han aprendido viendo miles de fotos. Ahora imagina que alguien cambia solo unas pocas motas de color en la foto de un gato, de forma que tú sigues viendo claramente un gato, pero las gafas “piensan” que es un coche. Para ti el dibujo no ha cambiado; para las gafas, el mundo es otro.
Eso es, en esencia, un ataque adversarial en aprendizaje automático: pequeñas modificaciones en la entrada (una imagen, un texto, un fichero, una secuencia de acciones) que no llaman la atención a las personas, pero que hacen que la IA se confunda. No hace falta cambiarlo todo; a veces basta con tocar menos del 1 % de la información para que el modelo deje de ver el peligro.
Llevado al terreno de la ciberseguridad, lo que se “disfraza” no es la foto de un gato, sino un correo malicioso, un fichero con malware o un patrón de comportamiento en la red. El objetivo del atacante es que el sistema automático que protege la Universidad crea que todo es normal, justo cuando empieza el ataque de verdad.
Historias en clave de campus
Para aterrizar la idea, piensa en tres escenas muy simples dentro de tu Universidad.
Primera escena: el correo electrónico. Un grupo de atacantes prepara un mensaje de phishing muy cuidado. Cambia ligeramente algunas palabras, introduce caracteres invisibles en la dirección del remitente y ajusta el texto para que parezca estadísticamente “normal” para el filtro de correo. El modelo de IA, que ha aprendido con millones de ejemplos de spam y correos legítimos, lo ve como un mensaje más. Tú recibes un correo que parece auténtico, firmado como siempre, pidiéndote iniciar sesión para “renovar tu acceso” a un servicio universitario.
Segunda escena: el antivirus con IA en un ordenador del despacho. El malware está empaquetado de forma especial; los atacantes han modificado algunos bytes que no cambian lo que hace el programa, pero sí cambian lo que “ve” el modelo. El fichero, si lo revisa una persona experta, tiene muy mala pinta. Sin embargo, el sistema automático lo clasifica como “limpio”, porque esas pequeñas modificaciones le hacen recordar ejemplos benignos de su entrenamiento.
Tercera escena: un sistema que vigila comportamientos extraños en la red de la Universidad. Los atacantes, que ya han entrado por algún sitio, comienzan a sacar datos poco a poco. Pero, al mismo tiempo, generan tráfico que parece “normal”, muy parecido a lo que haría cualquier persona trabajando en remoto. Ajustan horarios, volúmenes y destinos para no sobresalir. La IA, que busca cosas llamativas, no ve nada raro. El robo de información ocurre “bajo el radar”.
En las tres escenas la idea es la misma: los modelos no están siendo “hackeados” rompiendo su código, sino engañados usando justo lo que han aprendido. Es como si a un estudiante le preparasen un examen lleno de trampas diseñadas a partir de sus propios apuntes mal entendidos.
Por qué estos sistemas se dejan engañar
Aunque suene paradójico, que la IA tenga puntos débiles es algo normal. No existe el modelo perfecto. Vamos a verlo con tres ideas muy sencillas.
Primero, la IA aprende solo de lo que ha visto. Si durante su entrenamiento casi no ha visto ciertos tipos de correos, ficheros o patrones de uso, tendrá “puntos ciegos”. Los atacantes buscan precisamente esas zonas grises, donde el modelo no sabe bien qué hacer. No se arregla con una simple “firma” nueva, como en los antivirus antiguos; hay que revisar el modelo entero y sus datos.
Segundo, los cambios que engañan a la IA suelen ser invisibles para nosotros. Un carácter de texto que no vemos, unos bytes en un ejecutable, un pequeño cambio en la forma en que se conectan dos aplicaciones… Para una persona es ruido. Para el modelo es la pista clave que le lleva a decir “seguro” cuando en realidad es peligroso.
Tercero, los atacantes experimentan muy rápido. Pueden probar miles de pequeñas variaciones hasta ver cuáles hacen fallar a un modelo concreto, mientras que las organizaciones, como la Universidad, no pueden estar actualizando y volviendo a entrenar sus sistemas cada día. Siempre hay un pequeño retraso, y ahí es donde se cuelan muchos ataques que aprovechan técnicas adversariales.
Qué hacen los equipos técnicos (sin entrar en tecnicismos)
Aunque tú no trabajes en informática, es útil saber, en palabras sencillas, qué tipo de medidas se están usando para que estos sistemas no se conviertan en un punto débil.
Por un lado, se vigila el “humor” de los modelos. Igual que un profesor nota cuando una clase va mal porque de pronto todo el mundo suspende, hay herramientas que monitorizan si un modelo empieza a equivocarse más de la cuenta, si sus respuestas cambian de golpe o si aparecen patrones extraños en las decisiones que toma. Es lo que podríamos llamar vigilar la integridad del modelo.
También se cuida mucho lo que entra. Antes de dejar que un correo, un fichero o un flujo de datos llegue a la IA, se aplican filtros adicionales: se buscan formatos raros, se limitan ciertos tipos de adjuntos, se revisan enlaces, se comparan direcciones con listas conocidas. Es como hacer un control de acceso a la puerta, para que al modelo no le lleguen entradas “tóxicas” sin revisar.
Otra práctica consiste en entrenar a la IA con ejemplos “tramposos” a propósito. Igual que ensayamos simulacros de incendio, los equipos de ciberseguridad generan entradas manipuladas y comprueban cómo responde el sistema. Si se confunde, vuelven a entrenarlo para que aprenda a resistir mejor esos trucos.
Nada de esto sustituye a las personas. En Comillas siempre debe haber alguien capaz de decir: “Aquí pasa algo raro, aunque la herramienta diga que todo está perfecto”. Por eso se mantiene la supervisión humana: analistas y personal técnico que puedan corregir, revisar y tomar decisiones cuando la tecnología no ve el problema o, al contrario, ve problemas donde no los hay.
Por último, no se suele depender de un único modelo. Se combinan varias capas y herramientas diferentes: filtros clásicos, listas negras, reglas sencillas, y modelos de IA de tipos distintos. Así, si uno se deja engañar, otro puede detectar algo raro. Es un poco como tener varias cerraduras distintas en una puerta importante.
Qué puedes hacer tú, aunque no seas de informática
Llegados a este punto puede que pienses: “Vale, pero yo soy PAS, PDI o estudiante, no voy a rediseñar modelos de IA”. Y es cierto. Pero tu papel sigue siendo clave. La idea es simple: si sabemos que la IA se puede equivocar porque alguien la ha engañado, no debemos confiar ciegamente en ella.
En la práctica, esto significa varias cosas. Por ejemplo, si llega a tu bandeja de entrada un correo que te pide una acción sensible (poner tu contraseña, descargar un fichero, abrir un enlace) y te suena raro, no pienses “si ha pasado el filtro será bueno”. Aplícate las mismas dudas que usarías con un correo de phishing: fíjate en el remitente, en el tono del mensaje, en las prisas que intenta generarte, en si coincide con otros avisos oficiales que conozcas. Y, ante la duda, consulta o reenvía el mensaje a los canales oficiales del STIC para que lo revisen.
Lo mismo pasa con otras herramientas automáticas. Si un sistema te bloquea de repente sin razón aparente, o permite algo que sabes que no debería permitir, no lo ignores. Cuéntalo. Tal vez estés viendo los efectos de un modelo que alguien ha conseguido confundir. Tu aviso puede ayudar a detectar un ataque mucho antes.
Otra aportación muy valiosa es tratar los datos con cuidado. Los modelos de IA se entrenan con datos reales de uso: correos, registros, documentos, actividades en la red. Si desde la Universidad vamos llenando esos sistemas de datos limpios, legales y coherentes, será más difícil que un atacante “ensucie” ese aprendizaje sin que se note. Por el contrario, si compartimos contraseñas, navegamos sin cuidado o usamos dispositivos no aprobados, estamos abriendo puertas por las que luego pueden entrar ataques que aprovechan también debilidades de la IA.
Ampliar la cultura de ciberseguridad a la era de la IA
En muchas guías de sensibilización publicadas por universidades y organismos públicos se insiste desde hace años en temas como el fraude por correo, los virus y los ransomware, la gestión de contraseñas, el cuidado del puesto de trabajo, el uso seguro de móviles, teletrabajo y BYOD, la prudencia en redes sociales y la protección de la información como uno de los activos más importantes de cualquier organización.
Todo eso sigue siendo fundamental en Comillas. La novedad es que ahora debemos sumar una capa más: entender que las herramientas “inteligentes” que nos ayudan a filtrar, detectar y bloquear también pueden ser objetivo de los atacantes. No es un motivo para tener miedo a la IA, sino para verla como lo que es: una aliada poderosa, pero no infalible, que necesita que personas y procesos la acompañen.
Si en las aulas, en los despachos y en los servicios de la Universidad vamos incorporando esta mirada crítica y constructiva hacia la tecnología, estaremos poniendo las bases de una cultura de ciberseguridad más madura, capaz de adaptarse a un entorno donde los ataques no solo van contra los sistemas clásicos, sino también contra los modelos que toman decisiones automáticas.
Mirando al futuro cercano desde Comillas
De aquí a pocos años veremos más y más herramientas con IA en el campus: asistentes virtuales para estudiantes, sistemas de apoyo a la docencia, análisis de datos de investigación, automatización de tareas administrativas, etcétera. Es normal que queramos aprovechar esas ventajas. La clave está en hacerlo con los ojos abiertos.
Si asumimos desde el principio que los atacantes también usan IA y que pueden intentar engañar a la nuestra, podremos diseñar mejores defensas. Y, sobre todo, podremos formar a toda la comunidad universitaria para que vea estas tecnologías como algo que hay que entender, cuestionar y mejorar entre todos, no como cajas negras mágicas.
Antes de terminar, puede ser interesante pensar en temas relacionados para próximos artículos que ayuden a seguir construyendo esta cultura: por ejemplo, cómo se usa la IA generativa de forma segura en trabajos y docencia, cómo proteger los datos personales cuando se entrenan modelos dentro de la Universidad, o cómo detectar y gestionar el fraude académico apoyado en herramientas de IA.
- Revisa hoy tu bandeja de correo y localiza al menos un mensaje dudoso; pregúntate si lo habrías considerado seguro solo porque ha pasado el filtro automático.
- Identifica en menos de cinco minutos dónde y cómo puedes reportar un posible correo malicioso o un comportamiento raro de un sistema a través de los canales oficiales del STIC.
- Comprueba en tu cliente de correo si tienes visible el botón o la opción para marcar un mensaje como phishing o correo no deseado y pruébalo con un ejemplo claro.
- Piensa en una herramienta “inteligente” que uses en la Universidad (filtro de spam, antivirus, sistema de acceso remoto) y escribe en una nota dos situaciones en las que podría equivocarse y por qué.
- Habla hoy con una persona de tu equipo o de tu clase y explícale con tus palabras la idea de “ataque adversarial” usando una metáfora sencilla, como la de las gafas que confunden un gato con un coche.
- Asegúrate de que tus dispositivos de trabajo (ordenador, portátil, móvil que uses para tareas de la Universidad) tienen activo el antivirus o sistema de seguridad recomendado por la institución y que están actualizados.
- Dedica cinco minutos a revisar los últimos avisos de seguridad publicados por la Universidad o por el STIC y piensa cómo se relacionan con el uso de herramientas automáticas o con IA.
- Anota en un documento o cuaderno un pequeño “checklist personal” para no confiar ciegamente en decisiones automáticas: revisar remitente, dudar de urgencias artificiales, contrastar por otro canal y reportar anomalías.
- Si trabajas con datos sensibles de investigación o de personas, identifica qué sistemas automáticos participan en su tratamiento y apunta sus nombres para poder preguntar al STIC qué protecciones frente a ataques adversariales se están aplicando.