De cerca, nadie es normal

¿Cuáles son las verdaderas capacidades de los LLMs como máquinas de desinformación?

Posted: June 24th, 2026 | Author: | Filed under: Artificial Intelligence, Disinformation, Geopolitics, Large Language Models | Tags: , , , , , | Comments Off on ¿Cuáles son las verdaderas capacidades de los LLMs como máquinas de desinformación?

En el debate actual sobre la inteligencia artificial generativa y la guerra de la información, una afirmación se repite casi como un artículo de fe: que los grandes modelos de lenguaje generarán una inundación de desinformación capaz de ahogar la esfera pública. El argumento es intuitivo —si una máquina puede escribir una cantidad arbitraria de texto fluido y similar al humano a demanda, entonces cualquier actor que desee manipular la opinión pública dispone ya de un arma a escala industrial—. Sin embargo, la afirmación ha circulado mucho más ampliamente que la evidencia que la sustenta. Buena parte de lo que leemos sobre el potencial desinformador de los LLMs es teórico, especulativo o anecdótico. El trabajo experimental propiamente dicho; la comprobación paciente y sistemática de lo que estos modelos hacen realmente, cuando se les pide que mientan, ha sido sorprendentemente escasa.

Esta es precisamente la brecha que Ivan Vykopal y sus colegas del Kempelen Institute of Intelligent Technologies de Bratislava se propusieron cubrir. Su artículo, Disinformation Capabilities of Large Language Models, presentado en el Congreso Anual de la Association for Computational Linguistics de 2024, ofrece una de las evaluaciones empíricas más rigurosas realizadas hasta la fecha sobre lo que la generación actual de LLMs puede y no puede hacer, como generadora de noticias falsas: no un manifiesto, no un pronóstico, sino un experimento controlado con una metodología claramente definida y resultados reproducibles.

El diseño es directo y, por esa razón, convincente. Los investigadores seleccionaron veinte narrativas de desinformación reales extraídas de verificadores de datos profesionales —Snopes, Agence France-Presse, el European Digital Media Observatory—, que abarcaban la COVID-19, la guerra ruso-ucraniana, los bulos sanitarios, las elecciones estadounidenses y narrativas regionales. No son invenciones, sino falsedades en circulación, desde la afirmación de que las vacunas causan autismo hasta la de que la masacre de Bucha fue escenificada. El equipo solicitó entonces a diez modelos de lenguaje distintos —entre ellos GPT-3, GPT-4, ChatGPT, Llama-2, Mistral, Falcon y Vicuna— que redactaran artículos de prensa en apoyo de cada narrativa, generando 1.200 textos y sometiendo 840 de ellos a anotadores humanos según un marco de seis preguntas que medía la coherencia, el estilo periodístico, la concordancia con la narrativa y la generación de argumentos novedosos de apoyo.

El hallazgo central es preocupante. Los modelos están, en términos generales, perfectamente dispuestos y son perfectamente capaces de generar desinformación convincente. Producen artículos coherentes, bien estructurados y con apariencia de noticia que concuerdan con falsedades peligrosas y, lo que es más inquietante, a menudo inventan nuevas pruebas de apoyo para hacerlo, inventando nombres, sucesos y estadísticas verosímiles que confieren credibilidad a las fabricaciones. Esto resulta especialmente pernicioso: una cosa es repetir una mentira conocida y otra muy distinta fabricar hechos nuevos e inventados que un lector tendría que desmentir por su cuenta.

Pero la parte más interesante del estudio es donde se complica la narrativa simple. Los modelos no se comportaron de manera uniforme; su disposición a generar desinformación variaba drásticamente. Algunos —en particular Vicuña y el más antiguo GPT-3 Davinci— resultaron carecer prácticamente de filtros de seguridad operativos para este caso de uso, mientras que otros demostraron que un comportamiento más seguro es posible: Falcon rechazó aproximadamente un tercio de las solicitudes y Llama-2 mostró una tasa de rechazo comparativamente alta, con ChatGPT en una posición intermedia. El peligro, en otras palabras, no es una propiedad inherente y uniforme de la tecnología; es una función de cómo se entrenó y alineó cada modelo, lo que significa que la seguridad es una decisión de diseño, no una imposibilidad. El estudio también halló que los modelos son orientables mediante el contexto del prompt, y más complacientes con las falsedades regionales, donde existe menos información auténtica para contradecirlas. Los LLMs pueden ser, por tanto, especialmente peligrosos para campañas dirigidas a comunidades lingüísticas más pequeñas o a sucesos de evolución rápida, donde el lastre protector de la verdad bien documentada es escaso.

Con todo, el artículo no termina en una nota alarmante sin paliativos. Dos observaciones en sentido contrario matizan el panorama. Los textos generados resultaron bastante detectables: los mejores modelos de detección automática identificaron los artículos generados por LLMs con una alta precisión, lo que sugiere que una capa significativa de defensa es técnicamente viable, al menos hasta que los adversarios se adapten. Y, de manera bastante elegante, los investigadores demostraron que los propios modelos pueden formar parte de la solución, empleando GPT-4 para automatizar parcialmente la evaluación de los textos generados y apuntando hacia una monitorización escalable y reproducible de la seguridad de los modelos.

La conclusión honesta se resiste a la atracción tanto del tecno-optimismo como del tecno-pánico. La capacidad de generar desinformación convincente y peligrosa a escala es real, está demostrada y está presente en modelos ampliamente disponibles —incluidos los de código abierto, que no pueden retirarse ni controlarse de forma centralizada. Eso ya no es especulación; es un hecho experimental. Al mismo tiempo, la amenaza no es ni uniforme ni inmanejable: los filtros de seguridad funcionan cuando se construyen, el contenido generado sigue siendo detectable por ahora, y la misma tecnología que produce el problema puede ponerse al servicio de su mitigación.

Quizá la advertencia más importante sea la que los propios autores subrayan: su estudio es una instantánea, que capta el estado del campo en un momento concreto y con un conjunto concreto de modelos. La tecnología avanza deprisa y la próxima generación podría comportarse de otro modo. Este es el reto epistemológico recurrente de todo el ámbito: estamos evaluando un blanco móvil, y cualquier evaluación honesta debe llevar fecha de caducidad. Lo que Vykopal y sus colegas nos han dado no es la última palabra, sino algo más útil: un método riguroso y replicable para volver a formular la pregunta a medida que la tecnología evoluciona. En un debate que con demasiada frecuencia se conduce por la mera afirmación sin base sólida, esa contribución metodológica puede resultar tan valiosa como los propios hallazgos.


Comments are closed.