La capacidad de distinguir y reconocer lo que es real de lo que es generado por IA en imágenes, videos, audios y contenidos escritos cobra cada vez más relevancia. Los modelos de lenguaje avanzados, capaces de producir múltiples tipos de contenido digital, se vuelven cada vez más difíciles de identificar.
Este mes, Google anunció la prueba beta de su tecnología de marca de agua SynthID, que inserta una marca digital, invisible al ojo humano, en cualquier tipo de contenido generado con sus modelos de IA Gemini. Este kit de herramientas no solo etiqueta el contenido, sino que también permite identificar si parte de él fue producido con esta tecnología al escanearlo para comprobar su autenticidad.
¿Cómo funciona el sistema de marcas de agua de SynthID?
La edición de octubre de 2024 de la revista Nature presenta un análisis técnico detallado sobre el funcionamiento del sistema de marca de agua. De manera simplificada, cuando un modelo de lenguaje grande (LLM) responde a una consulta o solicitud de un usuario, el modelo predice cuál es el "mejor resultado" para satisfacer la solicitud.
Mientras el modelo genera la respuesta carácter por carácter, la herramienta SynthID asigna instantáneamente un valor de probabilidad invisible a cada palabra potencial que el modelo puede elegir. Por ejemplo, si le pedís al modelo que complete la frase "Tengo una mascota ___", la palabra "perro" tendría un valor de probabilidad alto, quizás de 0,9, mientras que "lagarto de gila" tendría un valor mucho menor, alrededor de 0,01. Este proceso predictivo continúa hasta que se cumplen los requisitos de la consulta original.
"El patrón final de puntuaciones de las elecciones de palabras del modelo, combinado con los valores de probabilidad ajustados, forma la marca de agua. Esta técnica puede usarse en tan solo tres oraciones. Y a medida que el texto aumenta en longitud, la precisión y robustez de SynthID también sube", según una publicación de la empresa en su blog sobre el tema.
La empresa también señaló que esta tecnología ahora está disponible de forma gratuita para que los desarrolladores la integren en sus propios modelos de lenguaje generativo de IA. "También la lanzamos como código abierto a través de Google Responsible Generative AI Toolkit, que da orientación y herramientas esenciales para crear aplicaciones de IA más seguras. Colaboramos con Hugging Face para hacer que la tecnología esté disponible en su plataforma, de modo que los desarrolladores puedan trabajar con ella e incorporarla en sus modelos", indicó Google.
La necesidad de herramientas como SynthID
Peter Slattery, Ph.D., investigador destacado en el campo de los riesgos de IA del MIT FutureTech, destacó en un intercambio de correos electrónicos la importancia crítica de esta tecnología. "Necesitamos con urgencia tecnologías como SynthID para proteger la integridad de la información en línea y resguardar nuestro ecosistema de comunicación. Sabemos, a partir del repositorio de riesgos de IA del MIT y rastreadores de incidentes, que el uso indebido de contenido generado por IA para desinformación y deepfakes está ampliamente documentado y es cada vez más común, por lo que esta tecnología parece una medida de mitigación esencial", expresó.
SynthID no es una solución definitiva para el contenido de IA
Sin embargo, Slattery señaló que al menos un estudio mostró que los investigadores lograron manipular o sustraer un patrón de marca de agua digital similar al de SynthID. "Creo que debemos ser muy cautelosos para asegurar que las marcas de agua sean robustas contra manipulaciones y que no se generen escenarios en los que puedan falsificarse. La capacidad de falsificar marcas de agua podría empeorar la situación en lugar de mejorarla, ya que ofrecería una ilusión de credibilidad", explicó.
Los investigadores de Google en el estudio publicado por Nature reconocieron que, a pesar de las fuertes capacidades de detección de SynthID, no es una solución completa. "Otra limitación de las marcas de agua generativas es su vulnerabilidad a ataques de falsificación, suplantación y eliminación, un área de investigación en curso. En particular, las marcas generativas se debilitan con ediciones en el texto, como el parafraseo a través de modelos de lenguaje, aunque esto suele cambiar significativamente el contenido", señalaron en el estudio.
*Con información de Forbes US.