Forbes Argentina
ILUSTRACIÓN DE ALEX CASTRO PARA FORBES
Innovacion

Internet no es suficiente para entrenar a la IA: por qué los datos falsos pueden ser la solución

Rashi Shrivastava

Share

Una nueva ola de startups se anticipa a la crisis existencial que enfrenta la industria de la IA: ¿qué sucede cuando nos quedamos sin datos?

25 Julio de 2024 11.33

En 2011, Marc Andreessen, cuya firma de capital de riesgo, Andreessen Horowitz, invirtió desde entonces en algunas de las mayores empresas emergentes de inteligencia artificial, escribió que “el software se está comiendo al mundo”. Más de una década después, eso es exactamente lo que está haciendo.

La inteligencia artificial, en particular los grandes modelos de lenguaje que la impulsan, es un consumidor voraz de datos. Pero esos datos son finitos y se están agotando. Las empresas extrajeron todo de sus entrañas en sus esfuerzos por entrenar a IA cada vez más poderosas: transcripciones y subtítulos de videos de YouTube, publicaciones públicas en Facebook e Instagram, libros y artículos de noticias con derechos de autor, a veces sin permiso, a veces con acuerdos de licencia.

ChatGPT de OpenAI, el chatbot que ayudó a popularizar la IA, ya fue entrenado en toda la Internet pública, aproximadamente 300 mil millones de palabras, incluidas todas las de Wikipedia y Reddit. En algún momento, no quedará nada. Los investigadores lo llaman “chocar contra el muro de los datos” y dicen que es probable que suceda tan pronto como en 2026.

Eso hace que la creación de más datos de entrenamiento de IA sea una pregunta de mil millones de dólares, una que un grupo emergente de empresas emergentes está buscando nuevas formas de responder.

Una posibilidad: crear datos artificiales.

Así es como Gretel, una startup de cinco años de antigüedad, aborda el problema de los datos de la IA. Crea lo que se conoce como “datos sintéticos”: datos generados por IA que imitan de cerca la información factual, pero que en realidad no son reales. Durante años, la startup, que ahora está valuada en 350 millones de dólares, proporcionó datos sintéticos a empresas que trabajan con información personal identificable que necesita ser protegida por razones de privacidad (por ejemplo, datos de pacientes). Pero ahora su director ejecutivo, Ali Golshan, ve una oportunidad de proporcionar a las empresas de IA, que carecen de datos, datos falsos creados desde cero, que pueden usar para entrenar sus modelos de IA.

“Los datos sintéticos fueron una gran opción”, dijo Golshan, ex analista de inteligencia, sobre el problema del muro de datos. “Resolvió dos caras de la misma moneda. Se podía hacer que los datos fueran de alta calidad y seguros”, agregó.

Inteligencia Artificial, IA
Otra forma de sortear el muro de los datos: las personas.

Este enfoque de “IA alimenta a IA” ya fue adoptado por Anthropic, Meta, Microsoft y Google, que utilizaron datos sintéticos de alguna manera para entrenar sus modelos. El mes pasado, Gretel anunció que pondría sus datos sintéticos a disposición de los clientes que utilicen Databricks, una plataforma de análisis de datos, para construir modelos de IA.

“Los datos basura seguros siguen siendo datos basura”.

Ali Golshan, director ejecutivo y cofundador de Gretel.

Pero los datos sintéticos tienen sus límites. Pueden exagerar los sesgos en un conjunto de datos original y no incluir valores atípicos, excepciones raras que solo se verían en datos reales. Eso podría empeorar aún más la tendencia de la IA a alucinar. O los modelos entrenados con datos falsos podrían simplemente no producir nada nuevo. Golshan llama a esto una "espiral de muerte", pero es más conocido como un "colapso del modelo". Exige que los nuevos clientes proporcionen a Gretel una gran cantidad de datos reales y de alta calidad para evitarlo. "Los datos seguros para basura siguen siendo datos basura", dijo Golshan a Forbes.

Otra forma de sortear el muro de los datos: las personas. Algunas empresas emergentes están contratando ejércitos de ellas para limpiar y etiquetar los datos existentes a fin de que sean más útiles para la IA o para crear más datos nuevos.

El peso pesado en el espacio del llamado “etiquetado de datos” es el gigante de 14 mil millones de dólares Scale AI, que proporciona datos anotados por humanos a las principales empresas emergentes de inteligencia artificial como OpenAI, Cohere y Character AI. La empresa tiene una operación gigantesca, que emplea a unos 200.000 trabajadores humanos en todo el mundo a través de una subsidiaria llamada Remotasks. Estos trabajadores hacen cosas como dibujar cuadros alrededor de objetos en una imagen o comparar diferentes respuestas a una pregunta y calificar cuál es más precisa.

En una escala aún mayor, Toloka, con sede en Ámsterdam, consiguió 9 millones de etiquetadores humanos o “tutores de IA” para fines similares. Apodados “Tolokers”, estos trabajadores autónomos de todo el mundo también anotan datos, como etiquetar información de identificación personal en un conjunto de datos para su uso en un proyecto comunitario de IA dirigido por Hugging Face y ServiceNow. Pero también crean datos desde cero: traducen la información a nuevos idiomas, la resumen en sinopsis y la transcriben de audio a texto.

“A nadie le gusta lidiar con operaciones humanas”.

Olga Megorskaya, directora general de Toloka.

Toloka también trabaja con expertos como doctores en física, científicos, abogados e ingenieros de software para crear datos originales específicos de cada dominio para modelos que se centran en tareas específicas. Por ejemplo, contrata a abogados de habla alemana para crear contenido que pueda incorporarse a los modelos de IA legales. Pero es mucho trabajo reunir a personas de 200 países, comprobar que su trabajo es preciso, auténtico e imparcial y traducir cualquier jerga académica a un lenguaje accesible y digerible para los modelos de IA.

“A nadie le gusta trabajar con operaciones humanas”, dijo a Forbes la directora ejecutiva de Toloka, Olga Megorskaya. “A todo el mundo le gusta crear modelos y negocios de IA, pero trabajar con seres humanos reales no es una habilidad muy común en la industria de la IA”, precisó.

Existen problemas laborales en toda la industria en torno a este tipo de trabajo. El año pasado, los trabajadores de Scale le contaron a Forbes sobre sus bajos salarios. Los trabajadores de Toloka contactados para este artículo tenían quejas similares. La directora ejecutiva de Toloka, Megorskaya, le dijo a Forbes que siente que la compensación es justa, y Scale AI también dijo que está comprometida a pagar a los trabajadores "un salario digno".

La solución más obvia al problema de la escasez de datos es quizás la más obvia: utilizar menos datos para empezar.

Si bien existe una necesidad urgente de datos de entrenamiento de IA para alimentar modelos masivos, algunos investigadores postulan que algún día la IA avanzada podría no necesitar tantos. Nestor Maslej, investigador del programa de Inteligencia Artificial Centrada en el Ser Humano de la Universidad de Stanford, cree que uno de los problemas reales aquí no es la cantidad, sino la eficiencia.

“No es necesario tomar un cohete para ir al supermercado”.

Alex Ratner, director ejecutivo y cofundador de Snorkel AI.

“Si lo pensás, estos grandes modelos del lenguaje, por impresionantes que sean, ven millones de veces más datos que los que cualquier ser humano vería en toda su vida. Sin embargo, los seres humanos pueden hacer algunas de las cosas que estos modelos no pueden”, dijo Maslej. “Desde cierta perspectiva, está claro que el cerebro humano funciona a un nivel de eficiencia que no necesariamente se refleja en estos modelos”, completó.

Ese avance técnico aún no se produjo, pero la industria de la IA ya está empezando a alejarse de los modelos masivos. En lugar de intentar crear grandes modelos de lenguaje que puedan competir con OpenAI o Anthropic, muchas empresas emergentes de IA están creando modelos más pequeños y específicos que requieren menos datos. El popular creador de modelos de IA de código abierto Mistral AI, por ejemplo, lanzó recientemente Mathstral, una IA diseñada para sobresalir en problemas matemáticos; es una fracción del tamaño del GPT-4 de OpenAI. Incluso OpenAI se está adentrando en el juego de los modelos en miniatura con el lanzamiento de GPT-4o mini.

“Estamos viendo esta carrera por el volumen y los grandes proveedores de modelos generalistas están absorbiendo más datos y probando esquemas para generar nuevos datos”, dijo Alex Ratner, director ejecutivo de la empresa de etiquetado de datos Snorkel AI. “La clave para que un modelo funcione realmente bien en una determinada tarea es la calidad y la especificidad de los datos, no el volumen”, sostuvo.

Como resultado, el enfoque de Snorkel es ayudar a las empresas a aprovechar los datos que ya tienen y convertirlos en oro para la capacitación en inteligencia artificial. La startup, que nació en el laboratorio de inteligencia artificial de Stanford y ahora está valuada en mil millones de dólares, ofrece software que facilita que el personal de una empresa etiquete los datos rápidamente.

De esa manera, los modelos de una empresa están diseñados específicamente para lo que realmente necesitan. “No es necesario tomar un cohete para ir al supermercado”, dijo.


*Con información de Forbes US.

10