Datos de calidad: el verdadero motor de la IA

A diario encontramos artículos relacionados con los avances de tecnologías como Inteligencia Artificial y Machine Learning (que no es más que una especialización de la primera) y la revolución que plantean en diversos ámbitos. Modelos de IA, como Dall-E o ChatGPT, han emergido de los ámbitos “techie” por su facilidad de acceso y han sido probados por personas de todo el mundo sin ningún prerrequisito de conocimiento tecnológico.

Estos modelos permiten -entre otras cosas- realizar tareas repetitivas de mucha complejidad con un alto grado de precisión, por ejemplo, la traducción de textos, la generación de contenido o, incluso, el análisis diagnóstico de imágenes médicas.

Se trata de modelos basados en ciertos algoritmos de programación, los cuáles se “entrenan” de forma similar al cerebro humano: mediante la exposición repetida a información que le permite a dichos algoritmos encontrar patrones o tendencias en los datos. 

A modo de ejemplo, es sabido que, de niños, somos incapaces de identificar qué es un perro, pero a medida que nuestros padres y entorno nos “entrena”, nuestro cerebro aprende y logramos reconocerlos, aun cuando sean de diferentes razas, colores y tamaños o, incluso, dibujados. En definitiva, esto es similar a lo que ocurre cuando se entrena a un modelo de Machine Learning, con la diferencia de que las computadoras necesitan cantidades masivas de información para alcanzar precisiones útiles.

 

Ahora imaginemos qué sucedería si durante nuestro entrenamiento de niños nadie nos hubiera enseñado que un lobo es distinto de un perro. En ese caso, seríamos incapaces de determinar por nosotros mismos las diferencias entre ellos y clasificarlos adecuadamente. Lo mismo sucede con la tecnología: la información es la materia prima de la que se alimentan los modelos de IA y ML, y la calidad del resultado obtenido está directamente relacionada a la calidad de la información con la que el modelo fue entrenado.

Sí, la calidad de los datos no es una problemática nueva y está presente desde el inicio del desarrollo de las tecnologías de información, pero se amplifica enormemente para tecnologías como IA y ML 

¿Por qué? Porque es mucho más complejo obtener datos de calidad que permitan entrenar correctamente a estos modelos. Las razones son diversas, por un lado, el set de datos debe ser masivo, de forma tal que expongamos al modelo a una cantidad de ejemplos suficiente que le permita alcanzar una precisión aceptable; también debe ser representativo de la realidad minimizando el sesgo. Y, por último, los datos incorrectos o incompletos deben ser eliminados antes de entrenar al modelo para no inyectar ruido en el mismo que derive en resultados erróneos.

Por otra parte, también existen implicancias sociales y éticas cuando los datos están relacionados a las personas, como por ejemplo, la privacidad, sensibilidad y seguridad de la información. Los posibles sesgos derivados de aspectos culturales, étnicos o de desigualdad digital (no todos los grupos sociales tienen el mismo acceso a la tecnología) podrían arrojar resultados incorrectos o peor aún, injustos

 

Es una verdad sabida que los modelos no son capaces de determinar sesgos de ningún tipo, por lo que si la información de entrada los presenta, inevitablemente lo hará el resultado obtenido.

La tecnología está madura y disponible (la usamos a diario, aún sin saberlo) y sigue una evolución vertiginosa. Por otra parte, las capacidades de cómputo, almacenamiento y transporte de datos seguirán creciendo, lo que habilita a una generación de modelos cada vez más complejos y precisos, pero también más demandantes de información

Por último, desde un punto de vista meramente teórico, los datos simplemente están ahí. Existen desde el nacimiento del universo. El desafío que tiene la industria es capturarlos, analizarlos, curarlos y prepararlos para transformarlos en información que pueda ser utilizada para seguir entrenando modelos cada vez más complejos y demandantes, pero sin dejar de atender los aspectos de calidad, gobierno y sociales que permitan soluciones tecnológicas responsables y sustentables en el tiempo.

Somos protagonistas del apogeo de la revolución digital y, análogamente a lo ocurrido en la revolución industrial, donde el petróleo se transformó en el combustible que apalancó el desarrollo de la industria y transporte que caracterizó ese proceso, podemos afirmar que la información es el activo crítico que nutre la tecnología de nuestro siglo.

Aunque existe una diferencia sustancial y motivadora entre ambas: en nuestra revolución digital, la información y la tecnología están al alcance de todos.

 

*La columna fue escrita por Fernando Sclavo, Enterprise Architect de Ingenia.