Datos de calidad: el verdadero motor de la IA

A diario encontramos artículos relacionados con los avances de tecnologías como Inteligencia Artificial y Machine Learning (que no es más que una especialización de la primera) y la revolución que plantean en diversos ámbitos. Modelos de IA, como Dall-E o ChatGPT, han emergido de los ámbitos “techie” por su facilidad de acceso y han sido probados por personas de todo el mundo sin ningún prerrequisito de conocimiento tecnológico.

Estos modelos permiten -entre otras cosas- realizar tareas repetitivas de mucha complejidad con un alto grado de precisión, por ejemplo, la traducción de textos, la generación de contenido o, incluso, el análisis diagnóstico de imágenes médicas.

Se trata de modelos basados en ciertos algoritmos de programación, los cuáles se “entrenan” de forma similar al cerebro humano: mediante la exposición repetida a información que le permite a dichos algoritmos encontrar patrones o tendencias en los datos.

A modo de ejemplo, es sabido que, de niños, somos incapaces de identificar qué es un perro, pero a medida que nuestros padres y entorno nos “entrena”, nuestro cerebro aprende y logramos reconocerlos, aun cuando sean de diferentes razas, colores y tamaños o, incluso, dibujados. En definitiva, esto es similar a lo que ocurre cuando se entrena a un modelo de Machine Learning, con la diferencia de que las computadoras necesitan cantidades masivas de información para alcanzar precisiones útiles.

Ahora imaginemos qué sucedería si durante nuestro entrenamiento de niños nadie nos hubiera enseñado que un lobo es distinto de un perro. En ese caso, seríamos incapaces de determinar por nosotros mismos las diferencias entre ellos y clasificarlos adecuadamente. Lo mismo sucede con la tecnología: la información es la materia prima de la que se alimentan los modelos de IA y ML, y la calidad del resultado obtenido está directamente relacionada a la calidad de la información con la que el modelo fue entrenado.

Sí, la calidad de los datos no es una problemática nueva y está presente desde el inicio del desarrollo de las tecnologías de información, pero se amplifica enormemente para tecnologías como IA y ML

Mira también

Estas son las empresas que trabajan con el Pentágono en la guerra cuántica

Cuántas horas pasan los argentinos con el celular y qué lugar ocupa el país en el mundo

¿Por qué? Porque es mucho más complejo obtener datos de calidad que permitan entrenar correctamente a estos modelos. Las razones son diversas, por un lado, el set de datos debe ser masivo, de forma tal que expongamos al modelo a una cantidad de ejemplos suficiente que le permita alcanzar una precisión aceptable; también debe ser representativo de la realidad minimizando el sesgo. Y, por último, los datos incorrectos o incompletos deben ser eliminados antes de entrenar al modelo para no inyectar ruido en el mismo que derive en resultados erróneos.

Mira también

La técnica con la que Guardiola maneja las crisis

Un estudio revela qué tan inteligentes son las personas más ricas

Por otra parte, también existen implicancias sociales y éticas cuando los datos están relacionados a las personas, como por ejemplo, la privacidad, sensibilidad y seguridad de la información. Los posibles sesgos derivados de aspectos culturales, étnicos o de desigualdad digital (no todos los grupos sociales tienen el mismo acceso a la tecnología) podrían arrojar resultados incorrectos o peor aún, injustos.

Mira también

Así fue como el Banco Patagonia se convirtió en el máximo colocador de fideicomisos del mercado local

Qué hay detrás de este gran momento de Uber y qué ocurrirá con sus acciones

ChatGPT, OpenAI, inteligencia artificial

Es una verdad sabida que los modelos no son capaces de determinar sesgos de ningún tipo, por lo que si la información de entrada los presenta, inevitablemente lo hará el resultado obtenido.

La tecnología está madura y disponible (la usamos a diario, aún sin saberlo) y sigue una evolución vertiginosa. Por otra parte, las capacidades de cómputo, almacenamiento y transporte de datos seguirán creciendo, lo que habilita a una generación de modelos cada vez más complejos y precisos, pero también más demandantes de información.

Por último, desde un punto de vista meramente teórico, los datos simplemente están ahí. Existen desde el nacimiento del universo. El desafío que tiene la industria es capturarlos, analizarlos, curarlos y prepararlos para transformarlos en información que pueda ser utilizada para seguir entrenando modelos cada vez más complejos y demandantes, pero sin dejar de atender los aspectos de calidad, gobierno y sociales que permitan soluciones tecnológicas responsables y sustentables en el tiempo.

Somos protagonistas del apogeo de la revolución digital y, análogamente a lo ocurrido en la revolución industrial, donde el petróleo se transformó en el combustible que apalancó el desarrollo de la industria y transporte que caracterizó ese proceso, podemos afirmar que la información es el activo crítico que nutre la tecnología de nuestro siglo.

Aunque existe una diferencia sustancial y motivadora entre ambas: en nuestra revolución digital, la información y la tecnología están al alcance de todos.

*La columna fue escrita por Fernando Sclavo, Enterprise Architect de Ingenia.

Datos de calidad: el verdadero motor de la IA

Estas son las empresas que trabajan con el Pentágono en la guerra cuántica

Cuántas horas pasan los argentinos con el celular y qué lugar ocupa el país en el mundo

La técnica con la que Guardiola maneja las crisis

Un estudio revela qué tan inteligentes son las personas más ricas

Así fue como el Banco Patagonia se convirtió en el máximo colocador de fideicomisos del mercado local

Qué hay detrás de este gran momento de Uber y qué ocurrirá con sus acciones

Tags

Tras la quiebra en el mundo, Tupperware seguirá con su operación en Argentina: quién es su nuevo dueño y cómo se gestó el negocio

El nuevo emprendimiento de Rodrigo De Paul y sus socios: la bebida energética Sh! proyecta facturar US$ 6 millones en el primer año

Crearon un "Airbnb para eventos" con el que proyectan facturar US$ 50 millones en 2026

Quiénes son los seis argentinos más ricos del mundo, según el último ranking global de Forbes 2025

Quién es Delfín Jorge Carballo, el empresario argentino que vuelve al ranking global de Forbes tras 7 años

Más noticias

La necesidad de quitar las capas de la cebolla y eliminar la sobrecarga a las empresas