El nuevo juego para armar bloques de lego tecnológicos es la inteligencia artificial. El avance es tan grande que es más importante entender cómo funciona cada bloque de la tecnología para ver cómo se pueden unir entre sí que las complejidades técnicas de cómo han sido construidos.
Por ejemplo, ponerse a entender cálculo tensorial es algo realmente fuera del alcance de la mayoría. Se trata de la rama del cálculo que utilizó Einstein para construir su Teoría General de la Relatividad. Mientras que en 1905 publicó su primera Teoria de la Relatividad, la conocida como especial, tardó cerca de 15 años en generalizarla. Y precisamente porque aunque desde el punto de vista físico el concepto era el mismo, salir del movimiento uniforme para incluir la acelaración y otras variables complejizo todo tanto que se necesitan Tensores. Y eso ya ni el mismo Einstein los conocía.
Por lo tanto conocer bien por dentro cómo es TensorFlow uno de los avances claves de Google para el desarrollo de la Inteligencia Artificial no es para cualquiera. Pero si una gran mayoría lo puede entender conceptualmente y entonces incluirlo dentro de sus programas.
La movida hacia la Inteligencia Artificial Generativa nació desde el software libre. Esto significa que los algoritmos son públicos y uno los puede incluir en sus programas. Por lo tanto hay varias carreras que se están dando en forma simultánea. Por un lado grandes empresas están desarrollando sus modelos de IA generativa para tener el mas competitivo, y por el otro programadores individuales están intentando entender qué hace cada uno de los bloque para ver cómo los puede mezclar.
En ese sentido el sitio Hugging Face es clave porque es donde se van publicando la gran mayoría de las innovaciones. El último gran dato es que Salesforce, una de las grandes empresas de la tecnología, se sumó a la carrera y publicó en el sitio un importante avance dentro de los LLMs o grandes modelos de lenguajes.
Se trata de 7B en XGen-7B LLM que puede representar 7 mil millones de parámetros. Cuanto mayor sea el número de parámetros, mayor será el modelo. Los modelos con parámetros más grandes, como 13 mil millones de tokens, requieren CPU, GPU, RAM y almacenamiento de alta gama. Pero un tamaño de modelo más grande ayuda a obtener una respuesta precisa, ya que está entrenado en corpus de datos mayores. Entonces, es un balance entre tamaño y precisión de forma tal que el costo computacional sea realizable.
Uno de los diferenciadores clave de XGen-7B es la ventana de contexto de 8K. Una ventana de contexto más grande se traduce en un aviso grande y la salida generada por el modelo. Esto significa que es posible enviar indicaciones con contexto adicional al modelo y obtener respuestas más largas. La ventana de contexto de 8K es el tamaño acumulativo del texto de entrada y salida.
Entendamos qué es un token. Dado que los modelos de aprendizaje automático entienden números y no caracteres, cada palabra o parte de ella se convierte en un token. Un token es una forma de codificar texto, como ASCII o Unicode. Para convertir palabras en tokens, XGen-7B utiliza el sistema de tokenización OpenAI que se usa con sus modelos populares, como GPT-3 y GPT-4.
XGen-7B se convierte en una alternativa a los LLM de código abierto como MPT, Falcon y LLaMa. Salesforce afirma que su LLM logra resultados comparables o mejores que los modelos lingüísticos actuales de tamaño similar. Si uno quiere trabajar con este modelo puede ingresar a Hugging Face y descargarlo aquí.
Salesforce lanza tres variantes del XGen-7B. El primero, XGen-7B-4K-base, admite una ventana de contexto de 4K, mientras que la segunda variante, XGen-7B-8K-base, se entrena con datos adicionales compatibles con una longitud de contexto de 8K. Ambas variantes se publican bajo la licencia de código abierto Apache 2.0, que permite el uso comercial.
La tercera variante, XGen-7B-{4K,8K}-inst, está entrenada en datos instructivos, incluidos databricks-dolly-15k, oasst1, Baize y conjuntos de datos relacionados con GPT, que están disponibles solo con fines de investigación. La palabra clave de instrucción en el nombre indica que el modelo puede comprender las instrucciones y ha sido entrenado en base a las técnicas de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Se puede usar un modelo de lenguaje basado en instrucciones para construir chatbots similares a ChatGPT.
Salesforce utilizó varios conjuntos de datos, como RedPajama y Wikipedia, y el propio conjunto de datos de Salesforce, Starcoder, para entrenar el LLM XGen-7B. Según los precios de Google Cloud para TPU-v4, el costo de capacitación del modelo es de USD 150 000 en tokens de 1 T. El modelo está entrenado en 22 idiomas diferentes para que sea multilingüe.
El XGen-7B de Salesforce es compatible con Massive Multitask Language Understanding, que es la capacidad de responder preguntas de opción múltiple de varias ramas del conocimiento, como humanidades, STEM, ciencias sociales y otros dominios. El XGen-7B puntúa mejor que otros modelos en esta categoría.
El modelo XGen-7B también funciona bien en otras categorías, como conversaciones, preguntas y respuestas largas y resúmenes. Además mostraron como se compara su LLM contra otras opciones del mercado en un gran abanico que categorías lo cual puede consultarse aquí.
Salesforce también agregó un descargo de responsabilidad que indica que su LLM está sujeto a las mismas limitaciones que otros LLM, como sesgo, toxicidad y alucinaciones.
Con una ventana de contexto más grande y un conjunto integral de conjuntos de datos utilizados para la capacitación, el LLM XGen-7B de Salesforce parece prometedor.
*Con información de Forbes US