Los grandes modelos de lenguaje como GPT-4 conquistaron el mundo gracias a su asombroso dominio del lenguaje natural. Sin embargo, la oportunidad a largo plazo más significativa para los LLM (modelos de lenguaje extendidos a partir de diversos parámetros) implicará un tipo de lenguaje completamente diferente: el lenguaje de la biología.
Un tema sorprendente ha surgido de la larga marcha del progreso de la investigación en bioquímica, biología molecular y genética durante el siglo pasado: resulta que la biología es un sistema descifrable, programable y, en cierto modo, incluso digital .
El ADN codifica las instrucciones genéticas completas para cada organismo vivo en la tierra utilizando solo cuatro variables: A (adenina), C (citosina), G (guanina) y T (timina). Compare esto con los sistemas informáticos modernos, que utilizan dos variables, 0 y 1, para codificar toda la información electrónica digital del mundo. Un sistema es binario y el otro es cuaternario, pero los dos tienen una sorprendente cantidad de superposición conceptual; ambos sistemas pueden considerarse como digitales.
Para tomar otro ejemplo, cada proteína en cada ser vivo consiste y está definida por una cadena unidimensional de aminoácidos unidos entre sí en un orden particular. Las proteínas varían de unas pocas docenas a varios miles de aminoácidos de longitud, con 20 aminoácidos diferentes para elegir.
Esto, también, representa un sistema eminentemente computable, uno que los modelos de lenguaje están bien preparados para aprender.
Como dice el CEO y cofundador de DeepMind, Demis Hassabis: "En su nivel más fundamental, creo que la biología puede considerarse como un sistema de procesamiento de información, aunque extraordinariamente complejo y dinámico. Así como las matemáticas resultaron ser el lenguaje de descripción correcto para la física, la biología puede resultar ser el tipo de régimen perfecto para la aplicación de la IA".
Los grandes modelos de lenguaje son más poderosos cuando pueden alimentarse con grandes volúmenes de datos ricos en señales, infiriendo patrones latentes y estructuras profundas que van mucho más allá de la capacidad de absorción de cualquier ser humano. Luego, pueden usar esta comprensión compleja del tema para generar resultados novedosos y sorprendentemente sofisticados.
Al ingerir todo el texto en Internet, por ejemplo, herramientas como ChatGPT han aprendido a conversar con moderación y matices sobre cualquier tema imaginable. Al incorporar miles de millones de imágenes, los modelos de texto a imagen como Midjourney aprendieron a producir imágenes creativas originales bajo demanda.
Señalar grandes modelos de lenguaje a datos biológicos, permitiéndoles aprender el lenguaje de la vida, desbloqueará posibilidades que harán que el lenguaje natural y las imágenes parezcan casi triviales en comparación.
¿Cómo será esto concretamente? A corto plazo, la oportunidad más atractiva para aplicar modelos de lenguaje extenso en las ciencias de la vida es diseñar proteínas novedosas.
Proteínas 101
Las proteínas están en el centro de la vida misma. Como afirma el destacado biólogo Arthur Lesk : "En el drama de la vida a escala molecular, las proteínas están donde está la acción".
Las proteínas están involucradas en prácticamente todas las actividades importantes que ocurren dentro de cada ser vivo: digerir alimentos, contraer músculos, mover oxígeno por todo el cuerpo, atacar virus extraños. Tus hormonas están hechas de proteínas; así es tu cabello.
Las proteínas son tan importantes porque son muy versátiles. Son capaces de llevar a cabo una amplia gama de estructuras y funciones diferentes, mucho más que cualquier otro tipo de biomolécula. Esta increíble versatilidad es una consecuencia directa de cómo se construyen las proteínas.
Como se mencionó anteriormente, cada proteína consta de una serie de bloques de construcción conocidos como aminoácidos unidos en un orden particular. Sobre la base de esta secuencia de aminoácidos unidimensional, las proteínas se pliegan en formas tridimensionales complejas que les permiten llevar a cabo sus funciones biológicas.
La forma de una proteína se relaciona estrechamente con su función. Para tomar un ejemplo, las proteínas de los anticuerpos se pliegan en formas que les permiten identificar y apuntar con precisión a cuerpos extraños, como una llave que encaja en una cerradura . Como otro ejemplo, las enzimas, proteínas que aceleran las reacciones bioquímicas, tienen una forma específica para unirse a moléculas particulares y, por lo tanto, catalizar reacciones particulares. Por lo tanto, comprender las formas en que se pliegan las proteínas es esencial para comprender cómo funcionan los organismos y, en última instancia, cómo funciona la vida misma.
Determinar la estructura tridimensional de una proteína basada únicamente en su secuencia de aminoácidos unidimensional ha sido un gran desafío en el campo de la biología durante más de medio siglo. Conocido como el "problema del plegamiento de proteínas", ha dejado perplejos a generaciones de científicos. Un comentarista en 2007 describió el problema del plegamiento de proteínas como "uno de los problemas más importantes aún sin resolver de la ciencia moderna".
Aprendizaje Profundo y Proteínas: Una Combinación Hecha en el Cielo
A fines de 2020, en un momento decisivo tanto en biología como en computación, un sistema de IA llamado AlphaFold produjo una solución al problema del plegamiento de proteínas. Construido por DeepMind de Alphabet, AlphaFold predijo correctamente las formas tridimensionales de las proteínas dentro del ancho de aproximadamente un átomo, superando con creces cualquier otro método que los humanos hayan ideado.
Es difícil exagerar la importancia de AlphaFold. John Moult, experto en plegamiento de proteínas desde hace mucho tiempo, lo resume bien: "Esta es la primera vez que la IA resuelve un problema científico serio".
Sin embargo, cuando se trata de IA y proteínas, AlphaFold fue solo el comienzo.
AlphaFold no se creó utilizando modelos de lenguaje grandes. Se basa en una construcción bioinformática más antigua llamada alineación de secuencia múltiple (MSA), en la que la secuencia de una proteína se compara con proteínas evolutivamente similares para deducir su estructura.
MSA puede ser poderoso, como dejó en claro AlphaFold, pero tiene limitaciones.
Por un lado, es lento y requiere mucho cálculo porque necesita hacer referencia a muchas secuencias de proteínas diferentes para determinar la estructura de cualquier proteína. Más importante aún, debido a que MSA requiere la existencia de numerosas proteínas evolutivamente y estructuralmente similares para razonar sobre una nueva secuencia de proteínas, tiene un uso limitado para las llamadas "proteínas huérfanas" , proteínas con pocos o ningún análogo cercano. Tales proteínas huérfanas representan aproximadamente el 20% de todas las secuencias de proteínas conocidas.
Recientemente, los investigadores comenzaron a explorar un enfoque alternativo intrigante: el uso de modelos de lenguaje grandes, en lugar de la alineación de secuencias múltiples, para predecir estructuras de proteínas.
Los "modelos de lenguaje de proteínas" (LLM entrenados no en palabras en inglés sino en secuencias de proteínas) demuestran una capacidad asombrosa para intuir los patrones complejos y las interrelaciones entre la secuencia, la estructura y la función de las proteínas: por ejemplo, cómo cambian ciertos aminoácidos en ciertas partes de un la secuencia de la proteína afectará la forma en que se pliega la proteína. Los modelos de lenguaje de proteínas pueden, por así decirlo, aprender la gramática o la lingüística de las proteínas .
La idea de un modelo de lenguaje de proteínas se remonta al trabajo de UniRep de 2019 en el laboratorio de George Church en Harvard (aunque UniRep usó LSTM en lugar de los modelos de transformadores de última generación).
A fines de 2022, Meta presentó ESM-2 y ESMFold, uno de los modelos de lenguaje de proteínas más grandes y sofisticados publicados hasta la fecha, con un peso de 15 mil millones de parámetros. (ESM-2 es el LLM en sí; ESMFold es su herramienta de predicción de estructura asociada).
ESM-2/ESMFold es tan preciso como AlphaFold para predecir las estructuras tridimensionales de las proteínas. Pero a diferencia de AlphaFold, es capaz de generar una estructura basada en una sola secuencia de proteína, sin requerir ninguna información estructural como entrada. Como resultado, es hasta 60 veces más rápido que AlphaFold. Cuando los investigadores buscan examinar millones de secuencias de proteínas a la vez en un flujo de trabajo de ingeniería de proteínas, esta ventaja de velocidad marca una gran diferencia. ESMFold también puede producir predicciones de estructura más precisas que AlphaFold para proteínas huérfanas que carecen de análogos evolutivamente similares.
La capacidad de los modelos de lenguaje para desarrollar una comprensión generalizada del "espacio latente" de las proteínas abre interesantes posibilidades en la ciencia de las proteínas.
Pero un avance conceptual aún más poderoso tuvo lugar en los años posteriores a AlphaFold.
En resumen, estos modelos de proteínas abren una nueva frontera: en lugar de predecir la estructura de una proteína en función de su secuencia, los modelos como ESM-2 se pueden invertir y utilizar para generar secuencias de proteínas totalmente nuevas que no existen en la naturaleza en función de las propiedades deseadas.
Inventar nuevas proteínas
Todas las proteínas que existen hoy en el mundo representan una fracción infinitesimalmente diminuta de todas las proteínas que teóricamente podrían existir. Aquí está la oportunidad.
Para dar algunos números aproximados: el conjunto total de proteínas que existen en el cuerpo humano, el llamado "proteoma humano", se estima en algún lugar entre 80,000 y 400,000 proteínas. Mientras tanto, la cantidad de proteínas que teóricamente podrían existir está en la vecindad de 10^1,300, una cantidad inconmensurablemente grande, muchas veces mayor que la cantidad de átomos en el universo. (Para ser claros, no todas estas 10^1,300 posibles combinaciones de aminoácidos darían como resultado proteínas biológicamente viables. Lejos de eso. Pero algún subconjunto sí lo haría).
Durante muchos millones de años, el serpenteante proceso de evolución ha tropezado con decenas o cientos de miles de estas combinaciones viables. Pero esto es simplemente la punta del iceberg.
En palabras de Molly Gibson, cofundadora de Generate Biomedicines, empresa líder en IA de proteínas: "La cantidad de espacio de secuencia que la naturaleza ha muestreado a lo largo de la historia de la vida equivaldría a casi una gota de agua en todos los océanos de la Tierra".
Existe una oportunidad para nosotros de mejorar la naturaleza. Después de todo, por muy poderosa que sea una fuerza, la evolución por selección natural no lo ve todo; no planifica con anticipación; no razona ni optimiza de arriba hacia abajo. Se desarrolla al azar y de manera oportunista, propagando combinaciones que resultan funcionar.
Usando IA, podemos por primera vez explorar sistemática y exhaustivamente los vastos reinos desconocidos del espacio de las proteínas para diseñar proteínas diferentes a todo lo que haya existido en la naturaleza, diseñadas específicamente para nuestras necesidades médicas y comerciales.
Podremos diseñar nuevas terapias de proteínas para abordar la gama completa de enfermedades humanas, desde el cáncer hasta las enfermedades autoinmunes, desde la diabetes hasta los trastornos neurodegenerativos. Mirando más allá de la medicina, podremos crear nuevas clases de proteínas con aplicaciones transformadoras en agricultura, industria, ciencia de materiales, remediación ambiental y más.
Algunos de los primeros esfuerzos para usar el aprendizaje profundo para el diseño de proteínas de novo no han hecho uso de grandes modelos de lenguaje.
Un ejemplo destacado es ProteinMPNN , que salió del laboratorio de renombre mundial de David Baker en la Universidad de Washington. En lugar de usar LLM, la arquitectura ProteinMPNN se basa en gran medida en los datos de la estructura de la proteína para generar nuevas proteínas.
El laboratorio de Baker publicó más recientemente RFdiffusion , un modelo de diseño de proteínas más avanzado y generalizado. Como sugiere su nombre, RFdiffusion se construye utilizando modelos de difusión, la misma técnica de IA que impulsa modelos de texto a imagen como Midjourney y Stable Diffusion. RFdiffusion puede generar "columnas vertebrales" de proteínas novedosas y personalizables, es decir, los andamios estructurales generales de las proteínas, sobre los cuales las secuencias se pueden colocar en capas.
Los modelos centrados en la estructura como ProteinMPNN y RFdiffusion son logros impresionantes que han avanzado en el diseño de proteínas basado en IA. Sin embargo, podemos estar en la cúspide de un nuevo cambio radical en el campo, gracias a las capacidades transformadoras de los grandes modelos de lenguaje.
¿Por qué los modelos de lenguaje son un camino tan prometedor en comparación con otros enfoques computacionales para el diseño de proteínas? Una razón clave: escalar.
Leyes de escala
Una de las fuerzas clave detrás del espectacular progreso reciente en inteligencia artificial son las llamadas "leyes de escala": el hecho de que las mejoras casi increíbles en el rendimiento son el resultado de aumentos continuos en el recuento de parámetros LLM, datos de entrenamiento y cómputo.
En cada aumento de escala de un orden de magnitud, los modelos de lenguaje han demostrado nuevas capacidades emergentes sorprendentes e inesperadas que trascienden lo que era posible en escalas más pequeñas.
Es el compromiso de OpenAI con el principio de escalabilidad, más que cualquier otra cosa, lo que ha catapultado a la organización a la vanguardia del campo de la inteligencia artificial en los últimos años. A medida que pasaron de GPT-2 a GPT-3 a GPT-4 y más allá, OpenAI ha creado modelos más grandes, implementado más cómputo y capacitado en conjuntos de datos más grandes que cualquier otro grupo en el mundo, desbloqueando capacidades de IA sorprendentes y sin precedentes.
¿Qué importancia tienen las leyes de escala en el ámbito de las proteínas?
Gracias a los avances científicos que hicieron que la secuenciación de genes sea mucho más barata y accesible en las últimas dos décadas, la cantidad de datos de secuencias de ADN y, por lo tanto, de proteínas disponibles para entrenar modelos de IA está creciendo exponencialmente, superando con creces los datos de estructura de proteínas.
Los datos de secuencias de proteínas pueden tokenizarse y, para todos los efectos, tratarse como datos textuales; después de todo, consiste en cadenas lineales de aminoácidos en un cierto orden, como palabras en una oración. Los modelos de lenguaje grande se pueden entrenar únicamente en secuencias de proteínas para desarrollar una comprensión matizada de la estructura y la biología de las proteínas.
Por lo tanto, este dominio está maduro para esfuerzos de escalamiento masivo impulsados por LLM, esfuerzos que pueden resultar en sorprendentes conocimientos y capacidades emergentes en la ciencia de las proteínas.
El primer trabajo que utilizó LLM basados en transformadores para diseñar proteínas de novo fue ProGen , publicado por Salesforce Research en 2020. El modelo ProGen original tenía 1200 millones de parámetros.
Ali Madani, el investigador principal de ProGen, desde entonces ha fundado una startup llamada Profluent Bio para avanzar y comercializar lo último en diseño de proteínas impulsado por LLM.
Si bien fue pionero en el uso de LLM para el diseño de proteínas, Madani también tiene los ojos claros sobre el hecho de que, por sí mismos, los modelos de lenguaje listos para usar entrenados en secuencias de proteínas sin procesar no son la forma más poderosa de abordar este desafío. La incorporación de datos estructurales y funcionales es fundamental.
"Los mayores avances en el diseño de proteínas estarán en la intersección de una cuidadosa selección de datos de diversas fuentes y un modelo versátil que pueda aprender de esos datos de manera flexible", dice Madani. "Esto implica hacer uso de todos los datos de alta señal a nuestra disposición, incluidas las estructuras de proteínas y la información funcional derivada del laboratorio".
Otra intrigante puesta en marcha en etapa inicial que aplica LLM para diseñar nuevas terapias de proteínas es Nabla Bio. Surgido del laboratorio de George Church en Harvard y dirigido por el equipo detrás de UniRep, Nabla se centra específicamente en los anticuerpos. Dado que el 60% de todas las proteínas terapéuticas actuales son anticuerpos y que los dos medicamentos más vendidos en el mundo son terapias de anticuerpos, no es una elección sorprendente.
Nabla decidió no desarrollar sus propias terapias, sino ofrecer su tecnología de punta a los socios biofarmacéuticos como una herramienta para ayudarlos a desarrollar sus propios medicamentos.
Espere ver mucha más actividad de inicio en esta área en los próximos meses y años a medida que el mundo se dé cuenta del hecho de que el diseño de proteínas representa un campo enorme y aún poco explorado para aplicar las capacidades aparentemente mágicas de los modelos de lenguaje grande.
El camino por delante
En su discurso de aceptación del Premio Nobel de Química 2018, Frances Arnold dijo : "Hoy podemos, a todos los efectos prácticos, leer, escribir y editar cualquier secuencia de ADN, pero no podemos componerla . El código de la vida es una sinfonía que guía partes intrincadas y hermosas interpretadas por un número incalculable de intérpretes e instrumentos. Tal vez podamos cortar y pegar piezas de las composiciones de la naturaleza, pero no sabemos cómo escribir los compases de un solo pasaje enzimático".
Tan recientemente como hace cinco años, esto era cierto.
Pero la IA puede darnos la capacidad, por primera vez en la historia de la vida, de componer proteínas completamente nuevas (y su código genético asociado) desde cero, diseñadas específicamente para nuestras necesidades. Es una posibilidad impresionante.
Estas nuevas proteínas servirán como terapias para una amplia gama de enfermedades humanas, desde enfermedades infecciosas hasta cáncer; ayudarán a que la edición de genes sea una realidad; transformarán la ciencia de los materiales; mejorarán los rendimientos agrícolas; neutralizarán los contaminantes en el medio ambiente; y mucho más que aún no podemos ni imaginar.
El campo del diseño de proteínas impulsado por IA, y especialmente impulsado por LLM, aún es incipiente y no probado. Quedan importantes obstáculos científicos, de ingeniería, clínicos y comerciales. Llevar estas nuevas terapias y productos al mercado llevará años.
Sin embargo, a largo plazo, pocas aplicaciones de mercado de la IA son más prometedoras.
En artículos futuros, profundizaremos en los LLM para el diseño de proteínas, incluida la exploración de las aplicaciones comerciales más convincentes para la tecnología, así como la complicada relación entre los resultados computacionales y los experimentos de laboratorio húmedo del mundo real.
Terminemos alejando el zoom. El diseño de proteínas de novo no es la única oportunidad emocionante para modelos de lenguaje grandes en las ciencias de la vida.
Los modelos de lenguaje se pueden utilizar para generar otras clases de biomoléculas, en particular, ácidos nucleicos. Por ejemplo, una startup de moda llamada Inceptive está aplicando LLM para generar nuevas terapias de ARN.
Otros grupos tienen aspiraciones aún más amplias, con el objetivo de construir "modelos básicos para la biología" generalizados que puedan fusionar diversos tipos de datos que abarcan genómica, secuencias de proteínas, estructuras celulares, estados epigenéticos, imágenes celulares, espectrometría de masas, transcriptómica espacial y más.
El objetivo final es ir más allá del modelado de una molécula individual como una proteína para modelar las interacciones de las proteínas con otras moléculas, luego modelar células completas, luego tejidos, luego órganos y, finalmente, organismos completos.
La idea de construir un sistema de inteligencia artificial que pueda comprender y diseñar cada detalle intrincado de un sistema biológico complejo es alucinante. Con el tiempo, esto estará a nuestro alcance.
El siglo XX estuvo definido por avances fundamentales en física: desde la teoría de la relatividad de Albert Einstein hasta el descubrimiento de la mecánica cuántica, desde la bomba nuclear hasta el transistor. Como han señalado muchos observadores modernos, el siglo XXI se perfila como el siglo de la biología. La inteligencia artificial y los grandes modelos de lenguaje desempeñarán un papel central en el desbloqueo de los secretos de la biología y la liberación de sus posibilidades en las próximas décadas.
Esto recién comienza, abróchese el cinturón de seguridad.