El desafío de Simon Kohl recibió US$ 50 millones para crear proteínas con GenAI y provocar el "momento ChatGPT" de la medicina
Fundó Latent Labs una startup que se encuentra en uno de los campos más fascinantes de la industria: el de la intersección entre la IA y la biotecnología. Además integró el equipo que ganó el Nobel de Química por AlphaFold2 del año pasado.

Pablo Wahnon Editor de Innovación

La IA Generativa es la tecnología del momento. Es muy conocida por cómo al modelar el lenguaje produjo un resultado sorprendete: un conocimiento semántico que le permitió responder todo tipo de consultas y hasta crear imágenes o texto. Los LLMs o grandes modelos de lenguaje se basen en tomar grandes cantidades de texto como base para que sus redes neuronales aprendan patrones de los mismos. 

Pero hay mas lenguajes que el de los textos. La naturaleza esconde otras formas de lenguajes como las que están en el ADN y en las proteínas. Decodificarlos es la nueva mision de GenAI (por generative artificial intelligence o IA Generativa) y las primeras startups se están animando al desafío. Durante el AWS Re: Invent se mostró cómo Latent Labs aprovecha las flexibilidades de la nube para crear modelos de IA que tienen impacto en la biotecnología. 

Tras conocer su fascinante trabajo, Pablo Wahnon, editor de innovación en Forbes, entrevistó en Londres a Simon Kohl quien fundó Latent Labs con el desafío de alcanzar metas biotecnológicas que podrían tener un impacto globla difícil de imaginar. 

Gracias Simon por recibirnos. Me llamó la atención que estás muy dedicado a la biotecnología pero tu formación de base es que eres Físico

Así es pero tiene su explicación. Estamos comenzando en el área del diseño de proteínas. En realidad, estamos desarrollando 

modelos de vanguardia que son generativos, lo que significa que crean nuevas proteínas que no se encuentran en la naturaleza y que pueden tener, por ejemplo funciones  relacionadas con efectos terapéuticos, por ejemplo. Nuestra misión es hacer que la biología sea programable y hacer que esta tecnología sea accesible para otros, incluidas empresas y académicos. 

Creo que estamos en un punto fascinante en la ciencia, donde estamos viendo un impacto real de la inteligencia artificial en las ciencias de la vida y más allá. En lo personal, mis raíces en la ciencia vienen de mucho tiempo atrás. Comencé estudiando física y eso me dio las bases para hacer un doctorado en aprendizaje automático e Inteligencia artificial,  aplicando y desarrollando modelos en el área del análisis de imágenes médicas. 

Luego pasé a Deep Mind, una compañía de Google, donde primero hice una pasantía en el equipo de salud y después me uní al equipo de AlphaFold. Fui parte del equipo de  AlphaFold2 desde el principio y trabajé en diferentes aspectos del modelo, incluidos componentes clave de la arquitectura, como las predicciones de incertidumbre. 

Como bien sabes, AlphaFold2 causó un gran impacto. Fue el primer modelo computacional que rivaliza con otras técnicas experimentales en la predicción de la estructura de proteínas. Y llamó la atención a nivel mundial cuando fue reconocido con el Premio Nobel de Química que se otorgó a los científicos involucrados en este avance. 

Ser parte del equipo que ganó el Premio Nobel  es realmente increíble. ¿Podrías explicar un poco más cómo funciona AlphaFold 2? 

AlphaFold 2 es un modelo que a partir de la secuencia de aminoácidos predice su estructura tridimensional. Los aminoácidos son los bloques de construcción de la vida. Las proteínas se pueden pensar como secuencias de aminoácidos. Vienen en 20 variedades diferentes en el cuerpo humano, al menos. Y así, son como cadenas de 20 letras diferentes que forman las proteínas. Y estas secuencias se pliegan en el espacio de formas características y forman una estructura que les da su función, la que en cierto modo determina cómo interactúan con otras proteínas y qué hacen en nuestros cuerpos. 

Descubrir esas estructuras es un tema complejo. Así que durante mucho tiempo, los biólogos han estado muy interesados en conocer estas estructuras para entender mejor sus funciones. Pero determinar estas estructuras experimentalmente ha requerido mucho tiempo y esfuerzo. Y en muchos casos ha sido un proceso frustrante y sin éxito. 

Por eso ha sido un problema de larga data en la biología encontrar una manera de predecir la estructura de las proteínas a partir de su secuencia, o sea de sus aminoácidos. Y eso es precisamente lo que logró AlphaFold2, alcanzando una precisión comparable a la de los experimentos en un desafío internacional llamado CASP, donde compiten diferentes métodos de predicción de estructuras de proteínas. 

Lograr esa predicción fue como un largo viaje para la ciencia porque todos los científicos intentaron predecir estas estructuras, de las proteínas y desde un punto de vista matemático, eso es totalmente complejo. 

Sí, ha sido un desafío de décadas. La competencia en la que participamos lleva muchos años en marcha. Es importante mencionar que en DeepMind construimos sobre el trabajo previo de muchas otras personas. Nos basamos en la forma en que se evaluaba el problema, en los datos recopilados a lo largo de muchos años y en ideas que ya existían en el campo. De alguna manera hemos podido construir sobre los hombros de gigantes la ciencia y a partir de ahí logramos este gran avance que fue posible gracias a aplicar técnicas de inteligencia artificial. 

Y la naturaleza descubrió proteínas, pero no todas.  Hay muchas más que se podrían crear. ¿Podrías explicar, en este sentido, cuál sería la diferencia entre lo que se está haciendo con AlphaFold y lo que se podría hacer con GenAI? 

Si bien en la naturaleza las proteínas son abundantes resulta que claramente no ha muestreado en absoluto todo el espacio de proteínas posibles. Las proteínas que encontramos en la naturaleza con una realidad muy diminuta, una minúscula subsección de las proteínas que se podrían formar con los aminoácidos, por decirlo de alguna manera. 

Se puede pensar en AlphaFold 2 como un modelo que te permite de manera más eficiente visualizar estas estructuras de proteínas 

Y predecir su estructura lo cual nos lleva a entender mejor sus funciones biológicas. Así que en ese sentido actúa como un microscopio. Pero luego, como acabo de mencionar, existe este amplio y vasto espacio de proteínas que la naturaleza ha explorado pero sólo hasta cierto punto. Habiendo aprendido los fundamentos de la bioquímica, ahora estamos ampliando los límites. 

Estamos yendo más allá, diseñando proteínas desde cero cuando sea necesario. Pero la gran novedad es que ahora podemos hacerlo. Podemos dotar a las proteínas de nuevas funciones y realmente en eso es en lo que estamos trabajando. Con GenAI, o sea aplicando modelos generativos de IA podemos ir más allá de lo que la naturaleza ha descubierto. 

El trabajo que estás haciendo ha llamado la atención no solo de inversores institucionales, sino también de personas clave en el desarrollo de la IA generativa, que se han sumado como inversores personales. 

Sí, es cierto. Pudimos lograr cerrar una ronda de inversión y, en total, nuestra financiación alcanzó los 50 millones de dólares. Entonces ahora estamos en una posición que nos permite desarrollar todo lo que nos hemos propuesto hacer con mucho impulso. Y como dijiste, un grupo fantástico de personas e inversore nos están apoyando. 

Así que, por un lado, hay inversores institucionales, como Radical Ventures y otros socios que aportaron la mayor parte de los fondos. Pero igualmente, como mencionaste, individuos científicos asombrosos están contribuyendo con nosotros. Por ejemplo, el coautor del artículo sobre Transformers que es la tecnología clave de GenAI, Aidan Gomez o el CEO de Eleven Labs Mati Staniszewski e incluso el científico jefe de Google  Jeff Dean. Así que realmente tenemos un grupo fantástico de personas a nuestro alrededor. 

¿Cómo podemos diferenciar lo que se puede hacer con AlphaFold de lo que se hace con la IA generativa?  

Tal vez la diferencia sea que con la IA generativa existe un contexto más amplio para el descubrimiento de nuevas proteínas. Sabes, el aprendizaje automático a un nivel muy alto. Se trata de aprender patrones ocultos en los datos que de otro modo serían difíciles de capturar con reglas, o sea mediante un enfoque matemático más simple. 

Ahí es donde realmente brillan estos modelos. Por supuesto, como sabrás, estas arquitecturas complejas de los Transformers que son la base de los LLMs que se aplican en ChatGPT y las otras IAs, son altamente flexibles para extraer patrones subyacentes de los datos, y en ese sentido, realmente se puede ver el aprendizaje profundo como una compresión de datos en los pesos del modelo. 

Ese es el proceso de aprendizaje. Realmente, y como mencionaste, ha habido muchos avances en los últimos años, particularmente en la IA generativa, donde estamos viendo modelos que funcionan muy bien para texto, chat, imágenes, video, audio y todo impulsado por paradigmas similares. Y lo mismo ocurre en biología. 

Estamos haciendo un trabajo relacionado donde también construimos modelos con enfoques específicos, con elementos personalizados en la arquitectura y en la forma en que tratamos los datos. Pero al final del día, de nuevo es compresión.  Tenemos datos disponibles sobre la secuencia y estructura de proteínas e incluso más allá de otros tipos moleculares que nos interesan mucho, como el ADN, ARN, y pequeñas moléculas y como todas, interactúan. 

Al tener grandes bases de datos públicas sobre estos temas, y esto es un gran mérito de las personas que con mucho esfuerzo recopilan estos datos y los ponen a disposición, se hace posible realizar sistemas de IA que puedan entrenarse en ellos. Ahora podemos construir modelos multimodales que nos permiten aprovechar diferentes fuentes de información de muchas maneras. 

Se podría describir esto como multimodalidad porque brinda mucha flexibilidad en términos del tipo de datos de los que se puede aprender. Si bien en gran medida obtenemos datos de fuentes públicas, luego se invierte mucho trabajo en curarlos, limpiarlos, aumentarlos y enriquecerlos para que sean lo más útiles posibles para alimentar nuestros modelos. 

Yendo a la cuestión de cada tecnología con AlphaFold podemos predecir la estructura de una proteína que es un paso crucial para entender su función biológica. Pero AlphaFold no es un modelo que vaya más allá de eso. No genera nuevas proteínas de manera condicional o en un contexto determinado. Nosotros estamos construyendo una nueva clase de modelos que finalmente son dirigibles y condicionales en función de requisitos que son relevantes en el mundo real. Se trata de dada una función crear la proteína que la realice. Por ejemplo, si hay propiedades importantes para los medicamentos, podemos incorporarlas desde el principio mediante el ajuste adecuado de nuestros modelos. 

 ¿Qué opinas sobre las próximas etapas que veremos con esta tecnología en el futuro cercano.? Y también, si nos permitimos un poco de ciencia ficción, ¿Qué crees que podría suceder a más largo plazo? 

Bueno, esperamos acelerar y mejorar el descubrimiento de fármacos en el corto y mediano plazo. Nuestra tecnología permitirá a las personas hacer cosas que tradicionalmente han sido muy difíciles y creo que eso desbloqueará un gran impacto. Va a acelerar el descubrimiento de medicamentos. 

También esperamos que nos permita  desarrollar nuevas modalidades de tratamiento para enfermedades que antes se consideraban intratables. Así que creemos que en el mediano plazo podremos aportar un impacto tangible. Y a largo plazo el sueño es hacer que este proceso sea completamente automatizado, que se pueda dirigir cada aspecto computacionalmente. 

Realmente se trata de evitar lo que actualmente es un proceso experimental iterativo y por lo tanto muy prolongado en el tiempo. Si todo sigue avanzando quizás en el futuro, cuando estos modelos sean capaces de hacer muchas cosas al mismo tiempo, eso cambiará completamente. Creo que nos dirigimos en esa dirección. Creo que veremos muchos avances emocionantes en esta área. Así que seguro será un área fascinante para seguir durante los  próximos años.