Esta startup de IA generativa tiene como objetivo mantener a los médicos actualizados sobre la ciencia más reciente
OpenEvidence, valorada en 425 millones de dólares, está asumiendo uno de los grandes desafíos de ingeniería de la IA: romper con los grandes modelos de lenguaje cuyo entrenamiento está estancado en el pasado.

Una de las limitaciones de los grandes modelos de lenguaje es que su formación está congelada en el tiempo. Si se le pregunta a ChatGPT de OpenAI si las vacunas Covid funcionan contra la variante más común que circula en 2023, responde: “Como modelo de lenguaje de IA, no tengo acceso a datos o información en tiempo real más allá de mi última actualización en septiembre de 2021 .”

Mucho cambió desde entonces: hay nuevas cepas de Covid, nuevas aprobaciones de vacunas y medicamentos, y decenas de miles de nuevos estudios científicos. Para que los chatbots sean útiles en un entorno médico, necesitarán acceso a las últimas investigaciones. Armado con US$32 millones en capital, casi una docena de empleados con doctorados (o candidatos a doctorado) y una supercomputadora en el desierto de Nevada, Daniel Nadler esta trabajando para resolver este problema del límite de conocimiento con su nueva empresa OpenEvidence.

El reentrenamiento constante de los modelos de aprendizaje automático requiere enormes cantidades de potencia informática costosa, pero hay otra opción. Es un desafío técnico y de ingeniería que implica "unir estos modelos de lenguaje con una manguera contra incendios de documentos clínicos en tiempo real", dice el fundador de OpenEvidence, 
 

Daniel Nadler, fundador de OpenEvidence

Si le haces la pregunta al chatbot de OpenEvidence sobre vacunas y la nueva variante de Covid, responde que “los estudios específicos sobre esta variante son limitados” e incluye información de estudios publicados en febrero y mayo de 2023 con citas. La principal diferencia, dice Nadler, es que su modelo “puede responder con un libro abierto, a diferencia de un libro cerrado”.

Esta no es la primera vez que Nadler es fundador de una startup de IA. Vendió su empresa anterior, Kensho Technologies, a S&P Global por US$ 550 millones (más US$ 150 millones en acciones) en 2018. Kensho es una herramienta impulsada por IA para comerciantes de Wall Street que analiza millones de puntos de datos de mercado para ayudar a identificar oportunidades de arbitraje.

Durante la pandemia de Covid, a medida que la cantidad de estudios científicos se disparó de cero a decenas de miles en el lapso de unos pocos meses, Nadler vio que los proveedores de atención médica enfrentaban un problema similar al de los comerciantes: cómo separar información creíble y procesable del ruido. Pronto se dio cuenta de que eso no solo era cierto para los estudios de Covid, sino también para el campo médico en general, ya que cada minuto se publican alrededor de dos artículos científicos. 

Los inversionistas de capital privado han invertido más de 46 mil millones de dólares en nuevas empresas de inteligencia artificial y aprendizaje automático centradas en la atención médica de EE. UU. Durante la última década, según datos de PitchBook, la inversión alcanzó un máximo de US$ 13,4 mil millones en 2021 y se redujo a US$ 10,3 mil millones en 2022. Las nuevas empresas recaudaron US$ 3 mil millones en 205 acuerdos en lo que va del año.

Nadler fundó OpenEvidence en noviembre de 2021. Después de invertir US$ 5 millones de su propio dinero, dice que cerró una ronda de financiación de la Serie B de US$ 27 millones de inversores externos en julio de 2022, valorando la puesta en marcha en US$ 425 millones. Abrió la ronda a los antiguos inversores de Kensho, incluido el capitalista de riesgo multimillonario Jim Breyer, el cofundador de Vista Equity Partners multimillonario Brian Sheth y el banquero de inversión Ken Moelis, entre otros. En marzo, OpenEvidence fue seleccionada para participar en una aceleradora de Starups organizada por Mayo Clinic. Desde entonces, Nadler dice que más de 10 000 médicos se registraron para el acceso anticipado, que es lo que ahora lo impulsa a salir de las sombras.

Nadler dice que OpenEvidence está tratando de hacerse cargo de la gran base de datos utilizada por dos millones de trabajadores de la salud en todo el mundo llamada UpToDate de la empresa de datos globales con sede en los Países Bajos Wolters Kluwer. Las soluciones clínicas de la división de salud de Wolters Kluwer, que incluye UpToDate, generaron más de US$900 millones en ingresos en 2022. 

UpToDate depende de más de 7000 expertos humanos para escribir y editar las entradas sobre temas médicos, según Suzanne Moran, portavoz de Wolters Kluwer Health. “Los temas de UpToDate se revisan cuando se publica nueva información importante”, dijo Moran en un comunicado. Los editores revisan más de 420 revistas revisadas por pares.

Donde Nadler ve que la IA tiene una ventaja sobre las entradas editadas por humanos, es que OpenEvidence es interactivo en lugar de una página estática de texto, lo que significa que los usuarios pueden adaptar sus preguntas a escenarios de pacientes precisos y hacer seguimientos, en lugar de tener que leer enormes trozos de texto.

También puede escanear decenas de miles de revistas en lugar de cientos. El grupo de documentos del que OpenEvidence está recuperando información incluye más de 35 millones de artículos de revistas. Nadler dice que revisa la Biblioteca Nacional de Medicina, que incluye más de 31,000 revistas revisadas por pares, varias veces al día. Él dice que hay un retraso de alrededor de 24 horas para procesar los nuevos artículos de revistas y ponerlos en el grupo de recuperación.

Sin embargo, todos esos datos plantean un atasco potencial para los objetivos de Nadler: no todos los artículos de revistas se crean de la misma manera en lo que respecta a la calidad de lo que publican. La comunidad científica tiene un sistema de clasificación conocido como factor de impacto, lo que significa que las revistas que son más citadas son más importantes en términos relativos en comparación con las revistas con menos citas. Los modelos de OpenEvidence tienen esto en cuenta al recuperar información del conjunto de nuevos artículos de revistas. "Tiene respuestas ponderadas por evidencia", dice Nadler, lo que significa que se tiene en cuenta la "calidad de la fuente de entrada".

Cada modelo de lenguaje grande se comporta de manera diferente, pero la idea general es que componen las respuestas al predecir la siguiente palabra más probable en una oración. Cuando los modelos tienden a dar una respuesta incorrecta es cuando "muchas terminaciones diferentes [son] igualmente probables", explica Uri Alon, investigador postdoctoral en el Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon, que no está afiliado a OpenEvidence.

Si toma un modelo que ha sido entrenado en Internet y le pregunta sobre una persona famosa, es probable que obtenga información biográfica correcta. Pero si pregunta sobre una persona normal sobre la que no tiene datos de entrenamiento, podría generar una respuesta incorrecta, conocida como "alucinación". Ahora, si proporciona al modelo un conjunto de información, incluidos los datos biográficos de esa persona normal, es mucho más probable que lo haga bien. “Algunos enfoques le permiten no solo generar una respuesta que sea coherente con los documentos que recupera”, revela Alon. “Pero también extraiga la oración exacta o el párrafo exacto que lo dice”.

Este es el enfoque que adopta OpenEvidence al proporcionar citas de los artículos de revistas de los que se extrae. Sin embargo, Alon advierte que si bien los sistemas de recuperación aumentada pueden ayudar a reducir las alucinaciones, nada es a prueba de balas. Estos modelos siempre serán falibles al igual que los humanos. “Si le das a un humano un montón de documentos o párrafos, deja que el humano los lea y luego responda preguntas, y también pídele que te diga de dónde proviene su respuesta en esos documentos, incluso los humanos cometerían errores”, resalta Alon.

En este momento, OpenEvidence es de uso gratuito para los primeros usuarios que son profesionales médicos con licencia. Parte de la razón de esto es la cantidad de poder de cómputo, y el gasto, que se necesita para ejecutar las consultas. Antonio Forte, profesor de cirugía plástica en Mayo Clinic que forma parte del consejo asesor médico de OpenEvidence, dice que usa UpToDate con regularidad. Forte dice que la mayor diferencia al usar OpenEvidence en las últimas semanas ha sido el ahorro de tiempo. En lugar de tener que leer el equivalente a un capítulo de un libro, puede obtener una respuesta "en 30 segundos, no en 10 minutos".

La esperanza es que otros trabajadores de la salud tengan una reacción similar a Forte. Nadler dice que aún no decidió un modelo de ingresos. Está debatiendo entre el modelo basado en suscripción y el basado en anuncios, pero se inclina hacia un modelo híbrido basado en anuncios con una venta adicional de suscripción. Pero una cosa es segura. OpenEvidence no se convertirá en un chatbot para el paciente promedio. “Eso no es un problema técnico. Ese es un problema regulatorio y ético”, dice Nadler, por lo que quiere crear una herramienta para ayudar a los médicos y enfermeras, pero que sigan confiando en su juicio humano. “[Existe] un límite muy firme para cualquier daño concebible que pueda derivarse del uso de la tecnología para un paciente, porque siempre está siendo intermediado por un profesional”